Wikipedia:繁简处理/转换表校对工作
维基百科,自由的百科全书
现在繁简体转换的程序已经初具雏形,我们急需完善程序所用的基本转换表。本页将用来协调这一工作。请大家热心参与!
[编辑] 一對多轉換原理及錯誤原因
由於简体中文以單一简体字來取代多個繁體字,因此必須有額外的資料來補足原先丟失的資訊。舉例說明:例如在繁體中的“髮”或“發”,在简体下都是“发”。在程式裡,我們有一個預設的對應,比如說“發”。那麼一般情況下要從簡體轉換成繁體時,程式遇到“发”就會先將其轉換成“發”。那麼什麼時候對應成“髮”呢? 這個就要看詞庫內而定。比如詞庫中有“头发=>頭髮”的關係,這樣“头发”就會被轉換成“頭髮”。如果沒有這一關聯,那“头发”就會被錯誤地轉換成“頭發”。
那詞庫是如何建立的呢? 首先,我們先有每個字的預設對應,比如“发”轉換成“發”。然後我們在一個現有的繁體詞庫中尋找包含(繁體)“發”的的词,再轉換成简体。這樣得到一個從简体到繁體的詞彙對應關係。
所以,我們先要確定一個多對應字的預設對應關係。除此之外,由於大陸、台灣、香港等地有些用詞的習慣不同,導致了部分詞匯上的差異。如果單單只是將文字從簡體轉成繁體(或是繁體轉成簡體),仍然會造成不同地區的用戶閱讀上的困擾。這也可以藉由轉換表的方式來取代成該區域的慣用語詞。例如:“硬盘<=>硬碟”,“缺省<=>預設”,這便是繁简分歧词表。