Wikipedia talk:繁简处理/技术方案
维基百科,自由的百科全书
专题讨论(聊天、互助客栈中有价值的讨论将被不定期复制到下列专题及其討論頁中)
技巧交流
- 原创编写(操作建议)
- 文章翻译(操作建议)
- 管理研究(操作建议)
撰写体例
分工协作
争议仲裁
意见感想
目标规范
- 条目标准(操作建议)
技术问题
- 繁简处理(技术方案)
目录 |
[编辑] 实现机制
最好用 ANSI C 来写一个 lib,做成一个开源的项目,并提供与各种语言的接口,比如 PHP、Python 等。算法吗,可以考虑用树来实现。--Xyb 02:42 2004年9月9日 (UTC)
- 基于转换表的转换程序是相对简单的,用PHP就可以。问题是转换表本身。但是如果是基于上下文的智能转换就领当别论。我想我们的目标是前者吧?Zhengzhu 03:00 2004年9月9日 (UTC)
对于这类问题,通常的方法可以分为这样四种
1.字到字的转换表
优点:非常简单,转换表的制作也很容易完成 缺点:不能解决头发、皇后这样的问题。 也不能解决大陆、台湾用语习惯不同的问题(这个问题是否应在繁简体转换中一并解决,还有待商权)
2.词到词的转换表
优点:1的自然发展,同样是比较简单容易操作的 缺点:汉语中词的概念不像西方语言那样明显,主要体现在几个方面: (1)汉语中语义的基本单位不是词,而是字,单字词在汉语中占了很大比例,对于单字词来说, 词到词的转换和字到字转换没有什么区别, 举个例子:比如做姓讲的“种”,和“種子”的“種”,从“种”来看你可以把水浒传里的 “延安府老种经略相公”,“老种”作为一个词加入规则,但如果另一篇文章中提到了“种某某”, 你就不可能把古往今来所有姓种的人都加入规则;从“種”来看,你可以把“種子”“品種”“種类” 加入规则,但你没法把所有作为单字词出现的種都加入规则:“这三種種子的大小各不相同”“谁来给 加个種啊?”(引自某bt论坛) (2)汉语中大部分词的构成是很灵活的,可以很容易的组出新的词,比如你可以说“種马”是一个词, 还可以有“種猪”“種羊”,但是“種鸟”呢?鸟就不可以配種吗?现在养鸵鸟的人可是很多的欧! 类似的词还可以造出无数。 (3)汉语在书写中是不区分词的边界的,所以就有了前面提到的“人体内存在很多微生物”和“人体記憶體 在很多微生物”这样的问题。 即使我们讨论的不是汉语,而是英语法语这样的语言,要在词一级的层次上完全确定意义也是做不到的, 在句子的层次上也一样不行。
3.根据上下文,但不分析语义的转换
可以根据一些句型结构这样的模式,进行匹配,或者根据统计规律来提供转换的参考 比如:一个用逗号隔开的短语,开头是“在”,结尾是“后”,那么可以判断这个“后”多半是“後”而不是“后” 再比如:如果上下文中出现很多“门”、“纲”、“目”、“科”、“属”这样的词,那么句中出现的“种”很可能 就是“種” 优点:比2更进一步,准确性可能更高 缺点:程序实现,和构造规则的难度都较大
4.在理解语义的基础上进行转换
更进一步的分析,比如加入词性,词汇搭配,等等,直到完全抽取到全部的语言信息,从语义的层面进行分析 优点:理论上说是可能的,也是唯一有可能完全确定一个字的意义(也决定了写法)的方法 缺点:难度非常大,搞成之后那个图灵奖,当上著名大学终身教授应该是顺理成章的 还要说一句的是,中文的句式很灵活,很少固定的搭配和句型,一个词(字)的意义很多,多数词都有 多个词性
我们现在所采用的当属第2种,在效果、难度、效率之间是一个比较好的折中 但如上面所讲的,这样的方法并不足以解决全部的转换问题 因此,我认为我们的目标应该是,用词转换表提供一种简单高效容易操作的转换,并解决大部分的繁简问题 而以“-{zh-cn...zh-tw...}-”解决相对不具有普遍性的问题
--Soliton_Z 14:08 2004年12月16日 (UTC)
[编辑] 测试站
我在[1]放了个测试站,欢迎大家去试试。目前实现的基本思想类似于Wikipedia-l 上的一个贴子,[2],也在Wikipedia talk:繁简处理的讨论中提到过,大致如下:大部分文字在服务器端自动转换,不能自动转换的用wiki标记指明如何转换。Zhengzhu 02:54 2004年9月9日 (UTC)
Shizhao 提到 Wikipedia talk:繁简处理/档案5#我来提个解决方案,我觉得有一定的道理。但是,我觉得那样会造成繁/简用户的不对称。另外,完全自动的转换总会有问题,所以加wiki标记似乎不可避免。Zhengzhu 02:54 2004年9月9日 (UTC)
-
- 简体用户和繁体用户的工作方式不一样。简体用户通过更改转换规则来改正错误,繁体用户则通过改变条目文字来改正错误。加wiki标记则是双方都是通过改条目文字来改正自动转换的错误。Zhengzhu 03:32 2004年9月9日 (UTC)
Xyb 提到这个方法比较麻烦,尤其对于新手,因为有一个新的wiki标记需要学习。不过,我认为这其实是该方案的优点:新手(假设是简体用户)写作可以完全不管繁简互换的问题,只用自己习惯的中文(简体)书写。更有经验的繁体用户可以再改正少量的自动转换错误。而且,我设想如果转换表里没有的对应关系,应该是要有至少一个简体用户和一个繁体用户合作才能发现。
Zhengzhu的工作非常好,但我不知道你的工作能否和Squid良好的结合呢?--Mountain(Talk) 05:47 2004年9月9日 (UTC)
- 对Squid了解还很少。从理论上讲在server端保持繁简各一份cache应该是能做的到的。你能提供wikipedia和Squid结合的参考文档吗?
条目名称也需要转换。另外还要考虑到与以前的兼容性。词汇的对照表应该是开放性的,这样才符合wiki和GNU的精神--百无一用是书生 (Talk) 05:51 2004年9月9日 (UTC)
千万不要忘了这是一个国际性的项目,要考虑到其他语言版本。现在比较好的一点是通过-{}-标记可以让某些文字可以不处理。但是完全手工的进行词汇的转换,太繁琐了,需要更加自动化一些,这也是使用一个繁简对照表的用意--百无一用是书生 (Talk) 05:56 2004年9月9日 (UTC)
- 条目名称的处理好象和文章本体不太一样,这要再研究。关于词汇转换,在程序里,词汇和单字的处理是一样的,都是一些utf-8串,只要有词汇的转换表即可实现词汇的转换。测试站正在用一个很简单的转换表。转换表当然应当是开发性的,但是我觉得没有必要单独维护一个转换表,而是通过程序从现有文章里的手工转换渐进性地生成:假设一开始根本就没有词汇表,只有字的转换表。那么在编辑条目时,我们就要手工做所有词汇的转换。过了一段时间,我们可以用程序把整个数据库过一遍,把这些手工做的转换收集起来,加到上一个版本转换表中。如此反复,我们就会有一个日渐完整的转换表。当然如果我们一开始就有比较完整的词表的话会令起始工作好做很多(手工翻译少些)。我比较喜欢这种渐近性的模式。Zhengzhu 08:11 2004年9月9日 (UTC)
我做了个基本的简-繁词表, 用在测试站里. 另外, 我把9月8号的数据库备份放上去了, 这样大家可以看看实际的效果如何. 请大家踊跃在此提出建议/意见/问题. 具体转换表过几天贴上来(这两天太忙啦...) Zhengzhu 14:00 2004年9月10日 (UTC)
我个人反对'使用内部存储繁体简体由转换表自动生成的方案。使用繁简混排存储加简单的字转换表的方案是首选,转换表只应该做简单的文字级别的转换,不应该涉及词语,不应该涉及上下文,程序应该分下面几步工作:
1. 从数据库读取繁简混排的wiki文本 2. 如果用户语言是zh,则判断是zh-CHS还是zh-CHT,并据此将数据库中对应的混排文本转成相应繁体或简体文本 3. 应用标准wiki标签,同时应用处理繁简问题的定制wiki标签,繁简标签类似上面所说,即对于繁简说法不一致的词语分别给出两个版本 4. 呈现生成的HTML给用户
用户语言可以用过HTTP Request Header的Accept-Languages节获取
新增的标签应该力求易懂,标签是必须加的,不能依赖转换表,不应该有转换表,转换表会导致歧义难以解决。
Yaohua2000 09:26 2004年9月22日 (UTC)
[编辑] 有关数据库
保留的一个数据库是什么版本的?--[[User:Zy26|zy26 (Talk)]] 05:07 2004年9月9日 (UTC)
[编辑] 匿名繁简体用户的识别
對匿名用户可否嘗試按其IP位址識別所在地以推測新來者要使用的版本?
又或可在當眼位置放置一個轉換版本的按扭,當匿名用戶第一次選擇後,我們用cookie將這決定記下,那下次那匿名用戶再來我們就可以提供合適的版本。 --Lorenzarius 13:45 2004年9月13日 (UTC)
- 我觉得完全按照IP地址来推测似乎有点问题,尤其是对于那些身在海外的华人(我说的海外是指大陆,台,港,澳之外的地区)。操作系统是提供系统函数来判断当前操作系统的语言版本的(对于Windows,可以通过API函数GetSystemDefaultLCID (VB) 或者 调用Win32函数GetOEMCP() (VC)判断系统的语言;对于 linux,判断 LANG,或者 LC_CTYPE 就可以了;至于Mac OS我不太了解)。--Chenhao927 13:18 2004年9月14日 (UTC)
-
- IP確是不大可靠的。我的想法是,我們要盡量在新來者第一次來的時候,就可以提供合適的版本。如果有可靠的方法達到這個目的就最好了。 --Lorenzarius 13:28 2004年9月14日 (UTC)
- 各位好像都不懂HTTP协议啊,你在浏览器的语言设置里选的默认语言不管用么?好好看看HTTP规范吧,浏览器会把用户默认语言发给服务器的,根本用不着什么IP Yaohua2000 09:07 2004年9月22日 (UTC)
-
- 對不起,我就是不懂HTTP。我只知道不是所有人都有在他們的瀏覽器設置默認語言。 --Lorenzarius 12:29 2004年9月22日 (UTC)
[编辑] 兼容性问题
现在存在许多同一个条目两个版本的情况,还有许多繁体重定向到简体,或者简体重定向到繁体,将来繁简转换时应该如何处理这些情况呢?--百无一用是书生 (Talk) 07:51 2004年9月14日 (UTC)
- 个人认为应该保持一个版本。对于程序来说,繁简转换的时候应该没有影响。--[[User:Zy26|zy26 (Talk)]] 05:54 2004年9月20日 (UTC)
[编辑] Squid Cache的问题
Wikipedia Squid Cache的资料请参考:Wikipedia network ideas。--Mountain(Talk) 08:29 2004年9月14日 (UTC)
[编辑] 测试评价
现在的测试中,我认为可以改善一下。现在繁简用语不同必须每次进行手工转换,例如克罗地亚和克羅埃西亞,比较麻烦。最好能够修改一次,所有文章中的词汇都同时转换。因此,我还是认为做一个开放的转化表比较好。在转换表中列出繁简不同的用词:比如
zh-cn | zh-tw |
克罗地亚 | 克羅埃西亞 |
用户可以随时添加新的词汇到表中。软件根据表中的词汇进行转换。为了防止有人恶意的修改转化表,可以将他设定为一个特殊页面,并且只允许管理员来编辑。其他用户可以在专门的页面提出繁简对应的词汇,经过认可后由管理员录入到转换表中。这类似于投票或协商机制,也是维基百科上的一致传统。
现在的测试有很多bug,例如首页中的许多内容还是繁简混杂,并没有转换。
- 能否具体指出bug所在?这样我好检查问题出在在哪里. -- Zhengzhu 12:01 2004年9月15日 (UTC)
-
- Ok, 我找到了,是因为繁简转换放在了变量替换之前。已改正。-Zhengzhu 04:49 2004年9月16日 (UTC)
建议将-{zh-cn克罗地亚zh-tw克羅埃西亞}-这种标记的作用与转化表合并,-{克罗地亚}-这种标记保留,其中的内容作为不转换处理。另外还要考虑到,文章中出现的日文汉字不要转换,如果没有其他方法,也可以使用上面的标记来标明。--百无一用是书生 (Talk) 07:32 2004年9月15日 (UTC)
或者进一步使用-{zh克羅埃西亞}-这种标记,表示其中文字只进行繁简直接转换,而不进行词汇的转换。即:-{zh克羅埃西亞}-在简体显示为“克罗埃西亚”,而不是克罗地亚,而在繁体则仍然显示为克羅埃西亞;同理-{zh克罗地亚}-繁体显示为克羅地亞,简体则仍然显示为克罗地亚。这主要是为了让一些对繁体或简体阅读有困难的人来服务的--百无一用是书生 (Talk) 07:41 2004年9月15日 (UTC)
- 看来我需要对测试站澄清一下:我现在只是想集中解决技术上的问题,主要完成基本的编程工作。具体的转换表格需要大家合作努力来完善,所以我把现在测试站所用的字表和词表列在Wikipedia:繁简处理/技术方案页上,供大家修改完善(感谢User:Theodoranian和User:Mountain提出的具体建议!已经体现在测试站上了)。
- 关于“克罗地亚”,这仅仅是一个示例,用以说明在转换表没有该词条的情况下,可以如此如此的作手工的转换。具体什么词要或不要转换可以留到基本技术问题解决完了再决定。
- 关于“-{zh-cn...zh-tw...}-”这种标记,我认为很有必要保留,理由如下
- 可以使让用户即时更改转换错误,而不需要经过一个“提交新词”->“等待批准”的过程。
- 更重要的是从技术角度考虑:自动转换的计算复杂度大约是,其中L是文章长度,n是转换表的长度。单看这一数字,似乎复杂度不高。但是,我们还要考虑同时可能会有成千上万的用户需要在同一时刻作此转换,这就会对服务器造成很大的压力。对L我们没有办法限制,但是我们可以尽量控制n,即转换表的长度。如果不用这种手工转换标记,那么转换表会越来越大,对服务器性能照成冲击。另外,我们可以予期大部分象“克罗地亚<->克羅埃西亞”这样的问题只会在少数文章中出现,因此对每一篇文章都用包含“克罗地亚<->克羅埃西亞”的词表进行转换是一种浪费。
- 关于手工转换的繁琐性,我有两点看法:
- 我相信在实际操作中不会象想像中那么繁琐。另外,我们可以用技术来降低繁琐度,比如:
-
- 可以在编辑程序中增加一小段javascript来实现“搜索/替换”的功能,这样可以方便地进行重复的替换
- 可以编写bot根据以往的手工转换来对新文章进行“自动的手工转换”,也就是说,bot会用一张很大很大的转换表,对新文章进行修改,比如把“克罗地亚”改成“-{zh-cn克罗地亚zh-tw克羅埃西亞}-”。这其实是将服务器的在线转换变为bot的离线转换,可以大大地减轻服务器的负担。
- 我在翻阅以前的讨论时,经常看见以“繁琐”来否定某一方案。的确,有的方案会比另一些方案更繁琐。但是,编写百科全书本身就是一件极其繁琐的事情,而wikipedia本身就是利用“人多力量大”的原理来对付这个繁琐的问题,这也是它成功的主要原因之一。我相信任何繁简转换方案都会是很繁琐的,特别是在我们的数据库已经小有规模的情况下。但是只要参与的人多了,就不会显得那么繁琐了。
- --Zhengzhu 15:41 2004年9月15日 (UTC)
-
-
- 观点不同很正常:) 现阶段我建议,技术上可以保留“-{zh-cn...zh-tw...}-”标记,具体实施的时候再决定是否一致采用/鼓励采用/不鼓励采用/禁止采用。我是觉得使用这个标记可以使转换工作尽快展开,不用等待最后敲定转换表。如果以后大家决定要全部取消该标记,写一个 bot 来完成也是很简单的。-Zhengzhu 03:31 2004年9月16日 (UTC)
-
Zhengzhu的工作令人振奋。下面是我的几点意见:
- 我觉得应该允许用户自己在用户参数里设定自己的local,对中文用户来说这个本地信息可能包括:中国、台湾、香港、新加坡等等,然后根据这个本地信息来显示界面、繁简转换;如果没有事先设定的本地信息,则再跟据浏览器提供的系统信息作判断。
- 标记“{zh-cn...zh-tw...}”我觉得有点 ugly ,不如“{zh-cn:...,zh-tw:...,zh-sg:...}”显得规整。
- 要记住,有时候一篇文章里大部分字都要繁简转换,但可能此时还有一些字符必须不作繁简转换。我以前建议过用“\X”表示X不作转换。
--Mountain(Talk) 05:25 2004年9月16日 (UTC)
- 呵呵,同意。用“-{zh-cn...zh-tw...}-”是因为编程简单而已。不过对不需转换的字符似乎还是用-{X}-比较好,和“-{zh-cn...zh-tw...}-”标记比较统一。(可以认为-{X}-是-{zh-cn:X,zh-tw:X,zh-sg:X,...}-的缩写)。具体用什么标记可以再详细讨论。我选-{}-的主要是因为“-{}”这三个键靠得很近。-Zhengzhu 05:44 2004年9月16日 (UTC)
如果轉換表按照Unicode碼有序存儲,那麽對於當前不到3000個差異字,每次查找的次數應該不超過13L(L為文章長度)?--Yacht (talk) 11:40 2004年9月29日 (UTC)
[编辑] 界面测试
测试站现已实现繁简界面的切换。如果检测的用户语言是zh-cn(缺省值),则使用简体界面,否则使用繁体界面。具体做法是在数据库中保留两个版本的 message key. 比如原来的 mainpage 变成了 mainpage_cn 和 mainpage_tw。相应的 message 函数则根据语言选项决定是用 mainpage_cn 还是 mainpage_tw。这个改动只花了很少时间(quick hack),所以很可能不是很完善。至少有一处,就是 Special:Allmessage 页还没做相应修改,仍显示原来的 message key。如果要使用 Special:Allmessage,可以手工在浏览器的 URL 框中加上_cn 或 _tw。我用此法把 mainpage 该成了“cn首页”和“tw首頁”,仅作示例。另,“cn首页”和“tw首頁”都改成原来“首页”的重定向,亦仅作示例。其它繁简体的界面翻译来自 mediawiki 1.3.3 版的 LanguageZh.php 和 LanguageZh_tw.php。-Zhengzhu 03:10 2004年9月16日 (UTC)
- 上诉描述已过时。现在界面切换的临时解决办法是用象转换文本一样的方法,对界面的字串进行繁简转换。--Zhengzhu 13:52 2004年9月17日 (UTC)
先把界面部分完成吧(不包括首页)。我觉得如果没有问题,可以与开发者联系,将修改的代码告知。或者将代码放在meta上,可以有更多的人来讨论和修改。其他页面内容的繁简问题可以作为下一步的目标--百无一用是书生 (Talk) 06:50 2004年9月16日 (UTC)
另外,现在zh-cn.wikipedia.org , zh-tw.wikipedia.org都重定向到zh.wp。可以把这个加到代码中。通过zh-cn访问的用户显示简体,通过zh-tw的用户显示繁体--百无一用是书生 (Talk) 06:53 2004年9月16日 (UTC)
[编辑] 有歧义的转换
Chenhao927在Wikipedia:繁简分歧词表里加了一条:内存 <=> 記憶體,这令我想起一个小笑话:老师让学生用“如果”造句,有学生曰:“汽水不如果汁好喝。”象“内存 <=> 記憶體”这样的转换就会有这个问题,比如:“人体内存在很多微生物”就会变成“人体記憶體在很多微生物”。这也是必须用手工方法才能有效解决的。-Zhengzhu 13:24 2004年9月16日 (UTC)
- 这种情况,个人感觉应该在转换表里加上高优先级的“存在<=>存在”。--[[User:Zy26|zy26 (Talk)]] 21:12 2004年9月16日 (UTC)
- 如果例子中把“存在”改为“存有”,Zy26的处理方法就又要增加规则。类似问题很难说清,因而我同意强制说明。--冷玉 01:58 2004年9月17日 (UTC)
- 特殊标记和特殊规则意思应该差不多……--[[User:Zy26|zy26 (Talk)]] 07:16 2004年9月24日 (UTC)
- 不知道这里可不可以分词,如果分了词就好多了。Powerpoint的文字演示一般都不是一个字一个字跳出来的,而是一个词一个词跳出来的。Burea Acupotter'n 13:19 2004年12月7日 (UTC)
[编辑] ----
最好把zh-tw中的namespace改成英文,这样与中文版保持一致比较好。--百无一用是书生 (Talk) 07:55 2004年9月17日 (UTC)
另外第一步先让操作界面改称繁简两种版本的,其他的页面内容先不要做转换。让大家熟悉一段时间以后,有了进一步认识和讨论,在进行页面内容的转换。另外,应该可以让Allmessages页面同时显示繁简两种界面的代码,并且不做转换,方便修改和维护。--百无一用是书生 (Talk) 07:59 2004年9月17日 (UTC)
[编辑] 程序源代码
程序源代码已进入CVS,请有兴趣者参与修改完善!-Zhengzhu 11:03 2004年9月17日 (UTC)
最好能够允许用户在繁简体界面之间自由切换--百无一用是书生 (Talk) 11:33 2004年9月17日 (UTC)
- 這是什麼東西?不太懂呢!(請原諒我不是很懂電腦)--虎兒 12:22 2004年9月17日 (UTC)
多谢鼓励!界面切换是一个普遍的诉求,已经有初始的工作在进行。现在CVS里的代码有只针对繁简体的界面切换,作为一个短暂的解决方法。测试站现在运行的就是CVS中的代码。--Zhengzhu 13:48 2004年9月17日 (UTC)
[编辑] 用户参数设置
测试站及CVS中已实现在用户参数中设定繁简字体选项,请到测试站注册以测试效果。-Zhengzhu 19:40 2004年9月17日 (UTC)
- 参数设置中改变繁简界面,但是保存后仍然还是原来的界面--百无一用是书生 (Talk) 02:05 2004年9月20日 (UTC)
- 需要刷新一下才能起作用。 Zhengzhu 03:04 2004年9月20日 (UTC)
好像不起作用呀,连原来起作用的繁简转换也见不到了。--Mountain(Talk) 03:32 2004年9月20日 (UTC)
- 我刚试了试还可以的? 在"language variant"项选,而不是“interface language”哦。- Zhengzhu 04:10 2004年9月20日 (UTC)
"language variant"项选在哪里?没找到呀!--Mountain(Talk) 05:42 2004年9月20日 (UTC)
- 登录后选“参数设置”菜单,在“用户资料”栏有一标题为“language variant”的下拉选单。- Zhengzhu 05:58 2004年9月20日 (UTC)
- 只看到Interface language,没看到language variant--[[User:Zy26|zy26 (Talk)]] 06:02 2004年9月20日 (UTC)
好像有bug,有些界面是繁体,有些则是简体--百无一用是书生 (Talk) 06:04 2004年9月20日 (UTC)
- 已留意到这个问题了。-- Zhengzhu 11:44 2004年9月20日 (UTC)
参数设置中的界面语言(interface language)已经生效,请测试。-- Zhengzhu 07:03 2004年9月22日 (UTC)
- 现在只是界面的改变吗?文章内容不改变是吗?--百无一用是书生 (Talk) 07:21 2004年9月22日 (UTC)
- 文章内容由“language variant”控制。-- Zhengzhu 07:46 2004年9月22日 (UTC)
"language variant"选项在哪里呀?还是没有找到。"interface language"找到了,确实起作用了。--Mountain(Talk) 07:39 2004年9月22日 (UTC)
- “language variant”就在“interface language”下面啊 - Zhengzhu 07:46 2004年9月22日 (UTC)
-
-
- 把浏览器的cache清掉试试? -- Zhengzhu 07:55 2004年9月22日 (UTC)
-
-
-
- 另外请报告你们所用浏览器的版本。- Zhengzhu 08:18 2004年9月22日 (UTC)
-
-
- Internet Explorer 6,个人感觉是css的问题--[[User:Zy26|zy26 (Talk)]] 08:28 2004年9月22日 (UTC)
-
-
-
- 看到Language variant了。--[[User:Zy26|zy26 (Talk)]] 08:39 2004年9月22日 (UTC)
-
-
[编辑] 能不能在数据库的一个字段当中保持繁体及简体两个版本?
这样对于搜索,命中率能大一些,对于文章的编辑,可以编辑其中一个版本,另一个版本在存盘的时候自动生成,方便新手。--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC)
- 或许可以把搜索引擎的代码该一下,对一个关键词的繁/简两个版本分别搜索。这样可能容易实现些。-- Zhengzhu 12:43 2004年9月20日 (UTC)
- 现在的搜索引擎对于中文基本上处于毫无用处的状态,把汉字按字拆开,什么都找不到,是应该修改了。--[[User:Zy26|zy26 (Talk)]] 13:05 2004年9月20日 (UTC)
[编辑] 是不是应该处理类似这样的URL
http://s87257573.onlinehome.us/wiki/index.php?title=%E9%A6%96%E9%A1%B5&lang=zh-cn,直接显示简体……--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC)
[编辑] “-{”和“}-”
为了保证和现有版本的兼容,是不是可以改成类似标注的文字?
- -{foo}-
- 写成<!--{-->foo<!--}-->
- 显示成foo
- -{zh-cn:foozh-tw:bar}-
- 写成<!--{zh-cn:-->foo<!--{zh-tw:bar}-->
- 显示成foo
或者类似的方法。--[[User:Zy26|zy26 (Talk)]] 06:11 2004年9月20日 (UTC)
- 可以在代码中加一个选项决定是否忽略这个标记。-- Zhengzhu 12:44 2004年9月20日 (UTC)
- 不太喜欢这个标记,标记应该是和<math>,<nowiki>同样类型的吧。--[[User:Zy26|zy26 (Talk)]] 07:45 2004年9月22日 (UTC)
测试站的Special:Allmessages中的内容部分简体,部分繁体--百无一用是书生 (Talk) 07:26 2004年9月22日 (UTC)
- 可能是某些测试把数据库搞乱乐。关于 Special:Allmessage 该如何处理我还在思考...... Zhengzhu 07:51 2004年9月22日 (UTC)
一个小建议:使用-{}-标记进行词语的转换时,可否这样.无论在标记中输入繁体还是简体系统根据用户的设置自动进行繁简体转换。例如繁体用户输入-{zh-cn:克羅地亞;zh-tw:克羅埃西亞}-,在简体用户看来是克罗地亚,而不是克羅地亞。这样会比较方便用户的编辑,因为对于繁体和简体用户,同时输入繁体和简体可能会比较困难。
- 这样可能会造成一些混乱:如果克羅地亞到克罗地亚的转换有需要另外一个特殊规则呢?-Zhengzhu 04:11 2004年9月29日 (UTC)
另外,现在如果不正确使用-{}-标记,则页面完全不显示-{}-标记以内的内容,这样的话会使页面无法阅读,我觉得如果用户标记使用出现错误,应该显示整个标记的内容,而不是隐藏。--百无一用是书生 (Talk) 09:01 2004年9月23日 (UTC)
- 已实现,见测试站。-Zhengzhu 04:11 2004年9月29日 (UTC)
[编辑] 现在工作的建议
能不能把界面部分的自动转换工作完成后,先用到zh.wp中来?内容的转换下一步再说?这样也能给大家一个希望呀--百无一用是书生 (Talk) 07:57 2004年9月22日 (UTC)
- 升级到1.4需要同步吧。--[[User:Zy26|zy26 (Talk)]] 07:59 2004年9月22日 (UTC)
界面转换涉及的问题比较多,而且也不仅仅是 zh 用户的诉求,可能要等到 1.4 吧。要给大家个希望,不如在首页放一个小专栏介绍目前工作的进展? 这样新老用户可以知道进度如何,也鼓励大家多提意见。-Zhengzhu 08:13 2004年9月22日 (UTC)
[编辑] Mediawiki: namespace
我已将支持Mediawiki: namespace的代码加入cvs,并已更新测试站。现在的做法是繁体/简体的界面信息在数据库中各存一份,在special:allmessages页看到的语言版本和用户的界面语言选项一致。因为只有管理员才能对namespace修改,如果大家想测试的话请在此会话,我在测试站给你们加管理员权限。 - Zhengzhu 05:12 2004年9月25日 (UTC)
[编辑] 测试工作
恳请大家多参与测试工作!编写代码只是整个工作中的一小部分,还需要大量的测试才能使代码完善。这很重要,因为目前我添加的功能大部分都是针对zh.wp的,其他开发者和用户主要关心的是我的代码不会影响其它语言的工作,因此他们能提出的意见并不多。目前我最需要以下方面的反馈:
- 字一级的自动转换有多少错误?
- 词一级的自动转换有多少错误?(先不考虑有分歧的情况)
- 目前实现的功能是否足够支持日后的繁简合并工作? 若否,还需要哪些功能?
- 程序运行出现的异常情况(bug)。
谢谢大家-Zhengzhu 05:12 2004年9月25日 (UTC)
- 波里尼西亞錯誤繁化為波裏尼西亞。“里”->“裏”只應在特定時候才作轉換。一般應作“里”處理。又,台灣的正體字當為“裡”而不是“裏”。
- 只有簡體字轉為繁體字;但如果條文本身是繁體字,簡體用戶看到的仍然是繁體字,沒有作出對應的轉換。
--石添小草 06:51 2004年9月29日 (UTC)
- 是“里”一般对应为“裡”,而偶尔对应为“裏”,对吗? 正體字里没有“里”字?
- 簡體用戶看到的仍然是繁體字:是不是因为没有刷新cache? 改变繁简选项后要把页面重载一次(reload/refresh)才能起作用。请再试试?
- -- Zhengzhu 15:55 2004年9月29日 (UTC)
- 不是,正好相反,繁體中當然也有「里」字,所以不需要特地繁化為「裏」;就算要換,也是換成「裡」,因為台灣不用「裏」的。--密爾希弗拉雪 04:51 2004年9月30日 (UTC)
- 還有簡體的「只」(only)對應到繁體也是「只」,繁體很少用「祇」了現在;而且光是在首頁,「只」就都被轉換成量詞的「隻」,這是不正確的。我應該到哪裡去幫忙改呢?可否列出所有使用者可以去修改的對照表,包括介面的、繁簡字對應的、用詞對應的……--密爾希弗拉雪 06:03 2004年9月30日 (UTC)
- 现在的好像是固化在php内部的……--[[User:Zy26|zy26 (Talk)]] 12:45 2004年9月30日 (UTC)
- 國際象棋里的“后”(王后)转换成了“後”(先后)。--Alexcn 13:20 2004年9月30日 (UTC)
- 象这样的单个字的错误只有使用-{}-标记来修正了。-- Zhengzhu 14:15 2004年9月30日 (UTC)
- “后”这个字是否应该缺省不转,只有这个字放在特殊词的环境下(表示前后/先后的意思的时候)才转成“後”呢?大概120个常用的需要转成“後”的词。Uuuuu 17:12 2004年10月22日 (UTC)
- 象这样的单个字的错误只有使用-{}-标记来修正了。-- Zhengzhu 14:15 2004年9月30日 (UTC)
- 游戏:“剩馀”应为“剩余”--Alexcn 13:31 2004年9月30日 (UTC)
请到Wikipedia:繁简处理/转换表校对工作参与转换表校对工作。我也会在那里解释目前程序的工作原理。-- Zhengzhu 13:38 2004年9月30日 (UTC)
- 主站的 http://zh.wikipedia.org/wiki/%E6%96%BD%E6%B0%8F%E9%A3%9F%E7%8D%85%E5%8F%B2 存在问题,现象为不自动转换为简体。我是简体用户,Firebird 0.9.1,Default Language设置为GB2312。另外,页面上应该有明显的简繁转换开关--冷玉 18:21 2004年10月1日 (UTC)
- 多谢你发现这个问题!这是因为该文部分中文文字是用html entity编写的,而中文转换发生在html entity转换之前。我会想办法解决这个问题。-Zhengzhu 20:05 2004年10月1日 (UTC)
- 一个简单的解决办法就是把原文的html entity改成汉字,见[3]。按理正常输入的文字是不会被转换成html entity的。不知道原作者是如何输入的。可惜作者没有注册,只有一个ip地址,无法联系。 -- Zhengzhu 20:17 2004年10月1日 (UTC)
- 可能是Copy过来的,比如在英文维基输入,会被自动转换为html entity,再次编辑的时候直接Copy就是这样了;或者是用FrontPage之类的软件编辑的网页,网页内码没有选择中文的效果。这提供了另外一个思路,对于不需要转换的汉字,是不是可以转换成html entity以避免中文转换呢?--[[User:Zy26|zy26 (Talk)]] 04:56 2004年10月2日 (UTC)
-
-
- 刚发现我们是有Wikipedia:错误报告页的,我会去开一个关于繁简体转换错误的小节。其实mediawiki软件有一个专门的网站用来报告错误和建议的,在http://bugzilla.wikipedia.org/,可惜只有英文的界面。-- Zhengzhu 02:57 2004年10月3日 (UTC)
-
[编辑] 标题的繁简自动转换
现在测试站已实现文章标题的自动繁体/简体转换,请大家前去测试!转换包括两部分:
- 每篇文章标题的转换。如繁体用户点入“价格”页,将会看到条目标题为價格。
- 文章内的wiki链结也进行自动转换。如在测试站首页的“特色条目”栏,繁体用户会看到“...小吃一般售賣起點低,價格不高...",其中價格会自动链接到简体的“价格”条目。
-Zhengzhu 03:23 2004年10月4日 (UTC) 赞!--[[User:Zy26|zy26 (Talk)]] 11:42 2004年10月7日 (UTC)
[编辑] zh-hk 和 zh-sg
对 zh-hk 和 zh-sg 的基本支持已经实现,请见测试站。另,用-{}-进行手工转换的的格式作了小调整。当要对链接等进行转换时,-{}-标记应放在最外层,如-{zh-cn:[[简体]]; zh-tw: [[繁体]]}-。
我把测试站的代码和cvs同步了一下。最近cvs的更新较多,所以可能会有一些意想不到的错误;-)
- Zhengzhu 14:51 2004年10月8日 (UTC)
[编辑] 维基词典
目前的方案似乎在维基词典中存在问题。在维基词典,繁体字和简体字都是作为一个单独词条存在的,也就是说,页面中的内容需要自动转换,但是页面名称却不可以。--百无一用是书生 (Talk) 13:07 2004年10月13日 (UTC)
- 可以加一个参数设置决定标题是否作转换。 - Zhengzhu 14:21 2004年10月13日 (UTC)
但是又需要区别对待,对于单个汉字需要区分繁简体,但是对于词汇却不需要区分繁简--百无一用是书生 (Talk) 16:57 2004年10月13日 (UTC)
[编辑] 内部连接能否自动转换?
目前的系统能否作到内部连接的自动简繁转换?也就是内部连接是用简体字给出的,而实际上只存在一个繁体字标题的条目,这种情况下能不能实现从简体字内部连接连到到繁体字条目?还有连接的颜色是红色的还是蓝色的?--hunry 05:23 2004年10月23日 (UTC)
- 请到测试站测试……--[[User:Zy26|zy26 (Talk)]] 05:25 2004年10月23日 (UTC)
- 个人感觉应该做到自动转换,但是目前好像需要增加一个重定向页。--[[User:Zy26|zy26 (Talk)]] 05:27 2004年10月23日 (UTC)
- 刚才在那里测试了一下,可以做到的。真是不错,希望马上就能上马啊!--hunry 07:06 2004年10月23日 (UTC)
[编辑] 参考资料
[编辑] 关于语境的一点想法
我们现在的讨论,基本上是集中在白话文的问题上 但在百科全书中涉及历史、宗教等问题时,引用文言文也是十分普遍的 对于这样的内容,不需要画蛇添足的去做大陆习惯用语和台湾习惯用语的转换 也不适合用白话文的词表进行繁简转换
于是我想是否可以通过标记的方式,标出这样的段落,指定用文言的词表,而不是白话的词表转换
进一步的,我们还可以有明清白话的词表和规则 讨论IT领域问题的词表和规则 讨论政治问题的词表和规则
这样一套词表,我姑且称之为一个语境
通过指明语境,可以增加转换的准确性 也降低了设计词表的难度
再进一步说,可以在文章中增加很多类似的自描述的成分,这对于繁简转换这样的问题,或者是检索,以及其他需要计算机了解语义的地方都有很大的好处
--Soliton Z 14:31 2004年12月16日 (UTC)
- 十分同意Soliton 的想法, 多了語境的標示, 可以避免把古文或文言的段落進行轉換. 另外, 若是文章涉及討論繁簡體問題的時候, 也應該有一個語境來避免簡字被轉為繁字, 參見簡體字會發現裡頭全部變成繁體了! 阿牛 07:49 2004年12月23日 (UTC)
-
- 可用-{}-标记表示不转换。详见Wikipedia:繁简处理。- Zhengzhu 16:33 2004年12月23日 (UTC)
[编辑] 建議以正體字為主
建議內文以正體字(繁體字)為主。請台灣、香港的朋友將大陸、新加坡朋友的創作先用手工全部轉成正體字。這個過程,可使用輔助軟件幫忙,不過,一定要整篇再一字一字的校正,若仍有疏漏,則請發現的朋友再做小部份修改。但是,原則上只能將簡化字轉成正體字,而不能另做詞彚的轉換 (例如,只將「-{zh-cn:软件;zh-tw:软件}-」轉成「-{zh-cn:軟件;zh-tw:軟件}-」,不可換成「-{zh-cn:軟體;zh-tw:軟體}-」),以尊重原創者。
內文都是正體字的話,要通篇轉成簡化字就好辦多了。因為,正體字轉簡化字都是一對一,或多對一;只有少部份的字是一對多,這部份只要再建立詞彚庫,即可正確轉換。例如,-{zh-cn:乾;zh-tw:乾}-→-{zh-cn:干;zh-tw:干}-(-{zh-cn:乾坤;zh-tw:乾坤}-、-{zh-cn:乾隆;zh-tw:乾隆}-,不簡化),-{zh-cn:徵;zh-tw:徵}-→-{zh-cn:征;zh-tw:征}-(-{zh-cn:宮商角徵羽;zh-tw:宮商角徵羽}-,不簡化),-{zh-cn:藉;zh-tw:藉}-→-{zh-cn:借;zh-tw:借}-(-{zh-cn:狼藉;zh-tw:狼藉}-,不簡化)。
--Vertex 07:34 2004年12月23日 (UTC)
- 好麻烦,而且继续编辑的时候会带来更多的麻烦。--zy26 (Talk) 05:59 2004年12月24日 (UTC)
- 繁简转换程序本来就是为方便各地中文用户编辑的,如果强令用繁体编写还要转换程序干什么?而且这也不符合维基的自由精神。要简体中文用户自己用工具作简繁转换,可能还不如新版本wiki的转换功能。我觉得现在只需要完善转换功能即可。--Alexcn 06:10 2004年12月24日 (UTC)
-
- 我覺得現在的繁簡轉換只是在為簡體的使用者服務而已。現在的情況,對繁體的使用者簡直是一件很恐怖的事。因為現在雖然看到繁體字了,可是滿篇的錯字,如何讓人受得了?-{「乾什麼」「慈禧太後」「中國曆史」.....}-能看嗎?-{「乾」沒有「幹」的意思、「曆」沒有「歷」的意思、「後」也沒有「后」的意思}-,這種半調子的轉換,還不如都轉到簡體。要做繁簡轉換時,自己再用 AlibaBar (IE) 或 同文堂 (Firefox) 轉,這兩個-{zh-ch:软件;zh-tw:軟體}-轉出來的字詞還比較正確--Vertex 14:07 2004年12月24日 (UTC)
-
- 需要大家多校正对应词汇表--VipUser (圣诞快乐_^o^) 14:09 2004年12月24日 (UTC)