Privacy Policy Cookie Policy Terms and Conditions 香港增補字符集 - Wikipedia

香港增補字符集

维基百科,自由的百科全书

香港增補字符集Hong Kong Supplementary Character Set,簡稱 HKSCS)是香港政府基於繁體中文電腦操作環境中最流行的 Big5(大五碼)之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。香港增補字符集以前稱為《政府通用字庫》(Government Common Character Set, 簡稱 GCCS),本來只是香港政府內部統一使用的造字檔,有三千多字。但由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字符集方案,以便與政府進行文件來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。

字符集所收羅的字,主要包括香港的地名、人名用漢字、粵語漢字異體字,也有小部份簡體字。除此之外,此字符集亦把倚天中文系統收錄的日語平假名片假名俄語西里爾字母包括在內。此字符集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版本為 2005 年 5 月推出的 HKSCS-2004,收錄 4,941 個字符。


目录

[编辑] 版本

版本 字數 發表時間
HKSCS-2004 4,941 2005年5月
HKSCS-2001 4,818 2001年12月
HKSCS-1999 4,702 1999年9月
GCCS 3,049 1995年

[编辑] 源起

1980年代中期, 台灣的中文電腦的通行內碼為 Big5 編碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也是使用繁體中文的地方,是故也採用了 Big5 編碼。可是 Big5 碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,於是香港政府各部門使用 Big5 的外字區,自行補上這些字,並在政府內部使用。香港業界也不斷要求政府,本地需要一套標準字符集來作電子文件來往。到1995年互聯網在香港起步,而政府也推出了自己的網站。各人電腦的中文系統雖然都用 Big5 編碼, 但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確的字符。香港政府於是把內部使用的 Big5 外字集公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字符,並把這套字命名為「政府通用字庫」。


[编辑] 負責機構

負責整套字符集管理的為中文界面諮詢委員會, 簡稱「中諮會」, 英文名 Chinese Language Interface Advisory Committee (CLIAC)。1999年5月由前資訊科技署成立, 現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩個工作小組: 中文電腦用字工作小組、中文資訊科技工作小組。中文電腦用字工作小組審核待增收字符, 納入和編配碼位等工作;中文資訊科技工作小組解決技術問題及與國際標準 ISO/IEC 10646(簡稱 ISO 10646)接軌等工作。各組成員來自學術界、語言學界、出版界和資訊科技界等。


[编辑] 字符分類

在 HKSCS-2004 版本,漢字字符共 4500 個,其中 3353 字可在大型的字典(如《漢語大字典》)中查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。

各類符號共 441 個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

[编辑] 部首、畫數、讀音

香港增補字符集在 2005 年才有畫數、部首、粵音等資料給用戶參考, 還說明方便檢索, 而非作為規範標準。(漢字的部首在不同的字典中, 歸部也不盡相同)


[编辑] 編碼

[编辑] 和 Big5 的關係

香港增補字符集當初因為是補充 Big5 的收字不足,使用其外字區而發展的,所以受制於 Big5 的編碼架構,外字的總數最多-{只}-能到 6217 個(每區塊 157 字,有 39 區塊半)。除去已用碼位,剩下千餘個碼位,其中有部分會保留給用戶造字。

早期的倚天中文系統、國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進了兩個碼位中。又有同一字有系統區及造字區兩個碼位,有些聯綿詞只收其一不收其二;這個問題帶到了政府通用字庫和香港增補字符集中,字集因要反向兼容而跳過了一些碼位。

Big5 原來的編碼,只有漢字、標點、注音符號等字符及少數圖形,後來經過台灣廠商的增收,多了 7 個「倚天字」(如裏、-{恒}-)及日文的假名,最後這批字符又被香港增補字符集收入。

香港增補字符集所使用的 Big5 的外字區分幾個區段:

  • 「造字區一」(FA40 — FEFE):早期的 GCCS 字符集已經填滿這一段。
  • 「造字區二」(C6A1 — C8FE):倚天用了這段來放日文假名等符號。這些符號在 HKSCS 1999 年的版本被收納。
  • 「造字區三」(8140 — A0FE):香港增補字符集把這段開頭的 (8140 — 84FE) 保留給用戶,新增的字符只用其餘的碼位。
  • 「廠商造字區」(F9D6 — F9FE):這段開始的七個碼位用來存放-{裏}-、-{恒}-等「倚天字」,之後的碼位被微軟的繁體中文 Windows 用來存放製表符號。後來 HKSCS 1999 年版本將之全部收納。

可是一般提及 HKSCS 的文件,包括來自香港政府的,都沒有註明 HKSCS 以外的一般繁體字編碼(即是 Big5 本身)使用哪個版本。Big5 在 2003 年前就只有一個版本,不會造成混淆,但 HKSCS-2004 的文件仍沒有指定 Big5 部份是 2003 年之後還是之前的版本,雖然到目前為止並沒有任何系統使用 Big5-2003。

[编辑] 和 ISO 10646/Unicode 的關係

1995 年的政府通用字庫本來是內部使用的,到 1999 年才成立中諮會專門去負責增收及審核字符的工作,並與 ISO 10646 接軌。中諮會的成員會把香港增補字符集交到 ISO 的表意文字小組中,盡量讓其所有字符納入國際標準。表意文字小組會定期開會審議漢字的收納等工作, 成員是來自世界各地的專家。

香港字在 Big5HKSCS 內的碼位,都能對應到 ISO 10646 中日韓漢字區段中的碼位,或 Private Use Area(用戶造字區,簡稱 PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴展區內。將所有已納入的 HKSCS 字符搬到正式中日韓漢字擴展區段(非 PUA 區段)的工作在 2005 年完成,對應於 ISO 10646:2003 的第一修訂版,相應的 Unicode 版本為 Unicode 4.1。

不過,因為目前流傳極多使用舊版 HKSCS 的系統產生出來的文件,為了方便過渡,在 HKSCS 的定義中,在 Unicode PUA 所分配的字符位置會予以保留,不會給新加入而且未分配正式 Unicode 位置的字符使用。

[编辑] 字體的提供

最初的香港字,是由早期的台灣廠商 (像倚天等) 和用戶自行造字所得。因為大部份都不合標準和沒有流通,所以沒有沿用至今。後來,Truetype 字體盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字庫的字體方面,因為 HKSCS 某些字和大陸 GBK 碼有衝突,廠商經常會因市場關係捨棄一些香港字。

香港政府的「數碼 21」網頁 (詳見下面的外部連結) 有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。

目前由商業主導的情況漸有改變,近況如下:

[编辑] 開放源碼字體

文鼎在 1999 年捐了四套字體 (繁簡明體和楷書) 給自由軟件界,但當中沒有香港字。後來高盛華 (Arne Götje ) 發起計劃將繁簡體合併,稱之為 CJKUnifonts。當中,Akar、Zunix 等人在 2004 年末另外發起香港 freefonts 計劃,將香港字加入 CJKUnifonts 之內,到了 2005-09-01 完成將 HKSCS 2004 加入 CJKUnifonts 的工作。目前 CJKUnifonts 已被收錄在各大 Linux distribution 之內。

[编辑] 商業字體

最早一套宣稱支援 HKSCS 2004 的字體,是華康「金蝶 2006 H.K. Edition」,在 2005-11-14 推出。


[编辑] 增收字符

「中諮會」會讓各界申請新字符,不過要經過審核批准,才會給字符編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過互聯網傳送的字。另外,這些增收的字符不一定能夠收錄在 Unicode 之內,例如一些能夠表示成 Unicode 複合字符的字或符號,便不會收錄。

另外因為現在餘下的 big5 兼容碼位不多(2005 年 9 月為止只剩 487 個未用),中文界面諮詢委員會暫定打算在 2007-08 年停止為字符提供 big5 碼位,並在之前盡量協助業界和一般用戶過渡至 Unicode。


[编辑] 操作系統的支援

香港增補字符集開始時只有 Windows 版本的 Big5 編碼, 後來與 ISO 10646 接軌後, 才開始在 Linux、MacOS 等系統中使用。理論上因為 ISO 10646 已收納香港增補字符集, 任何支援 ISO 10646 的系統都可使用香港字。但實際上,許多舊的程式內部是使用 UCS-2(每個字佔 2 位元組)儲存字串,無法表示許多放在基本多文種平面 (簡稱 BMP) 以外的所有香港字。只有使用 UCS-4(每個字佔 4 位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。

[编辑] Windows

[编辑] 顯示和處理字符

根據 Microsoft 的網頁,在 Longhorn 或以後的版本將不再支援 HKSCS-2004 的 Big5 擴展編碼(通常稱為 Big5HKSCS),而只使用 Unicode 中的香港字支援。

至於 HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援 Windows 98、NT、2000 和 XP。可是安裝該套件和其它軟件(例如 Office)需要有一定的次序,而且它和別的 Big5 外字集並不兼容,必須先瀏覽有關文件方可安裝。

[编辑] 輸入字符

TODO

[编辑] Linux

[编辑] 顯示和處理字符

自從 glibc 在 2000 年加入香港字 (同時包括 big5hkscs 和 unicode 碼兩者的轉換表) 的支援後,就幾乎沒有再更新過,其中的 Big5 部份更是來自年代久遠的 Big5 / Unicode 轉換碼表,當中有不少錯誤之處,令一些文件和網頁無論使用 Big5 還是 Big5HKSCS 轉換至 Unicode 都會出現錯誤。暫時未有任何更新。相反地,如果單是使用 unicode 作為系統編碼,處理香港字則沒有問題。

桌面環境方面,KDE 3.x 桌面因為使用 QT 3.x,而 QT 3.x 內部使用 UCS-2 儲存字符,因此 KDE 3.x 只能有限度地顯示少部份香港字。這情況期望在 KDE 4.0 解決。

GNOME 沒有這方面的問題,只要是使用 Unicode,在 2004 至 05 年間就已經能夠顯示所有 BMP 以外的字符。

[编辑] 輸入字符

TODO

[编辑] Mac OS

[编辑] 顯示和處理字符

Mac OS X 10.0 至 10.2 版本支援的版本為 HKSCS 1999,最新版的 Mac OS X 10.4 支援 HKSCS 2001。

[编辑] 輸入字符

TODO

[编辑] 使用地區

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的 (台灣也有自己的一兩套外字集)。而同樣使用粵語和繁體字的澳門當然也使用這套字集,也許還有其它華語地區會使用。


[编辑] 評價

香港增補字符集因為一直需要和 Big5 碼兼容,所以可以說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港政府打算在 2007-08 年放棄它的 Big5 編碼。如果系統使用 Unicode 編碼,用它反而較好。當今的趨勢是使用 Unicode,它有足夠的字符,幾乎可以滿足文字學家、字典專家的用字要求。但因為兼容性的關係,要將整個系統由使用 Big5 碼轉換至 Unicode 頗費時,因此還會有人暫時不願意轉換。

[编辑] 參看

[编辑] 外部連結

[编辑] 字符和編碼

[编辑] 字體

[编辑] 參考書籍、文章

  • 伍新華。中文電腦應用《附95補充字集》。德嘉書業,1999年9月。ISBN 9627690252
其他语言
THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu