Privacy Policy Cookie Policy Terms and Conditions GB18030 - Wikipedia

GB18030

aus Wikipedia, der freien Enzyklopädie

Der chinesische Zeichenkodierungsstandard GB18030 beschreibt 27.484 Zeichen der chinesischen Schrift. Seit dem 1. September 2001 ist er verbindlich für alle in der Volksrepublik verkauften Betriebssysteme und Programme; es ist der Nachfolgestandard für die Kodierungen GBK und GB2312 und deckt traditionelle und vereinfachte Zeichen ab. Der offizielle Name ist GB18030-2000 und enthält GB für Guojia Biaozhun (国家标准), was nationaler Standard bedeutet. Veröffentlicht wurde der Standard am 17. März 2000, ein Update erschien am 21. November 2000.

GB18030 kann als das chinesische Äquivalent zu UTF-8 angesehen werden, weil es die Codepunkte für den gesamten Unicodebereich enthält, auch für heute noch nicht zugewiesene Codepoints. Ähnlich wie UTF-8 ist es ein zu ASCII abwärtskompatibles Set, das über eine Million Codepunkte zusätzlich enthält (im 4-Byte-Bereich von Unicode). Im Unterschied zu UTF-8 jedoch erhält GB18030 die Kompatibilität mit GBK und GB2312; ein Teil der Zuordnungstabelle wurde direkt von GBK übernommen, der Rest algorithmisch ermittelt. Zusätzlich schließt GB18030 auch die Zeichen aus dem taiwanischen Big5 ein.

Die meisten (westlichen) Computersysteme hatten bereits eine Variante von Unicode standardisiert, als GB18030 erschien. Die dabei vorgenommene technische Vereinfachung, Unicode als fixe Einheiten mit 16-bit Länge UCS-2 zu behandeln, konnte nach seinem Erscheinen nicht mehr fortgeführt werden. Betriebssystemhersteller und Programmierer wurden sozusagen durch eine "volksrepublikanische Verfügung" gezwungen, entweder variable Formate wie UTF-8 oder UTF-16 zu verwenden, oder aber größere Formate fixer Breite, wie UCS-4 oder UTF-32. Mit Windows 2000 nahm Microsoft diesen Schritt vor, Linux unterstützt dies ebenfalls seit einigen Jahren.

Der Zeichensatz SimSun (Founder Extended) ermöglicht die Anzeige aller Glyphen aus GB18030, also des gesamten Zeichenvorrates aus Unicode 2.1 und die zusätzlichen aus den "Unicode CJK Unified Ideographs Extensions A und B". Weitere bekannte Zeichensätze mit zumindest teilweiser Unterstützung (CJK Extension A) sind SimSun 18030 oder Code2000.

[Bearbeiten] Aufbau der Zeichen

Sequenzen aus einem Byte entsprechen ASCII und reichen von 0x00 bis 0x7F. Sequenzen aus 2 Byte entsprechen GB2312 und bestehen aus einem Zeichen von 0x81 - 0xFE als erstem Zeichen und einem Zeichen von 0x40 - 0xFE als zweitem Zeichen. Sequenzen aus 4 Byte bilden die bis hierhin unberücksichtigten Unicode-Zeichen ab und bestehen aus einem Zeichen von 0x81 - 0xFE als erstem und drittem Zeichen und einem Zeichen von 0x30 - 0x39 als zweitem und viertem Zeichen. Im Gegensatz zu UTF-8 kann also der selbe Bytewerte in Abhängigkeit von seiner Position verschiedene Bedeutung haben.

[Bearbeiten] Siehe auch

[Bearbeiten] Weblinks

Andere Sprachen
THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu