Unicode

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

Unicode - standartas, apibrėžiantis beveik visų kalbų abėcėlių bei papildomų simbolių kodavimą kompiuteriuose. Unicode sukurtas siekiant pakeisti anksčiau naudotus įvairius ribotus simbolių kodavimus. Pirmoji standarto versija (1.0) sukurta 1995 metais, 2005 metais paskelbta jau 4.1 versija. Šiuo metu Unicode yra dominuojantis standartas pritaikant kompiuterines programas daugeliui kalbų. Unicode palaikymas numatytas moderniuose standartuose (kaip XML), programavimo kalbose bei operacinėse sistemose.

Unicode kodavime kiekviema pozicija atitinka tik vieną konkretų simbolį, tačiau kai kuriais atvejais vienam simboliui skiriama keletas pozicijų. Pirmosios 256 pozicijos yra identiškos ISO 8859-1 kodavimo simboliams, kad supaprastinti keitimą iš egzistuojančių Vakarų Europos kalbų tekstų. Unicode standarte numatyti ne tik raidės ir simboliai, bet ir pagalbiniai kodai nusakyti simbolio savybėms, teksto krypčiai bei kitoms reikmėms.

Unicode numatyti ir kombinuoti simboliai, kai vienas vaizduojamas simbolis koduojamas dviem simboliais. Pavyzdžiui, kirčiuota a (á) užrašoma dviem Unicode simboliais (U+0061 ir U+0301). Raidės su diakritiniais ženklais gali būti užrašomos vienu simboliu, tačiau galima jas taip pat galima rašyti kombinuojant lotynišką raidę ir diakritinio ženklo simbolį, išlaikant suderinamumą su senesnėm programom, nevaizduojančiom diakritinių ženklų.

[taisyti] Apimtis

Unicode apima beveik visas šiuo metu naudojamas rašto sistemas. Kai kurios jų:

Arabų
Armenian
Bengalų
Brailio raštas
Kanados aborigenų silabika
Šerokė
Koptų
Kirilica
Devanāgarī
Etiopijos
Gruzinų

Graikų
Gujarati
Gurmukhi
Hangul (Korėjiečių)
Han (Kanji, Hanja, Hanzi)
Japonų (Kanji, Hiragana, Katakana)
Hebrajų
Khmerų (Kambodža)
Kannada
Lao
Lotynų

Malayalam
Mongolų
Mianmaro (Burmos)
Orija
Sirijakų
Tamilų
Thai
Tibetiečių
Yi
Zhuyin (Bopomofo)

Taip pat Unicode pridėti ir papildomi simboliai, taip pat ir istorinių bei išnykusių rašto sistemų (Senovės graikų, Egiptiečių bei Majų hieroglifai, Finikiečių bei Šumerų abėcėlės, Runos).

Taip pat naudojami ir matematiniai bei muzikiniai simboliai, taip pat numatytos vietos ateityje pridedamoms rašto sistemoms bei asmeniniam naudojimui.

[taisyti] Darbas su Unicode

Pats Unicode standartas tik numato unikalias pozicijas įvairiems simboliams, bet ne realų kodavimą fizinėje atmintyje. Yra sukurta keletas Unicode įgyvendinimo mechanizmų, kurių vieni pritaikyti taupesniam saugojimui, kiti - suderinamumui su senomis koduotėmis ar sistemomis. Yra naudojamos kelios UTF (Unicode Transformation Format) ir UCS (Universal Character Set) koduotės:

UTF-7 – pasenusiu laikomas ir retai naudojamas 7 bitų kodavimas
UTF-8 – 8 bitų kintamo ilgio kodavimas
UCS-2 – 16 bitų fiksuoto ilgio kodavimas. Palaiko 65 535 simbolių iš daugiau nei 90 000 numatytų
UTF-16 – 16 bitų kintamo ilgio kodavimas
UCS-4 ir UTF-32 – identiški 32 bitų fiksuoto ilgio kodavimai
UTF-EBCDIC – nepopuliarus kodavimas, sukurtas EBCDIC sistemoms

UTF-32 ir UCS-4 kodavimai yra netaupus, bet labai paprasti - jais galima užkoduoti bet kurį Unicode simbolį, kiekvienam simboliui skiriant 32 bitus. UTF-8 kodavime naudojama nuo 1 iki 4 baitų, šis kodavimas yra suderinamas su ASCII bei yra labai taupus, jei naudojama daugiausiai tik lotynų abėcėlės pagrindo rašto sistemos.

[taisyti] Kritika

Unicode kritikų (daugiausiai Japonijoje) požiūriu, Unicode standartas per daug supaprastina azijietiškas rašto sistemas, nepalaiko senesnių ar alternatyvių kandži simbolių. Taip pat yra teigiančių, kad Unicode palaiko per mažai simbolių. Kritikuota ir nelogiška Thai simbolių eilės tvarka. Tačiau standarto versijoje 2.0 panaikinus 65 535 simbolių apribojimą, vien dabar jau numatyta virš 90 000 simbolių, pridėta papildomų azijietiškų simbolių, todėl dalis kritikos jau nėra aktuali.

Rodomas puslapis "http://lt.wikipedia.org../../../u/n/i/Unicode.html"

Kategorija: Standartai

We provide Linux to the World

Unicode

Straipsnis iš Vikipedijos, laisvosios enciklopedijos.

[taisyti] Apimtis

[taisyti] Darbas su Unicode

[taisyti] Kritika

Views

Navigacija

Paieška

Kitomis kalbomis