Unicode
Straipsnis iš Vikipedijos, laisvosios enciklopedijos.
Unicode - standartas, apibrėžiantis beveik visų kalbų abėcėlių bei papildomų simbolių kodavimą kompiuteriuose. Unicode sukurtas siekiant pakeisti anksčiau naudotus įvairius ribotus simbolių kodavimus. Pirmoji standarto versija (1.0) sukurta 1995 metais, 2005 metais paskelbta jau 4.1 versija. Šiuo metu Unicode yra dominuojantis standartas pritaikant kompiuterines programas daugeliui kalbų. Unicode palaikymas numatytas moderniuose standartuose (kaip XML), programavimo kalbose bei operacinėse sistemose.
Unicode kodavime kiekviema pozicija atitinka tik vieną konkretų simbolį, tačiau kai kuriais atvejais vienam simboliui skiriama keletas pozicijų. Pirmosios 256 pozicijos yra identiškos ISO 8859-1 kodavimo simboliams, kad supaprastinti keitimą iš egzistuojančių Vakarų Europos kalbų tekstų. Unicode standarte numatyti ne tik raidės ir simboliai, bet ir pagalbiniai kodai nusakyti simbolio savybėms, teksto krypčiai bei kitoms reikmėms.
Unicode numatyti ir kombinuoti simboliai, kai vienas vaizduojamas simbolis koduojamas dviem simboliais. Pavyzdžiui, kirčiuota a (á) užrašoma dviem Unicode simboliais (U+0061 ir U+0301). Raidės su diakritiniais ženklais gali būti užrašomos vienu simboliu, tačiau galima jas taip pat galima rašyti kombinuojant lotynišką raidę ir diakritinio ženklo simbolį, išlaikant suderinamumą su senesnėm programom, nevaizduojančiom diakritinių ženklų.
[taisyti] Apimtis
Unicode apima beveik visas šiuo metu naudojamas rašto sistemas. Kai kurios jų:
|
|
Taip pat Unicode pridėti ir papildomi simboliai, taip pat ir istorinių bei išnykusių rašto sistemų (Senovės graikų, Egiptiečių bei Majų hieroglifai, Finikiečių bei Šumerų abėcėlės, Runos).
Taip pat naudojami ir matematiniai bei muzikiniai simboliai, taip pat numatytos vietos ateityje pridedamoms rašto sistemoms bei asmeniniam naudojimui.
[taisyti] Darbas su Unicode
Pats Unicode standartas tik numato unikalias pozicijas įvairiems simboliams, bet ne realų kodavimą fizinėje atmintyje. Yra sukurta keletas Unicode įgyvendinimo mechanizmų, kurių vieni pritaikyti taupesniam saugojimui, kiti - suderinamumui su senomis koduotėmis ar sistemomis. Yra naudojamos kelios UTF (Unicode Transformation Format) ir UCS (Universal Character Set) koduotės:
- UTF-7 – pasenusiu laikomas ir retai naudojamas 7 bitų kodavimas
- UTF-8 – 8 bitų kintamo ilgio kodavimas
- UCS-2 – 16 bitų fiksuoto ilgio kodavimas. Palaiko 65 535 simbolių iš daugiau nei 90 000 numatytų
- UTF-16 – 16 bitų kintamo ilgio kodavimas
- UCS-4 ir UTF-32 – identiški 32 bitų fiksuoto ilgio kodavimai
- UTF-EBCDIC – nepopuliarus kodavimas, sukurtas EBCDIC sistemoms
UTF-32 ir UCS-4 kodavimai yra netaupus, bet labai paprasti - jais galima užkoduoti bet kurį Unicode simbolį, kiekvienam simboliui skiriant 32 bitus. UTF-8 kodavime naudojama nuo 1 iki 4 baitų, šis kodavimas yra suderinamas su ASCII bei yra labai taupus, jei naudojama daugiausiai tik lotynų abėcėlės pagrindo rašto sistemos.
[taisyti] Kritika
Unicode kritikų (daugiausiai Japonijoje) požiūriu, Unicode standartas per daug supaprastina azijietiškas rašto sistemas, nepalaiko senesnių ar alternatyvių kandži simbolių. Taip pat yra teigiančių, kad Unicode palaiko per mažai simbolių. Kritikuota ir nelogiška Thai simbolių eilės tvarka. Tačiau standarto versijoje 2.0 panaikinus 65 535 simbolių apribojimą, vien dabar jau numatyta virš 90 000 simbolių, pridėta papildomų azijietiškų simbolių, todėl dalis kritikos jau nėra aktuali.