Unicode
A Wikipédiából, a szabad lexikonból.
A Unicode (ejtsd: junikód) az egyik elterjedt megoldás a természetes nyelvekben megtalálható különböző írásjelek egységes kódtáblába foglalására.
A számítógépek csak számokat képesek kezelni, ezért ki kellett találni valamilyen megoldást arra, hogy ember által érthető információkat közöljenek. Kézenfekvő volt egy megállapodás, miszerint egy bájt tárol egy karaktert, ami 256 karakter ábrázolását tette volna lehetővé. Az első számítógépek angolszász nyelvterületen készültek, és a betűket ennek megfelelően válogatták össze, és megállapodtak abban, hogy melyik szám melyik betűt jelenti. Ilyen megállapodások például az ASCII és az EBCDIC is.
A személyi számítógépekkel együtt az ASCII terjedt el, ami eredetileg csak 7 bitet használt, ezzel 127 különböző karaktert írt le. Ezek tartalmazták az angol ábécé kis- és nagybetűit, a számokat és sok nem nyomtatható karaktert.
Később felmerült az igény arra, hogy az egyes nemzetek a saját nyelvükön kommunikáljanak a számítógéppel. Ekkor az ASCII kódtábla 127-nél nagyobb elemeinek a jelentését úgy határozták meg, hogy az csak egy megadott kódlap esetén értelmezhető egyértelműen, vagyis például a 250-es szám jelentése (az általa ábrázolt karakter) attól függött, hogy milyen kódtábla szerint értelmeztük az adott szöveget. Ilyen kódtáblákat kiadott az IBM (cp437-USA; cp852) és az ISO (8859-1; 8859-2 …) is.
Ezek csak részmegoldások voltak és sok problémát okozott, hogy nem minden esetben lehetett megállapítani az ékezetes karakterek (127-nél nagyobb számok) eredetét.
A jelenleg használt Unicode formák közül a legelterjedtebb az UTF-8, ami változó hosszúságú kódolással (8-64 bit) jeleníti meg a Unicode jeleit.
[szerkesztés] Külső hivatkozások
- DecodeUnicode – Unicode wiki, 50 000 betűképpel