Merkistö

Wikipedia

Merkistö on tietotekniikassa ja tietoliikenteessä sopimus, joka määrittelee, miten eri bittiyhdistelmät (binääriluvut) tulkitaan eri merkeiksi. Merkistöjä on käytössä useita erilaisia.

Kaikki nykyaikaiset tietokoneet käsittelevät dataa kahdeksanbittisinä tavuina, jolloin yhdellä tavulla voidaan esittää 256 eri arvoa. Tallennettaessa tekstiä tietokoneen muistissa oleva luku on määritelty merkiksi siten että jokaista erilaista koneen muistissa olevaa lukua vastaa yksi kirjain tai muu merkki (esim. 64 = @, 65 = A , 66 = B, 67 = C, jne). Yksi merkki voi viedä tilaa yhden tavun tai enemmän. Merkin käsite on selvä useimmissa kirjoitusjärjestelmissä: isot ja pienet kirjaimet ovat erillisiä merkkejä, samoin kaikki välimerkit. Merkin käsitteeseen ei liity sen ulkonäkö eli merkin glyyfi, joka voi olla hyvinkin erilainen eri kirjasimilla.

[muokkaa] Historiaa

Ensimmäisinä merkistöinä voidaan pitää kaukokirjoitinlaitteissa jo 1800-luvulla käytettyjä "5-bittisiä" Baudot-koodistoja. 1960-luvulla kehitetty 7-bittinen ASCII on Baudot-merkistöjen melko suora perillinen. Yhteistä vanhoille merkistöille on yleensä se, että merkit on valittu vain tiettyä kieltä silmällä pitäen: esimerkiksi Yhdysvalloissa kehitetty ASCII soveltuu melko hyvin amerikanenglannin kirjoittamiseen, mutta muun muassa suomen, ruotsin ja saksan kielissä tarvittavia Ä- ja Ö-kirjaimia ei siinä ole. Tästä johtuen merkistöistä kehitettiin useita erilaisia rinnakkaismuotoja eri maiden tarpeita varten: esimerkiksi Suomessa käytettiin vielä 1980-luvulla yleisesti ASCIIn SF7-muunnosta, jossa tietyt erikoismerkit oli korvattu suomen ja ruotsin kielten vaatimilla kirjaimilla.

Koska ASCII oli 7-bittinen ja tietokoneet käyttivät yleisesti 8-bittistä tavua, halusivat monet tietokonevalmistajat tarjota käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön, jolloin mahdollisten merkkien määrä kaksinkertaistui 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastaavat yleensä ASCIIta ja ylemmät sisälsivät yleensä vaihtelevan valikoiman muita merkkejä, mm. ei-englanninkielissä tekstissä tarvittavia kirjaimia. Nämä merkistön jatko-osat olivat kuitenkin olivat eri tietokonevalmistajilla hyvin erilaisia.

Yhtenäisten 8-bittisten merkistöjen kehittämiseksi luotiin ISO 8859 -standardi vuonna 1985, ja se määritteli aluksi neljä laajennettua eurooppalaista merkistöä. 256 merkin tilaan eivät mahdu edes kaikkien eurooppalaisten kielten vaatimat kirjaimet, joten eri alueille oli luotava omat merkistönsä.

Merkistöjen eroista johtuu, että katseltaessa tekstitiedostoa, joka on tallennettu eri merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Tiedostoja voidaan muuntaa toisiin merkistöihin, mutta tällöin osa merkeistä voi hävitä, jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia ASCII:n kanssa, joten kirjaimet A-Z pysyvät samoina.

[muokkaa] ISO 8859 -merkistöt

ISO 8859 on ryhmä ISO-standardointielimen määrittelemiä merkistöjä. Merkistöjen numerointi on juokseva, eikä uudempi siten ole välttämättä parempi tai korvaava aikaisemmalla merkistölle. Merkistön koko nimi sisältää standardin nimen, juoksevan numeron ja hyväksymisvuoden, esimerkiksi: ISO/IEC 8859-15:1999.

Länsi-Eurooppaa varten kehitettiin ISO 8859-1 eli latin1, joka sisältää lähes kaikki länsieurooppalaisten kielten merkit. Siitä kuitenkin puuttuvat esimerkiksi suomessa lainasanoissa käytettävät Š ja Ž, ranskan Œ ja Ÿ ja katalaanin Ŀ. Tämä merkistö on kuitenkin usein oletuksena käytössä, esim. HTML-kielessä, jos muuta ei ole määritelty.

Itä-Eurooppaa varten tehtiin ISO 8859-2 eli latin2 seuraavia kieliä varten: tšekki, unkari, romania, puola, kroatia, slovakki, slovenia, serbia (latinalaisin aakkosin). Tässä merkistössä saksan ja suomen tarvitsemat merkit, äöüß, sijoitettiin samoihin paikkoihin kuin latin1:ssä, joten silläkin voi kirjoittaa yhteensopivasti myös saksaa ja suomea.

Etelä-Eurooppaa varten tehtiin ISO 8859-3 eli latin3, jolla kirjoitetaan yleisesti esperantoa sekä maltaa, aiemmin myös turkkia. Tämä merkistö on paljolti jäänyt pois käytöstä.

Pohjois-Eurooppaa varten tehtiin ISO 8859-4 eli latin4, jolla voi kirjoittaa viroa, latviaa, liettuaa ja grönlantia.

Kyrillistä aakkostoa varten tehtiin ISO 8859-5, jolla voi kirjoittaa bulgariaa, valkovenäjää, makedoniaa, venäjää, serbiaa (kyrillisin aakkosin) sekä ukrainaa ennen vuoden 1990 oikeinkirjoituksen uudistusta. Tämä merkistö ei ole kuitenkaan saavuttanut merkittävää suosiota, ja käytetympiä merkistöjä ovat KOI-8 muunnelmat ja Windows koodisivu 1251.

Arabiaa varten kehitettiin ISO 8859-6, joka sisältää vain arabian perusaakkoston, eli sillä ei voi kirjoittaa persiaa tai urdua, vaikka nämä käyttävätkin pääosin samoja kirjaimia kuin arabia.

Kreikkaa (nykykreikka) varten kehitettiin ISO 8859-7.

Hepreaa varten tehtiin ISO 8859-8 (sisältää vain konsonanttimerkit).

ISO 8859-9 eli latin5 on lähes sama kuin latin1, mutta tässä islannin kirjaimet ðýþ on korvattu turkkilaisilla kirjaimilla.

ISO 8859-10 eli latin6 on uudelleenjärjestelty latin4, johon on otettu myös edellä mainitut islannin kirjaimet. Sitä voi käyttää Baltian kielten lisäksi joidenkin saamen kielten ja grönlannin kirjoittamiseen.

ISO 8859-11 on tarkoitettu thai-kieltä varten.

ISO 8859-12 hylätty ehdotus, joka lopulta korvattiin ISO 8859-14:lla.

ISO 8859-13 eli latin7 on parannettu balttilainen järjestely.

ISO 8859-14 eli latin8 lisää loput gaelin ja walesin tarvitsemat kirjaimet latin1:een, jotta sillä voisi kirjoittaa kaikkia kelttiläisiä kieliä.

ISO 8859-15 eli latin9 tai latin0 on muunneltu versio latin1:stä, siitä on poistettu muutamia merkkejä ja niiden tilalle on laitettu unohtuneet ranskan ja suomen kielen kirjaimet, ja valuuttamerkki ¤ on korvattu euron merkillä €.

Uusin ISO 8859-16 on alun perin tehty romanian kielen oikeinkirjoitusta varten, mutta se soveltuu myös moniin Etelä- ja Itä-Euroopan kieliin ja sisältää lisäksi euron symbolin. Tällä merkistöllä voidaan kirjoittaa myös suomea, saksaa ja ranskaa, koska merkistöstä on tiputettu pois useita symboleja ja korvattu niitä kirjaimilla.

Uusia ehdotelmia ISO 8859 -perheeseen ei ole enää käsittelyssä, vaan toivotaan, että Unicode korvaisi hiljalleen muut merkistöt.

[muokkaa] Muut kahdeksanbittiset merkistöt

ISO-merkistöjen lisäksi on olemassa useita kansallisia ja epävirallisia merkistöjä. Näistä suosituimpia ovat KOI-8-muunnelmat, jotka ovat käytössä Itä-Euroopassa, kuten KOI8-R Venäjällä, KOI8-U Ukrainassa ja Bulgarian MIK. Myös vietnamin VISCII ja intialaisten kielten ISCII ovat tällaisia kahdeksanbittisiä merkistöjä.

Tämän lisäksi useilla valmistajilla on omat merkistönsä eri kieliä varten: Microsoftilla DOS- ja Windows-koodisivut, Applella MacRoman ja MacCyrillic, HP:lla HP-Roman8 jne.

Suosittu Microsoft Windows käyttää seuraavia merkistöjä (koodisivuja Windows-terminologiassa), joista osa on standardin mukaisia, osa laajennettuja ja osa omia:

1250 itäeurooppalainen (Latin 2)
1251 kyrillinen
1252 länsimainen (Latin 1)
1253 kreikkalainen
1254 turkkilainen (Latin 5)
1255 heprealainen
1256 arabialainen
1257 baltialainen
1258 vietnamilainen
874 thai
932 japanilainen Shift-JIS
936 kiinalainen GBK (XGB)
949 korean laajennettu Wansung (KSC5601-1987)
950 kiinalainen (Taiwan, Hong Kong) (Big5).

[muokkaa] Monitavuiset merkistöt

Itä-Aasiassa kahdeksanbittinen koodaus ei riittänyt millään tarvittavien merkkien koodaukseen, vaan siellä oli kehitettävä oma tekniikka, jotta sikäläisiä kieliä voisi kirjoittaa tietokoneella. Nämä merkistöt sisältävät ASCII-merkkien lisäksi yleiset paikallisesti tarvittavat merkit, sen sijaan muiden Itä-Aasian kielten merkkejä niissä ei ole eikä myöskään eurooppalaisten kielten aksentteja tai esimerkiksi suomen ääkkösiä.

Ensimmäinen tällainen merkistö oli japanilainen JIS X 0208, joka otettiin käyttöön jo 1976. JIS X 0208 oli ensimmäinen monitavuinen merkistö, jossa yhden merkin tallentamiseen käytetään useita tavuja tietokoneen muistissa. JIS X koostuu 94 × 94 merkin ruudukosta, johon voidaan määrittää 8836 merkkiä. Käytännössä merkit voidaan koodata kahdella peräkkäisellä ASCIIn näkyvällä merkillä. Merkistöstä on useita versioita, joista JIS X 0212 on uusin.

Monitavuisen merkistön käsittely ja tiedon välittäminen voi olla vaikeaa useilla ohjelmilla ja protokollilla, jotka olettavat käytettäväksi kahdeksanbittistä merkistöä, monitavuisten merkistöjen välittämiseen on kehitetty koodauksia eri tarkoituksiin.

EUC - Extended Unix Code - on koodaus, joka mahdollistaa samanaikaisen ASCII-merkistön käyttämisen, esimerkiksi Unix-komennoissa ja tiedostonimissä samaan aikaan monitavuisen merkistön kanssa.
Japanilaisen ASCII-yhtiön kehittämä Shift-JIS on koodaus, joka siirtää JIS:n katakana-merkistön 8-bittiselle alueelle.
ISO-2022 määrittelee sarjan koodeja, joilla merkistöä voi vaihtaa kesken tekstin ja siten käyttää sekaisin eri merkistöjä ja merkkejä.

Useissa Itä-Aasian maissa seurattiin Japanin esimerkkiä ja kehitettiin oma 94 × 94 -merkistö vastaavalla tekniikalla. Tällaisia ovat

GB2312 - kiinan yksinkertaistetut merkit (Kiina)
KS C 5601 - korea
CNS 11643 - kiinan perinteiset merkit (Taiwan).

Näitä merkistöjä yhdistettyinä ISO-2022- tai EUC-koodaukseen käytetään yleisesti sähköposteissa ja niitä merkitään MIME-otsakkeissa tyypeillä ISO-2022-JP/CN/TW/KR.

Tosin Taiwanissa on yleisemmin käytetty Big5-merkistöä ja Hongkongissa tästä edelleen muunneltua omaa merkistöä HKSCS. Kiinan hallitus on määrännyt pakolliseksi GB 18030-2000 -merkistön tukemisen kaikissa Manner-Kiinassa myytävissä käyttöjärjestelmissä.

[muokkaa] Unicode

Pääartikkeli: Unicode

Koska merkistöjen runsaudesta huolimatta millään niistä ei voinut kirjoittaa montaakaan kieltä yhteen tekstitiedostoon, kehitettiin monikielinen ratkaisu Unicode, jonka versio 4.1 sisältää noin 100 000 merkkiä. Niillä voidaan kirjoittaa suurinta osaa nykyään puhuttavista kielistä. Unicoden on tarkoitus sisältää kaikki merkit, jotka ovat sisältyneet toisiin merkistöihin, jolloin muunnos Unicodeen on aina mahdollista tehdä. Kun ohjelmistotuki Unicodelle laajenee, voidaan suurin osa muista merkistöistä unohtaa. Kuitenkaan ideogrammeja käyttäville kielille Unicode ei ole pystynyt tarjoamaan täyttä tukea, minkä vuoksi onkin yritetty kehittää kattavampia järjestelmiä, kuten TRON, UTF-2000 ja Giga Character Set.

Unicode-standardi ei määrittele yksittäiselle merkille tiettyä esitysmuotoa, vaan kiinteän koodiarvon. Standardissa on useita koodaustapoja, joista yleisimmät ovat vaihtelevatavuiset UTF-7-, UTF-8- ja UTF-16- sekä kiinteätavuiset UCS-2- ja UCS-4-koodaukset.

Haettu osoitteesta http://fi.wikipedia.org../../../m/e/r/Merkist%C3%B6.html

Luokka: Tietotekniikka