Ebooks, Audobooks and Classical Music from Liber Liber
a b c d e f g h i j k l m n o p q r s t u v w x y z





Web - Amazon

We provide Linux to the World


We support WINRAR [What is this] - [Download .exe file(s) for Windows]

CLASSICISTRANIERI HOME PAGE - YOUTUBE CHANNEL
SITEMAP
Audiobooks by Valerio Di Stefano: Single Download - Complete Download [TAR] [WIM] [ZIP] [RAR] - Alphabetical Download  [TAR] [WIM] [ZIP] [RAR] - Download Instructions

Make a donation: IBAN: IT36M0708677020000000008016 - BIC/SWIFT:  ICRAITRRU60 - VALERIO DI STEFANO or
Privacy Policy Cookie Policy Terms and Conditions
Merkistö – Wikipedia

Merkistö

Wikipedia

Merkistö on tietotekniikassa ja tietoliikenteessä sopimus, joka määrittelee, miten eri bittiyhdistelmät (binääriluvut) tulkitaan eri merkeiksi. Merkistöjä on käytössä useita erilaisia.

Kaikki nykyaikaiset tietokoneet käsittelevät dataa kahdeksanbittisinä tavuina, jolloin yhdellä tavulla voidaan esittää 256 eri arvoa. Tallennettaessa tekstiä tietokoneen muistissa oleva luku on määritelty merkiksi siten että jokaista erilaista koneen muistissa olevaa lukua vastaa yksi kirjain tai muu merkki (esim. 64 = @, 65 = A , 66 = B, 67 = C, jne). Yksi merkki voi viedä tilaa yhden tavun tai enemmän. Merkin käsite on selvä useimmissa kirjoitusjärjestelmissä: isot ja pienet kirjaimet ovat erillisiä merkkejä, samoin kaikki välimerkit. Merkin käsitteeseen ei liity sen ulkonäkö eli merkin glyyfi, joka voi olla hyvinkin erilainen eri kirjasimilla.

Sisällysluettelo

[muokkaa] Historiaa

Ensimmäisinä merkistöinä voidaan pitää kaukokirjoitinlaitteissa jo 1800-luvulla käytettyjä "5-bittisiä" Baudot-koodistoja. 1960-luvulla kehitetty 7-bittinen ASCII on Baudot-merkistöjen melko suora perillinen. Yhteistä vanhoille merkistöille on yleensä se, että merkit on valittu vain tiettyä kieltä silmällä pitäen: esimerkiksi Yhdysvalloissa kehitetty ASCII soveltuu melko hyvin amerikanenglannin kirjoittamiseen, mutta muun muassa suomen, ruotsin ja saksan kielissä tarvittavia Ä- ja Ö-kirjaimia ei siinä ole. Tästä johtuen merkistöistä kehitettiin useita erilaisia rinnakkaismuotoja eri maiden tarpeita varten: esimerkiksi Suomessa käytettiin vielä 1980-luvulla yleisesti ASCIIn SF7-muunnosta, jossa tietyt erikoismerkit oli korvattu suomen ja ruotsin kielten vaatimilla kirjaimilla.

Koska ASCII oli 7-bittinen ja tietokoneet käyttivät yleisesti 8-bittistä tavua, halusivat monet tietokonevalmistajat tarjota käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön, jolloin mahdollisten merkkien määrä kaksinkertaistui 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastaavat yleensä ASCIIta ja ylemmät sisälsivät yleensä vaihtelevan valikoiman muita merkkejä, mm. ei-englanninkielissä tekstissä tarvittavia kirjaimia. Nämä merkistön jatko-osat olivat kuitenkin olivat eri tietokonevalmistajilla hyvin erilaisia.

Yhtenäisten 8-bittisten merkistöjen kehittämiseksi luotiin ISO 8859 -standardi vuonna 1985, ja se määritteli aluksi neljä laajennettua eurooppalaista merkistöä. 256 merkin tilaan eivät mahdu edes kaikkien eurooppalaisten kielten vaatimat kirjaimet, joten eri alueille oli luotava omat merkistönsä.

Merkistöjen eroista johtuu, että katseltaessa tekstitiedostoa, joka on tallennettu eri merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Tiedostoja voidaan muuntaa toisiin merkistöihin, mutta tällöin osa merkeistä voi hävitä, jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia ASCII:n kanssa, joten kirjaimet A-Z pysyvät samoina.

[muokkaa] ISO 8859 -merkistöt

ISO 8859 on ryhmä ISO-standardointielimen määrittelemiä merkistöjä. Merkistöjen numerointi on juokseva, eikä uudempi siten ole välttämättä parempi tai korvaava aikaisemmalla merkistölle. Merkistön koko nimi sisältää standardin nimen, juoksevan numeron ja hyväksymisvuoden, esimerkiksi: ISO/IEC 8859-15:1999.

  • Länsi-Eurooppaa varten kehitettiin ISO 8859-1 eli latin1, joka sisältää lähes kaikki länsieurooppalaisten kielten merkit. Siitä kuitenkin puuttuvat esimerkiksi suomessa lainasanoissa käytettävät Š ja Ž, ranskan Œ ja Ÿ ja katalaanin Ŀ. Tämä merkistö on kuitenkin usein oletuksena käytössä, esim. HTML-kielessä, jos muuta ei ole määritelty.
  • Itä-Eurooppaa varten tehtiin ISO 8859-2 eli latin2 seuraavia kieliä varten: tšekki, unkari, romania, puola, kroatia, slovakki, slovenia, serbia (latinalaisin aakkosin). Tässä merkistössä saksan ja suomen tarvitsemat merkit, äöüß, sijoitettiin samoihin paikkoihin kuin latin1:ssä, joten silläkin voi kirjoittaa yhteensopivasti myös saksaa ja suomea.
  • Etelä-Eurooppaa varten tehtiin ISO 8859-3 eli latin3, jolla kirjoitetaan yleisesti esperantoa sekä maltaa, aiemmin myös turkkia. Tämä merkistö on paljolti jäänyt pois käytöstä.
  • Arabiaa varten kehitettiin ISO 8859-6, joka sisältää vain arabian perusaakkoston, eli sillä ei voi kirjoittaa persiaa tai urdua, vaikka nämä käyttävätkin pääosin samoja kirjaimia kuin arabia.
  • Kreikkaa (nykykreikka) varten kehitettiin ISO 8859-7.
  • Hepreaa varten tehtiin ISO 8859-8 (sisältää vain konsonanttimerkit).
  • ISO 8859-10 eli latin6 on uudelleenjärjestelty latin4, johon on otettu myös edellä mainitut islannin kirjaimet. Sitä voi käyttää Baltian kielten lisäksi joidenkin saamen kielten ja grönlannin kirjoittamiseen.
  • ISO 8859-11 on tarkoitettu thai-kieltä varten.
  • ISO 8859-12 hylätty ehdotus, joka lopulta korvattiin ISO 8859-14:lla.
  • ISO 8859-13 eli latin7 on parannettu balttilainen järjestely.
  • ISO 8859-15 eli latin9 tai latin0 on muunneltu versio latin1:stä, siitä on poistettu muutamia merkkejä ja niiden tilalle on laitettu unohtuneet ranskan ja suomen kielen kirjaimet, ja valuuttamerkki ¤ on korvattu euron merkillä €.
  • Uusin ISO 8859-16 on alun perin tehty romanian kielen oikeinkirjoitusta varten, mutta se soveltuu myös moniin Etelä- ja Itä-Euroopan kieliin ja sisältää lisäksi euron symbolin. Tällä merkistöllä voidaan kirjoittaa myös suomea, saksaa ja ranskaa, koska merkistöstä on tiputettu pois useita symboleja ja korvattu niitä kirjaimilla.

Uusia ehdotelmia ISO 8859 -perheeseen ei ole enää käsittelyssä, vaan toivotaan, että Unicode korvaisi hiljalleen muut merkistöt.

[muokkaa] Muut kahdeksanbittiset merkistöt

ISO-merkistöjen lisäksi on olemassa useita kansallisia ja epävirallisia merkistöjä. Näistä suosituimpia ovat KOI-8-muunnelmat, jotka ovat käytössä Itä-Euroopassa, kuten KOI8-R Venäjällä, KOI8-U Ukrainassa ja Bulgarian MIK. Myös vietnamin VISCII ja intialaisten kielten ISCII ovat tällaisia kahdeksanbittisiä merkistöjä.

Tämän lisäksi useilla valmistajilla on omat merkistönsä eri kieliä varten: Microsoftilla DOS- ja Windows-koodisivut, Applella MacRoman ja MacCyrillic, HP:lla HP-Roman8 jne.

Suosittu Microsoft Windows käyttää seuraavia merkistöjä (koodisivuja Windows-terminologiassa), joista osa on standardin mukaisia, osa laajennettuja ja osa omia:

  • 1250 itäeurooppalainen (Latin 2)
  • 1251 kyrillinen
  • 1252 länsimainen (Latin 1)
  • 1253 kreikkalainen
  • 1254 turkkilainen (Latin 5)
  • 1255 heprealainen
  • 1256 arabialainen
  • 1257 baltialainen
  • 1258 vietnamilainen
  • 874 thai
  • 932 japanilainen Shift-JIS
  • 936 kiinalainen GBK (XGB)
  • 949 korean laajennettu Wansung (KSC5601-1987)
  • 950 kiinalainen (Taiwan, Hong Kong) (Big5).

[muokkaa] Monitavuiset merkistöt

Itä-Aasiassa kahdeksanbittinen koodaus ei riittänyt millään tarvittavien merkkien koodaukseen, vaan siellä oli kehitettävä oma tekniikka, jotta sikäläisiä kieliä voisi kirjoittaa tietokoneella. Nämä merkistöt sisältävät ASCII-merkkien lisäksi yleiset paikallisesti tarvittavat merkit, sen sijaan muiden Itä-Aasian kielten merkkejä niissä ei ole eikä myöskään eurooppalaisten kielten aksentteja tai esimerkiksi suomen ääkkösiä.

Ensimmäinen tällainen merkistö oli japanilainen JIS X 0208, joka otettiin käyttöön jo 1976. JIS X 0208 oli ensimmäinen monitavuinen merkistö, jossa yhden merkin tallentamiseen käytetään useita tavuja tietokoneen muistissa. JIS X koostuu 94 × 94 merkin ruudukosta, johon voidaan määrittää 8836 merkkiä. Käytännössä merkit voidaan koodata kahdella peräkkäisellä ASCIIn näkyvällä merkillä. Merkistöstä on useita versioita, joista JIS X 0212 on uusin.

Monitavuisen merkistön käsittely ja tiedon välittäminen voi olla vaikeaa useilla ohjelmilla ja protokollilla, jotka olettavat käytettäväksi kahdeksanbittistä merkistöä, monitavuisten merkistöjen välittämiseen on kehitetty koodauksia eri tarkoituksiin.

  • EUC - Extended Unix Code - on koodaus, joka mahdollistaa samanaikaisen ASCII-merkistön käyttämisen, esimerkiksi Unix-komennoissa ja tiedostonimissä samaan aikaan monitavuisen merkistön kanssa.
  • Japanilaisen ASCII-yhtiön kehittämä Shift-JIS on koodaus, joka siirtää JIS:n katakana-merkistön 8-bittiselle alueelle.
  • ISO-2022 määrittelee sarjan koodeja, joilla merkistöä voi vaihtaa kesken tekstin ja siten käyttää sekaisin eri merkistöjä ja merkkejä.

Useissa Itä-Aasian maissa seurattiin Japanin esimerkkiä ja kehitettiin oma 94 × 94 -merkistö vastaavalla tekniikalla. Tällaisia ovat

Näitä merkistöjä yhdistettyinä ISO-2022- tai EUC-koodaukseen käytetään yleisesti sähköposteissa ja niitä merkitään MIME-otsakkeissa tyypeillä ISO-2022-JP/CN/TW/KR.

Tosin Taiwanissa on yleisemmin käytetty Big5-merkistöä ja Hongkongissa tästä edelleen muunneltua omaa merkistöä HKSCS. Kiinan hallitus on määrännyt pakolliseksi GB 18030-2000 -merkistön tukemisen kaikissa Manner-Kiinassa myytävissä käyttöjärjestelmissä.

[muokkaa] Unicode

Pääartikkeli: Unicode

Koska merkistöjen runsaudesta huolimatta millään niistä ei voinut kirjoittaa montaakaan kieltä yhteen tekstitiedostoon, kehitettiin monikielinen ratkaisu Unicode, jonka versio 4.1 sisältää noin 100 000 merkkiä. Niillä voidaan kirjoittaa suurinta osaa nykyään puhuttavista kielistä. Unicoden on tarkoitus sisältää kaikki merkit, jotka ovat sisältyneet toisiin merkistöihin, jolloin muunnos Unicodeen on aina mahdollista tehdä. Kun ohjelmistotuki Unicodelle laajenee, voidaan suurin osa muista merkistöistä unohtaa. Kuitenkaan ideogrammeja käyttäville kielille Unicode ei ole pystynyt tarjoamaan täyttä tukea, minkä vuoksi onkin yritetty kehittää kattavampia järjestelmiä, kuten TRON, UTF-2000 ja Giga Character Set.

Unicode-standardi ei määrittele yksittäiselle merkille tiettyä esitysmuotoa, vaan kiinteän koodiarvon. Standardissa on useita koodaustapoja, joista yleisimmät ovat vaihtelevatavuiset UTF-7-, UTF-8- ja UTF-16- sekä kiinteätavuiset UCS-2- ja UCS-4-koodaukset.

Our "Network":

Project Gutenberg
https://gutenberg.classicistranieri.com

Encyclopaedia Britannica 1911
https://encyclopaediabritannica.classicistranieri.com

Librivox Audiobooks
https://librivox.classicistranieri.com

Linux Distributions
https://old.classicistranieri.com

Magnatune (MP3 Music)
https://magnatune.classicistranieri.com

Static Wikipedia (June 2008)
https://wikipedia.classicistranieri.com

Static Wikipedia (March 2008)
https://wikipedia2007.classicistranieri.com/mar2008/

Static Wikipedia (2007)
https://wikipedia2007.classicistranieri.com

Static Wikipedia (2006)
https://wikipedia2006.classicistranieri.com

Liber Liber
https://liberliber.classicistranieri.com

ZIM Files for Kiwix
https://zim.classicistranieri.com


Other Websites:

Bach - Goldberg Variations
https://www.goldbergvariations.org

Lazarillo de Tormes
https://www.lazarillodetormes.org

Madame Bovary
https://www.madamebovary.org

Il Fu Mattia Pascal
https://www.mattiapascal.it

The Voice in the Desert
https://www.thevoiceinthedesert.org

Confessione d'un amore fascista
https://www.amorefascista.it

Malinverno
https://www.malinverno.org

Debito formativo
https://www.debitoformativo.it

Adina Spire
https://www.adinaspire.com