UTF-8
A Wikipédiából, a szabad lexikonból.
Az UTF-8 (8-bit Unicode Transformation Format, 8 bites Unicode átalakítási formátum) egy veszteségmentes, változó hosszúságú Unicode karakterkódolási eljárás, melyet Rob Pike és Ken Thompson készített. Bármilyen Unicode karaktert képes reprezentálni, ugyanakkor visszafelé kompatibilis a 7 bites ASCII szabvánnyal. Az UTF-8 kódolás különösen alkalmas 8 bites átviteli közegek számára, mint amilyen az e-mail vagy a weblapok.
Az angolszász, majd az európai országokból kiindulva az ASCII után először az úgynevezett Latin-1 kódolás terjedt el, ami tartalmazza az összes angol nyelvhez szükséges betűt, illetve számos európai nyelv betűit, de például a magyar „ő” és „ű” betűket nem (ezek helyett – helytelenül – gyakran használják a hullámos illetve a kalapos betűket: û ô vagy õ). Magyarhoz lehet azonban a Latin-2 (kelet európai) kódolást is használni, ami ismeri az ő és ű betűinket, de nem ismer más fontos betűket, például a cirill, görög, vagy például a kínai, örmény, indiai, arab és héber betűket. A Unicode és az UTF-8 kódolás egyszerre támogatja mindezen karakterek megjelenítését, és így minden nyelv egységes kódolást tud használni, megelőzve a betűk nem tervezett „átalakulását”.
Az UTF-8 egy Unicode jel kódolására 1-4 bájtot használ, a jel elhelyezkedésétől függően. Az US-ASCII kódolás szerinti karaktereket például egyetlen UTF-8 byte kódolja (ezek a Unicode U+0000 - U+007F tartományban helyezkednek el), az európai ékezetes betűket pedig két UTF-8 bájt.
Ez a kódolás nagyon elterjedt, mivel zökkenőmentes átmenetet biztosít az ASCII vagy ISO alapú rendszerekből. Emellett a kódolt végeredmény jól tömöríthető.
[szerkesztés] Hátrányai
Gazdaságtalan európai és más latin betűs (pl. török) nyelvekre, melyeket az ISO kódok teljesen lefednek.
[szerkesztés] Elterjedése
Meglehetősen elterjedt Linux rendszereken, de a Microsoft Windows rendszer XP-től fölfelé is teljeskörűen támogatja. Az IETF (Internet Engineering Task Force) minden Internet protokolltól megköveteli, hogy az általa használt kódolások között szerepeljen az UTF-8. Az IMC (Internet Mail Consortium) javaslata szerint minden e-mail kliensnek meg kell tudni jeleníteni az UTF-8 kódolású leveleket, és létre kell tudnia hozni azokat.