UTF-8
Vikipedi, özgür ansiklopedi
UTF-8 8-bitlik bir Unicode dönüşüm formatıdır (İng: Unicode Transformation Format 'ın kısaltması). Unicode karakterlerini değişken uzunluklu bayt guruplarıyla kodlamakta kullanılır. Rob Pike ve Ken Thompson tarafından geliştirilmiştir.
UTF-8 kodlaması Unicode karakterlerini 1-6 byte uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler aynen kendi kodları ile kullanılır, diğerleri ise byte dizileri haline gelir.
[değiştir] Özellikleri
Evrensel kodlama ile aynı sayfada farklı lisanları göstermek mümkün oluyor. Ayrıca özel hazırlanmış klavyeler ile matematiksel ifadeleri de yazmak mümkün. Bütün bu farklı karakterler UTF-8 sayesinde aynı sayfada görünebiliyor. Eski stil kodlama ile türkçe karakterlerin - aslında latin alfabesinde olmayan ya da özel işaretli harflerin de - gösterimi için oldukça karışık olan harf ve rakam dizgileri kullanmak gerekiyordu. Mesela Ş harfini yazmak için Ş küçük ş içinse ş yazmak gibi.
UTF kullanarak 1 milyondan fazla karakter kodlanabilmektedir. Sıklıkla kullanılan 65536 karakterin kodlaması bu 1 milyondan fazla kodlamada ilk sıralarda yer almaktadırlar.
[değiştir] Örnekler
A = 00000000 010000012, yani sağ baştan sıfırdan başlayarak sayıldığıda 2'nin katları şeklinde 20 ve 26'yı toplayarak 65 sayısını elde ediyoruz. Windows için ALT-tuşuna basılı tutarak nümerik klavyeden 65 yazdığı zaman A harfı çıkar.
- 天 = 0x59 0x298 = 01011001 001010012 = ALT-tuşu + 22825
- ⇔ = 0x21 0xd38 = 00100001 110100112 = ALT-tuşu + 1587
- α = 0x03 0xb18 = 00000011 101100012 = ALT-tuşu + 945
[değiştir] İlgili Bağlantılar
- http://www.cs.bell-labs.com/sys/doc/utf.pdf UTF-8'i anlatan ilk makale
- http://www.utf-8.com/ UTF-8