Юнікод
Матеріал з Вікіпедії — вільної енциклопедії.
Юнікод - кодова таблиця.
Юнікод переступає старе обмеження кодування символів одним байтом. Замість того використовує 17 біт, які визначають 65,536 кодів і дає можливість описати максимум 1 114 112 різних символів. Basic Multilingual Plane (BMP) — Базовий Багатомовний План, містить майже всі символи, що Ви будете коли-небудь використовувати.
Юнікод має декілька реалізацій, але найпоширенішими є дві: UTF (Unicode Transformation Format) — Формат Перетворення Юнікоду та UCS (Universal Character Set) — Універсальна Таблиця Символів. Число після UTF визначає кількість біт виділених під один юніт, а число після UCS визначає кількість байт. UTF-8 став найбільш поширеним для інтернаціональних кодувань.
UTF-8 є системою кодування з змінною довжиною кодування символів, це означає що для кодування символів він використовує від 1 до 4 байт на символ. Так перший байт UTF-8 використовується для кодування ASCII, що дає повну сумісність з ASCII. Перекодування ASCII кодом UTF-8 для латинських символів дуже незначно збільшить розмір даних, бо використовується тільки перший байт. В східних мовах де мусять для кодування використовувати вищі байти це кодування збільшує розмір даних на 50%.
UTF-8 дозволяє Вам працювати в стандартизованому міжнародно прийнятому багатомовному середовищі, з порівняно незначним збільшенням даних. UTF-8 являє собою ідеальний спосіб передачі не ASCII кодованих символів через Інтернет, електронну почту, чат, та інших.