UCS

위키백과 ― 우리 모두의 백과사전.

유니코드
부호화 형식 UTF-7 UTF-8 CESU-8 UTF-16 UTF-32 UTF-EBCDIC SCSU 퓨니코드 GB18030
UCS
양방향 텍스트
BOM
한중일 통합 한자
유니코드 범위 목록

UCS(Universal Character Set, 범용 문자 집합)는 ISO 10646으로 정의된 문자 인코딩의 국제 표준이다.

1991년부터, 유니코드 컨소시엄에서는 유니코드 표준과 ISO/IEC 10646을 발전시키기 위해 ISO와 공동 작업을 해 왔다. 분류와, 문자명과 유니코드 표준 2.0 버전의 코드들은 ISO/IEC 10646-1:1993과 첫 수정판과 동일하다. 2000년 3월 유니코드 3.0이 발표된 이후, 새롭게 추가된 문자들이 ISO/IEC 10646-1:2000을 통해 UCS에 포함되었다.

UCS는 110만개 이상의 코드가 있지만, 일반적으로 첫 65536개(BMP, Basic Multilingual Plane', 기본 다국어판)만이 사용된다. 나머지는 고대 이집트 상형문자나 잘 안쓰이는 한자같은 문자를 표현하기위해 남겨져 있다. The UCS has over 1.1 million code points, but only the first 65536 ( Basic Multilingual Plane, or BMP) are commonly used, the remainder being reserved for such purposes as representing ancient Egyptian hieroglyphics or rare Chinese characters. 많은 코드영역, 심지어 BMP 영역에서도 서로다른 인코딩 형태와 미래의 확장성을 고려하여, 일부러 문자를 할당하지 않았다.

[편집] UCS의 인코딩 폼

UCS용 인코딩 방법으로 ISO 10646가 정의되어 있다. 간단히 축약하여 UCS-2 라고도 하는데, 각 글자들을 0~65525 사이의 코드 값으로 매겨놓고, 각 값들을 두바이트로 표현한다. 그것으로서 UCS-2는 BMP의 모든 코드 영역을 표현할 수 있다. BMP 영역 밖의 코드영역은 BMP의 S(Special) Zone이라 불리는 특수 글자로 짝지어져 있다.

유니코드 용어로 UCS-2가 UTF-16 이듯이, 이러한 글자들을 high surrorgates와 low surrogates라 한다.

또 다른 인코딩 방법 UCS-4는 0~FFFFFFFF(16진수) 사이의 단일 코드 즉 4바이트로 한 글자를 표현한다. 그러므로 UCS-4는 BMP영역 밖이나, UCS-2 코드 밖 등, 모든 글자를 고정길이 바이트로 표현할 수 있으나, UCS-2. ISO/IEC 10646의 2배의 저장공간을 필요로 한다.