중국시가넷 - 한의학 고서 - 한자와 서문을 구분하다

한자와 서문을 구분하다

1 문자 인코딩 길이를 식별하여 수행할 수 있습니다.

영어 문자는 한 자리만 차지하고 중국어 문자는 두 자리를 차지하지만 국제 문자 인코딩 표준 유니코드에서는 모든 문자가 두 자리를 차지하므로 유니코드에 있는 모든 영어 숫자의 첫 번째 바이트 값은 절대 0x00 입니다. 2 바이트만 읽으면 첫 번째 문자가 0x00 인지 판단하여 한자와 영어 문자를 판단할 수 있다.

그러나 유니코드는 큰 끝 인코딩과 작은 끝 인코딩으로 구분되며 문자 인식 순서는 정반대입니다. 따라서 작은 끝 인코딩을 사용하면 0x00 이 앞에 오고 windows 는 작은 인코딩을 사용한다는 점에 유의하십시오. 또한 텍스트 파일에서 유니코드에는 DOM 헤더가 있으므로 파일 헤더를 읽지 않도록 주의하십시오.

2, 각 바이트가 변환되는 숫자에 따라 판단한다.

모두 알다시피, 서양어 문자는 주로 ASCII 코드를 가리키며, 1 바이트로 표시한다. 그리고 이 문자를 숫자로 변환한 후 숫자는 0 보다 크고 한자는 2 바이트입니다. 숫자로 변환한 후 첫 번째 바이트는 0 보다 작아야 하므로 숫자로 변환한 후 각 바이트가 0 보다 작은지 여부에 따라 한자인지 여부를 판단할 수 있습니다.

확장 데이터

대만성, 홍콩, 마카오에서는 중국어 번체 문자 세트를 사용합니다. 그러나 1980 에 발표된 GB23 12 는 중국어 간체 문자 세트를 대상으로 하며 중국어 번체를 지원하지 않습니다. 번체자 문자 세트를 사용하는 이러한 지역에서는 여러 업체에서 제시한 문자 세트 인코딩이 서로 호환되지 않아 정보 교환이 어려워졌습니다.

1984 년 대만 지방의 Acer, Shentong, Jiajia, 01, 폭스 바겐 5 대 업체들은 번체자 문자 세트 코딩을 통일하기 위해 번체자 인코딩 방안을 마련했다. 그것의 기원 때문에 Big5 는 영어로 쓴 것이고, 나중에 영어로 한자로 번역하면 일반적으로 Big 5 라고 불린다.

5 야드는 13053 번체자, 808 개의 구두점, 그리스 문자 및 특수 기호를 포함한 중국어 번체 문자 세트입니다. 큰 5 야드 코드 테이블은 저장을 위해 직접 설계되었으며, 각 문자는 2 바이트 저장으로 표시됩니다.

1 바이트 범위는 8 1h-feh 로 ASCII 코드와의 충돌을 방지합니다. 두 번째 바이트 범위는 40H-7EH 와 A 1h-feh 입니다. Big5 의 문자 인코딩 범위가 GB23 12 문자의 저장 코드 범위와 충돌하기 때문에 동일한 텍스트에서 두 문자 세트의 문자를 동시에 지원할 수 없습니다.