日本語の文字コード
日本語をはじめ、中国語、韓国語、・・・。世界的に見ても難しい言語ですよね!
といっても、私が判るのは日本語だけなんですが・・・
ここで難しいといったのは、文化としての言語ではなく、コンピュータ処理としての話です。
西欧言語では極端に言えば a から z の 26文字、大文字を加えても 52文字で何とかなります。
しかし、日本語では平仮名だけで 48文字、小文字、濁点、半濁点などをあわせれば 82文字、
そしてそれぞれの片仮名。既に3倍以上の数ですが、最も多い漢字が数えられていませんね。
数が多いだけでも大変ですが、更に厄介なのは漢字の数に限がないということしょう。
どこまで定義するのかが問題になります。似たような言語体系の中国語、韓国語などにも当然同様の問題があります。
日本語漢字は、JIS 漢字 として定義されています。まだコンピュータのリソースが非常に高価だった頃、
最低限の漢字をサポートするために、常用漢字でも比較的使用頻度の高いものが第一水準としてマッピングされました。
そして同時に、例外の常用漢字が第二水準としてマッピングされています。
これが現在の JIS X 0208(1990) になっています。
その後、人名漢字などが拡張定義されています。JIS X 0212(1990)、JIS X 0213-2000、Unified Japanese IT Vendors Contemporary Ideographs(1993) がそうです。JIS 漢字 の第三水準、第四水準にあたります。
Unicode では、平仮名、片仮名、漢字(中国語、韓国語を含む) をそれぞれのブロックで定義されており、
それぞれのコードを JIS 漢字などにマッピングしています。
平仮名は U+3040~U+309F、片仮名は U+30A0~U+30FF、漢字は主に U+4E00~U+9FFF に割り当てられています。
前述のように漢字の数に限がないので、拡張漢字として
U+3400~U+4DFF、U+20000~U+2A6D6 という広大な領域が既に割り当てられています。
|