|
JIS 漢字コード (情報交換用漢字符号 JIS X 0208 1997年) |
日本語の文書データをコンピュータで処理するために、
JIS で定められた文字コード
(JIS X 0208) です。
n 桁の
2 進数 は 2
n の情報を表すことができますから、
7 桁なら 2
7 = 128 種類というわけで、
ASCII は 7 ビットで 128 種類の文字や記号、制御文字などを定めています。
アルファベットは大文字小文字あわせて 52 種類、 それに数字や記号を加えて 94 種類、
さらに様々の制御文字を加えても、 128 あれば事足りるからです。
しかし日本語は、 そうはいきません。
なにしろ漢字が、 途方もなくあります。
1 万とも、 2 万とも、 5 万とも
。
常用漢字に限っても 1,945 文字ですから、 これを扱うのに必要なビット数を
情報量電卓 で計算すると、 10.93 ビットになります。
1 万文字なら 13.3 ビット、 2 万文字なら 14.3 ビット、 5 万文字なら 15.6 ビット …。
5 万文字はともかくとしても、 とりあえずこの程度の漢字を扱うには、
14 から 16 ビットが要りそうです
(214 = 16,384、 216 = 65,536) 。
下図のいちばん大きい正方形は縦横それぞれ 256、
全体で 256×256 = 65,536 種類の文字を表すことができる領域を表しています。
いちばん小さい正方形、 たとえば左上隅の少し色を濃くしてある部分には、 16×16 = 256 文字が入ります
(ASCII はこれの半分に収まるわけです)。
中くらいの大きさの正方形が JIS 漢字コード
(JIS X 0208) の領域です。
第 1、 第 2 バイトとも
16 進数 表記で 21〜7E の範囲で、
この正方形の中には 94×94 = 8,836 文字が入りますが、
実際にはここに漢字、かな、英数字、記号など 6,879 文字が割り当てられています。
内訳は、 第 1 バイト 21〜28 の範囲に記号等の特殊文字 147 文字、 数字 10 文字、 ローマ字 52 文字、
平仮名 83 文字、 片仮名 86 文字、 ギリシア文字 48 文字、 ロシア文字 66 文字、 けい線素片 32 文字。
第 1 バイト 30 から 4F までに第 1 水準漢字 2,965 文字、
50 から 74 までに第 2 水準漢字 3,390 文字、 となっています。
JIS X 0208 の正式な名称は 「7 ビット及び 8 ビットの 2 バイト情報交換用符号化漢字集合」 といいますが、
文字コードは 7 ビット × 2、 または 8 ビット × 2 の 2 バイトで表されます。
表の縦方向が第 1 バイト、 横方向が第 2 バイトで、
JIS X 0201
(7 ビット及び 8 ビットの情報交換用符号化文字集合)
とは縦横の前後関係が逆になっています。
下図は JIS 漢字コード表の一部分
(上図の中サイズの正方形の左上の着色部に相当) です。
「あ」 という文字の JIS 漢字コードは 2422、 「亜」 という文字は 3021、
「鮎」 という文字は 303E になります
(文字コードはいずれも 16 進数表記)。
上図は JIS 漢字コード表の一部分だけを表していますが、
コード表全体は下の関連事項欄の各ページで見ることができます。