戻る   JIS 漢字コード (情報交換用漢字符号 JIS X 0208 1997年)



日本語の文書データをコンピュータで処理するために、 JIS で定められた文字コード (JIS X 0208) です。

n 桁の 2 進数 は 2n の情報を表すことができますから、 7 桁なら 27 = 128 種類というわけで、 ASCII は 7 ビットで 128 種類の文字や記号、制御文字などを定めています。 アルファベットは大文字小文字あわせて 52 種類、 それに数字や記号を加えて 94 種類、 さらに様々の制御文字を加えても、 128 あれば事足りるからです。

しかし日本語は、 そうはいきません。
なにしろ漢字が、 途方もなくあります。  1 万とも、 2 万とも、 5 万とも
常用漢字に限っても 1,945 文字ですから、 これを扱うのに必要なビット数を 情報量電卓 で計算すると、 10.93 ビットになります。 
1 万文字なら 13.3 ビット、 2 万文字なら 14.3 ビット、 5 万文字なら 15.6 ビット …。 5 万文字はともかくとしても、 とりあえずこの程度の漢字を扱うには、 14 から 16 ビットが要りそうです (214 = 16,384、 216 = 65,536)


下図のいちばん大きい正方形は縦横それぞれ 256、 全体で 256×256 = 65,536 種類の文字を表すことができる領域を表しています。 いちばん小さい正方形、 たとえば左上隅の少し色を濃くしてある部分には、 16×16 = 256 文字が入ります (ASCII はこれの半分に収まるわけです)
中くらいの大きさの正方形が JIS 漢字コード (JIS X 0208) の領域です。 第 1、 第 2 バイトとも 16 進数 表記で 21〜7E の範囲で、 この正方形の中には 94×94 = 8,836 文字が入りますが、 実際にはここに漢字、かな、英数字、記号など 6,879 文字が割り当てられています。
内訳は、 第 1 バイト 21〜28 の範囲に記号等の特殊文字 147 文字、 数字 10 文字、 ローマ字 52 文字、 平仮名 83 文字、 片仮名 86 文字、 ギリシア文字 48 文字、 ロシア文字 66 文字、 けい線素片 32 文字。
第 1 バイト 30 から 4F までに第 1 水準漢字 2,965 文字、 50 から 74 までに第 2 水準漢字 3,390 文字、 となっています。


location of JIS X 0208


JIS X 0208 の正式な名称は 「7 ビット及び 8 ビットの 2 バイト情報交換用符号化漢字集合」 といいますが、 文字コードは 7 ビット × 2、 または 8 ビット × 2 の 2 バイトで表されます。 表の縦方向が第 1 バイト、 横方向が第 2 バイトで、 JIS X 0201 (7 ビット及び 8 ビットの情報交換用符号化文字集合) とは縦横の前後関係が逆になっています。

下図は JIS 漢字コード表の一部分 (上図の中サイズの正方形の左上の着色部に相当) です。
「あ」 という文字の JIS 漢字コードは 2422、 「亜」 という文字は 3021、 「鮎」 という文字は 303E になります (文字コードはいずれも 16 進数表記)

JIS X 0208


上図は JIS 漢字コード表の一部分だけを表していますが、 コード表全体は下の関連事項欄の各ページで見ることができます。



関連事項: JIS 漢字コード表  JIS 漢字コード表 (GIF 画像版)  JIS 漢字コード  2 進数  16 進数  ASCII  情報量


情報処理概論 に戻る   用語解説 に戻る   戻る


*1 大漢和辞典には 5 万字以上あるそうです。

自由利用マーク
update; 2013.02.15  address