資料シート●[三月劇場]

EUC

呉瓊
00年度[情報処理](講義)履修生
28 Feb 2001 18:13:32

http://www.infonet.co.jp/apt/March/syllabus/bookshelf/EUC.html



 各国語に固有な文字(日本語なら漢字など)を表現するための符号系の一つ。
 Extended Unix Codeの略。




 EUCはunixの多言語対応の一環として作られた。ラテン文字だけでなく、日本語に固有なひらがな、かたかな、句読点、さらに漢字に対しても符号を割り振ることができるようになっている。
 なお、EUCにはほかに、中国語EUC、韓国語EUCなどがある。したがって、正確には日本語EUCと呼ばなければいけない。日本語EUCのことをUJISと呼ぶ流儀もある。

 日本語で使われる文字は非常に種類が多く、それらが区別できるように符号を割り振らなければならない。そこで、EUCでは、JIS2単位符号系と同じように2単位(=16桁)の長さのビット列の符号を用いている。

制御準キャラクタ
0x00〜0x1F、0x7F
ISO文字
0x20〜0x7E
半角かたかな
0x8EA1〜0x8EDF
漢字など一般の文字
0xA1A1〜0xFEFE (第1単位・第2単位とも0xA1〜0xFE)
補助漢字
0x8FA1A1〜0x8FFEFE (第2単位・第3単位とも0xA1〜0xFE)

EUCによる符号の割当て

 EUCとJISやシフトJISとの大きな相違点は、1単位系のかたかな(いわゆる半角かたかな)が実際上は存在しないという点だ。EUCでは、JIS2単位符号系の各単位のMSBを1に変えた符号を漢字に割り当てているため、半角かたかなはこれと符号が重複してしまう。それを避けるため、前半部分に0x8Eがついた2単位符号になっている。
 もともとJIS1単位系のかたかなは、ISO符号系と同じく1単位(=8桁)の符号でかたかなが表現できるようにするためのものだった。しかも、これとは別に本来の2単位のかたかなも存在しているので、この対応は、1単位系のかたかなを1単位系互換かたかな(実は2単位)として扱い、2単位系のかたかなと区別できるようにしておくためのものと言える。
 実質的には、EUCでは、1単位系互換かたかなは補助的なキャラクタとしてしか扱わないと考えた方がいいだろう。
 一方、補助漢字も表現できるようになっている。これらには前半部分に0x8Fがついて3単位になった符号が割り当てられている。

 EUCの長所としては以下のようなことが考えられる。

・エスケープシーケンスがない
・JISとの符号系変換が容易
・第1単位を見ただけで文字種がわかる
・漢字の第2単位がISO符号系と重複しない

 ただし、あとの二つはシフトJISと共通の特徴だ。

 同じく短所としては、以下のようなことが挙げられる。

・桁数が一定でない
・拡張性に限界がある(シフトJISよりはましかも)
1単位系互換かたかなや補助漢字も含めて完全にカバーしているシステムは少ない

 EUCは、もとは明快で強力な符号系を目指して作られたけれど、実際にはシフトJISと似て非なるものをまた一つ増やしてしまい、混乱を助長してしまったと考える人もいる。



このページの記事は、表記の著作者から学習の成果として提出された報告の内容を調整したものです

メディアテクノロジー論


Copyleft(C) 1999, by Studio-ID(ISIHARA WATARU). All rights reserved.


最新更新
01-06-24