EUCはunixの多言語対応の一環として作られた。ラテン文字だけでなく、日本語に固有なひらがな、かたかな、句読点、さらに漢字に対しても符号を割り振ることができるようになっている。
なお、EUCにはほかに、中国語EUC、韓国語EUCなどがある。したがって、正確には日本語EUCと呼ばなければいけない。日本語EUCのことをUJISと呼ぶ流儀もある。
日本語で使われる文字は非常に種類が多く、それらが区別できるように符号を割り振らなければならない。そこで、EUCでは、JIS2単位符号系と同じように2単位(=16桁)の長さのビット列の符号を用いている。
EUCとJISや
シフトJISとの大きな相違点は、
1単位系のかたかな(いわゆる半角かたかな)が実際上は存在しないという点だ。EUCでは、JIS2単位符号系の各単位のMSBを1に変えた符号を漢字に割り当てているため、半角かたかなはこれと符号が重複してしまう。それを避けるため、前半部分に0x8Eがついた2単位符号になっている。
もともと
JIS1単位系のかたかなは、
ISO符号系と同じく1単位(=8桁)の符号でかたかなが表現できるようにするためのものだった。しかも、これとは別に本来の2単位のかたかなも存在しているので、この対応は、
1単位系のかたかなを
1単位系互換かたかな(実は2単位)として扱い、2単位系のかたかなと区別できるようにしておくためのものと言える。
実質的には、EUCでは、
1単位系互換かたかなは補助的なキャラクタとしてしか扱わないと考えた方がいいだろう。
一方、補助漢字も表現できるようになっている。これらには前半部分に0x8Fがついて3単位になった符号が割り当てられている。
EUCの長所としては以下のようなことが考えられる。
・エスケープシーケンスがない
・JISとの符号系変換が容易
・第1単位を見ただけで文字種がわかる
・漢字の第2単位が
ISO符号系と重複しない
ただし、あとの二つは
シフトJISと共通の特徴だ。
同じく短所としては、以下のようなことが挙げられる。
・桁数が一定でない
・拡張性に限界がある(
シフトJISよりはましかも)
・
1単位系互換かたかなや補助漢字も含めて完全にカバーしているシステムは少ない
EUCは、もとは明快で強力な符号系を目指して作られたけれど、実際には
シフトJISと似て非なるものをまた一つ増やしてしまい、混乱を助長してしまったと考える人もいる。