戻る 文字化け・・バベルの塔   (情報今昔物語)


 コンピューターは0と1との2つの数で記されたデジタル信号によって動いている。 従って、 文字を取り扱う時は、 文字を暗号表 (辞書) (文字コード) を用いて、 0と1との数に変換 (encode) する。 所が、 この暗号表が幾種類もある。 暗号表を取り違えたらムチャクチャになってしまう。 そのムチャクチャでガチャガチャになった状態が文字化けである。
 日本語の場合も、 暗号表は主なものだけでも、 @JISコード (7単位コード、 8単位コードの2種類) AシフトJISコード B日本語EUC CEBCDIC、 DUNICODE。  更に、 コンピューターの機種によって異なる機種依存文字とか、 ユーザーが手前勝手に作った独自拡張文字と云うものまである。 これでは、 取り違えが起こっても何の不思議でもない。
 しかも、 世界にある言語は日本語だけではないが、 各国がそれぞれ勝手に暗号表を作ったのでは、 通話はコンガラガッテしまう。 世界中の文字を一元的に網羅した辞書でないと通信ができない。 世界には数百を越える言語があり、 数万に及ぶ文字がある。
そこで、 世界中のすべての言語・文字を網羅した辞書 (文字コード) を作ることが企てられた。 これが 「UNICODE」 である。

 こうして1980年代初めに作られ始めたUNICODEは、 当初は、 すべての文字を16bitで表そうと考えた。 16bitあれば、 2の16乗の65,526個の文字を入れる箱を作ることが出来るので、 これだけあれば、 世界中の文字を表せるものと思った。 東洋で用いられている 「漢字」 も、 総計で2万字程度であるから、 それを全て収録しても、 まだ3万字ほどの余裕がある。
 そこで、 その余裕に収めるべき文字を募集した。 すると、 あにはからんや、 大騒ぎのテンヤワンヤになった。 世界中から、 「これも入れてくれ。 これも入れるべきだ」 と云う申請が殺到する。 我が国も、 苗字や地名だけに用いられ 「補助漢字」 とされていた文字も入れたいとした。


  西夏文字
 そうこうするうち、 この際、 古今東西の文字を網羅すべきであると論議され、 世界中の言語学者や考古学者も発言してくる。 かくて、 もはや収拾がつかなくなった。 ここで云う 「古今東西」 と云う単語は決して、 白髪三千丈式の誇大表現ではない。 本当に 「古今東西」 なのである。 そこには、 古代エジプトの象形文字、 古代シュメールの楔形文字から、 千年近くも前に滅んだシルクロードの西夏の国の文字までも含まれる。 人類文明の世界遺産の壮大な集約を志したのである。
 そして、 遂に、 文字の収納枠を増やそうと云うことになる。 16bitで足りなければ、 次は、 コンピユーターで使いやすいのは32bitである。 しかし、 これでは余りにも長くなり過ぎる。 「帯に短し襷に長し」 である。 そこで、 「サロゲート・ペァー (代用対) 」 なんて云うものが考えられた。 これは、 基本的な文字は16bitで表し、 それ以外の文字は32bitで表すとしたもので、 これをUTF16と呼ぶことにした。

 そうなると、 今度は長くなり過ぎると云うことで、 可変長と云う方法を用いたUTF8と云うものが現れる。 他方では、 シンプルに、 いっそのこと全ての文字を32bitにしてしまえと称して、 UTF32と云うものまで現れてくる。 かくて、 UNICODEも随分と複雑になって来る。  更にはBOM (バイト順マーク) と云うものも考えられるようになり、 UNICODEはいよいよ複雑なものになつてきた。
複雑になればなる程、 文字化けの種が増えてくる。

 私は、 技術と云うものは、 概してパッチワークの 「つぎはぎ」 であると考えている。 いや、 技術だけではない。 世の中のこと、 何によらず人の作ったものは、 制度、 法律、 習慣や契約も、 多くの人の利害や思惑を折衷し、 過去の経緯や因縁に折り合いを着けて取りまとめた、 寄せ集めの端切れの 「つぎはぎ」 のような物だと思っている。 だから、 継ぎ目が何時破れても不思議ではないのだ。 いわんや、 文字コードにおいておや。 いつ文字化けが起こっても不思議はないのではなかろうか。


  ブリューゲルの 「バベルの塔」

 かくて、
 私は文字コードと云うものを思うと、 何となくバベルの塔が思い浮かん来てならない。 そして、 文字化けと云うと、 塔のあちこちに走る亀裂のように思えてならない。
 旧約聖書創世記の11章は次のような物語を記している。
 『昔、 すべての人は、 同じ言葉同じ言語を用いてい た。 そして、 みんなで集まって力を併せて、 天にも届く程の塔を作り始めた。 それをご覧になった神様は、 神を恐れぬ所行であると怒って、 人々の言葉を乱し、 お互いに通じない違う言葉を話させるようにした。 このため、 人々は混乱し、 塔の建設をやめて、 世界各地へ散っていった』 と。

 オランダのブリューゲルが描くバベルの塔は7階建てであるが、 UNICODEの塔は17面を持っているので、 云うならば17階建てである。 そして、 各階には65,536 (16の4乗) の部屋が設けられているとも云えよう。 ただし、 目下のところは5階から14階までは空き部屋のままのようである。
 それにしても、 私には、 現代のバベルの塔は、 聖書の中の塔よりも、 もっと奇怪なものになってしまったように感じられてならない。 皆が寄ってたかって、 言語学者や歴史学者までもが、 嬉し気に集まってきて、 ワッショイ・ワッショイと神輿を担いで、 今は博物館の陳列棚にしか存在しない化石のような文字まで並べ立てて・・・
 私は決して古代の文字を否定する訳ではない。 しかし、 それはそれとして別の場所に、 別のアーカイブとして保管すべきではないのか。 ・・・
 そして、 明治時代に、 上田万年が進めたような、 日本語の改革の方を、 この機会にもっと押し進めるべきではなかったのかと思っている。



情報処理概論 に戻る   情報夜話 に戻る   戻る