このような文字は、国語の決まりにしたがって使い分けをする必要はない。つまり、場合によって、"メ"と書いても"品"と書いても、(古い書き方のように見えることはあっても)どちらかが間違っているとは思われない。そのため、これらは、どちらも同じキャラクタで、書き方が違うだけだとして扱われる。
しかし、人名や地名に使う場合にはどちらの書き方を使うかが決まっていて、違う書き方をしないように気をつけたい気持ちになることがある(特に本人やその地域の人は)。
このように、情報を取り扱う場合には、キャラクタが区別できるだけでは十分ではなくて、そのキャラクタの書き方も区別しなければならない場合がある。
キャラクタの書き方の違いにも大小がある。
区別が問題にされることのない小さな違いを書き方の揺らぎ(JIS X0213ではデザイン)の違いという(▽図上)。書法によるやむを得ない書き方の違い(楷書体と明朝体とでは書き方がかなり違う。▽図)も、区別が問題にされることはほとんどないのでこちらに含まれる。
場合によっては区別が問題にされるような大きな違いを字体(glyph)の違いという(同中)。例として挙げた"メ"と"品"の違いも字体の違いだと考えられている。
意味の違いによっていつでも使い分けなければならないような大きな違いがあると人々に認められているような場合は、書き方の違いではなくてキャラクタとしては別のものだとして扱われるようになる(同下)。
そもそも、ISOやJISなどのキャラクタ
符号系は、
キャラクタを表現するためのもので、それをキャラクタで表現する場合に使う字体を表現するためのものではない。たとえば、キャラクタ
符号系を使って記録されているテキストのファイルがあったとしたら、それを文字として印刷しても、点字として打ち出すために使っても、読み上げるために使ってもかまわない。
したがって、字体としては違っていても、キャラクタとして同じなら、キャラクタ
符号系を使っている限り同じ符号で表現される。たとえば、"メ"も"品"もJIS2単位系での符号は
××○○ ××○× ××○× ○×○× (322A)
で区別されない。
もともと、キャラクタの違いではなく字体の違いが区別できるような
符号系を作って使うようにしてもよかったのかもしれない。しかし、それでは同じ文字が違う文字(正しくは字体)として扱われることになってしまって、今とは逆の向きで困ることがもっと増えるだろう。
しかし、このような考え方がはっきりしてきたのは、(日本では)実際にテキストの情報化が広く行われるようになってからのことだった。むしろ、初めのころは、キャラクタ
符号系で字体の違いも表現しようとする考え方が強かっただろう。そのため、JISの対応表に(たまたまそのキャラクタのいくつもある字体のうちの代表として)載っていた字体にはその符号を対応させ、別の字体を印刷したい記事に対しては別の符号を決めて(たとえば外字として)使うようになってしまった。このことによって、一般には間違っていないとされている綴りが違っていると判断されてしまう問題の素地が作られた。しかし、それが実際に問題になるのは最近になってからだ(たとえば今で言えば"品"の"森鴎外"について書いてあるウェブが"森鴎外"では検索できないなど)。
この問題が議論されるようになったきっかけは、1983年に決められたJIS X0208-83だった。これはそれまでのJIS X0208-78を改定したものだったが、対応表の表現も手直しされていて、キャラクタの欄に、部首などを現代化した(当時の通用の字体とも違う)新しい字体が書かれていた(▽図)。
キャラクタ
符号系は
キャラクタと符号を対応させるものという考え方からすれば、対応表の字体が変わっても、前の字体と同じ字体が印刷されるままにしておいてよかったのだけれど、ほとんどのシステムでは対応表の字体に合せて印刷される字体を交替してしまった。そのため、氏名を扱う業務などで、本人が希望するのとは違う字体が印刷されたり、それを避けるために記録の中の符号を書き直す作業が行なわれたりして混乱が拡がった。
このことを通して、文字の区別には意味の違い(キャラクタ)と書き方の違い(字体)との二つのレベルがあり、場合によってその二つが使い分けられていることがはっきり意識されるようになった。
今のJISでは、キャラクタ
符号系を字体の表現に流用しないようにはっきり述べているし、対応表に載っている文字の字体は代表にすぎないとしている。しかし、まだ多くの人々はキャラクタ
符号系を字体を区別するためのものと誤解しているし、誤解が解けた人も、字体の差を表現する手段がないために、知っていてしかたなくキャラクタ
符号系を流用している。
これらの問題も含めて、キャラクタ
符号系にまつわる問題のうちのいくつかは、文字には字体の違いがあることから生まれている。それらをまとめて
字体問題という(▽図)。
字体問題は漢字の関係で議論されることが多いが、ほかの文字の体系でも起る。一つの考え方として、ラテン文字の"A"と"a"には別々の符号が割り当てられているが、これだっておかしいかもしれない。また、ラテン文字の"A"とギリシャ文字の"A"とキリル文字の"A"はそれぞれ異なった符号が割り当てられることが多い(JIS2単位系でも)が、キャラクタとしては同じものだと考えるべきかもしれない(字体もよく似ているし)。
これからは、キャラクタの違いではなくて字体の違いが区別できる、字体
符号系とでも呼べるような
符号系(しかも目的によってはキャラクタ
符号系としても機能できるような)が作られることが必要だろう。