キャラクタ

資料シート●各科目

キャラクタ

http://www.infonet.co.jp/apt/March/syllabus/bookshelf/character.html

　コンピュータの世界では、文字のことをキャラクタ(character)という。厳密に言うと、キャラクタは意味で、それを視覚的に表現したのが文字(letter)だ。したがって、文字としての区別よりも、キャラクタとしての区別の方が少し緩い。
　たとえば、紙に書かれている文字の"あ"(▽図左。点字に対して墨字という)と点字として打たれている"あ"(同右)は、文字としては別のものだけれど、キャラクタとしては同じ一つの字を意味している。

　また、明治維新のころまではひらがなの文字の形は一つずつには決まっていなくて、同じ字(つまりキャラクタ)をいろんな形の文字で書き表わしていた(資料[ひらがな])。このように、(視覚的な記号としての)文字としては別のものとして考えるけれど、キャラクタとしては同じものとして考えなければいけない場合がよくある。　ただ、特定のキャラクタを文章の中でじかに表現するのには、どうしても代わりに"あ"のような文字を使わなければならない。この資料の中でも、"あ"と書いてあったら、それは文字の"あ"を意味しているのではなくて、"あ"という文字が表現しているキャラクタを意味していると思うようにしてほしい。

　なお、キャラクタには、スペース(=space=空白)、改行(=cariage return)、タブ(=tab)といった、タイプライタのキーボードにはキーがあるけれども、ふつうは文字とは考えないようなものも含まれている。

キャラクタが印刷できるしくみ

　キャラクタは、シフトJISなどの符号系に基づいて符号に直された状態で記録/通信されている。たとえば、作文した文章をフロッピに記録しても、キャラクタの符号("A"なら××○×××××)が記録されているだけで、モニタに表示したりプリンタで印刷したりできるような文字の形が記録されているわけではない。だから、同じ文章でも、プリンタを取り替えると印刷される字の形が変ってしまう(明朝ふうに印刷されたりゴシックふうに印刷されたり)ことがある。
　字の形は、スチルまたは図形として、コンピュータの本体やプリンタ(特に品質の高い印刷をするためのものの場合)にあらかじめ記録されている。そして、キャラクタの符号と、ほかに指定されている書体とか大きさの指定とを組み合わせると、実際の字の形が引き出せるようになっている。モニタやプリンタはそれを表示したり印刷したりしている。
　たとえば、"森"のように複雑な字も、"木"のように単純な字も、同じ漢字の1字ということで、フロッピの中では同じ広さ(ビットで8桁)の場所に記録されている(字を図や絵として記録する場合は別だけど)。

字体問題

　いくつかの字には、かなり見た目の違う二つ以上の書き方がある。たとえば、かもめという字は"鴎"のように書く(または印刷/表示する)こともあれば箱の中の"メ"を"品"に替えたような字で書くこともある。このような違いはいろんな理由から生まれてきた(▽図)。

標準の書き方が決められて広く使われていたのに、それが改められて新しく別の標準ができたため
戦前の書き方と戦後の書き方との違いなど

政府によって内容の異なる標準が定められたため
日本、中国(北京)、中国(台北)での書き方の違いなど

もともと固有名に使う字の書き方は各自が自由に決めていいという気分があり、書き方を微妙に変えたため
人名によく見られる画の長短や個数の違いなど

△
同じキャラクタに二つ以上の異なる書き方が生まれる理由のおもなもの

　このような文字は、国語の決まりにしたがって使い分けをする必要はない。つまり、場合によって、"メ"と書いても"品"と書いても、(古い書き方のように見えることはあっても)どちらかが間違っているとは思われない。そのため、これらは、どちらも同じキャラクタで、書き方が違うだけだとして扱われる。
　しかし、人名や地名に使う場合にはどちらの書き方を使うかが決まっていて、違う書き方をしないように気をつけたい気持ちになることがある(特に本人やその地域の人は)。
　このように、情報を取り扱う場合には、キャラクタが区別できるだけでは十分ではなくて、そのキャラクタの書き方も区別しなければならない場合がある。

　キャラクタの書き方の違いにも大小がある。
　区別が問題にされることのない小さな違いを書き方の揺らぎ(JIS X0213ではデザイン)の違いという(▽図上)。書法によるやむを得ない書き方の違い(楷書体と明朝体とでは書き方がかなり違う。▽図)も、区別が問題にされることはほとんどないのでこちらに含まれる。
　場合によっては区別が問題にされるような大きな違いを字体(glyph)の違いという(同中)。例として挙げた"メ"と"品"の違いも字体の違いだと考えられている。
　意味の違いによっていつでも使い分けなければならないような大きな違いがあると人々に認められているような場合は、書き方の違いではなくてキャラクタとしては別のものだとして扱われるようになる(同下)。

　そもそも、ISOやJISなどのキャラクタ符号系は、キャラクタを表現するためのもので、それをキャラクタで表現する場合に使う字体を表現するためのものではない。たとえば、キャラクタ符号系を使って記録されているテキストのファイルがあったとしたら、それを文字として印刷しても、点字として打ち出すために使っても、読み上げるために使ってもかまわない。
　したがって、字体としては違っていても、キャラクタとして同じなら、キャラクタ符号系を使っている限り同じ符号で表現される。たとえば、"メ"も"品"もJIS2単位系での符号は

　××○○ ××○× ××○× ○×○× (322A)

で区別されない。
　もともと、キャラクタの違いではなく字体の違いが区別できるような符号系を作って使うようにしてもよかったのかもしれない。しかし、それでは同じ文字が違う文字(正しくは字体)として扱われることになってしまって、今とは逆の向きで困ることがもっと増えるだろう。
　しかし、このような考え方がはっきりしてきたのは、(日本では)実際にテキストの情報化が広く行われるようになってからのことだった。むしろ、初めのころは、キャラクタ符号系で字体の違いも表現しようとする考え方が強かっただろう。そのため、JISの対応表に(たまたまそのキャラクタのいくつもある字体のうちの代表として)載っていた字体にはその符号を対応させ、別の字体を印刷したい記事に対しては別の符号を決めて(たとえば外字として)使うようになってしまった。このことによって、一般には間違っていないとされている綴りが違っていると判断されてしまう問題の素地が作られた。しかし、それが実際に問題になるのは最近になってからだ(たとえば今で言えば"品"の"森鴎外"について書いてあるウェブが"森鴎外"では検索できないなど)。
　この問題が議論されるようになったきっかけは、1983年に決められたJIS X0208-83だった。これはそれまでのJIS X0208-78を改定したものだったが、対応表の表現も手直しされていて、キャラクタの欄に、部首などを現代化した(当時の通用の字体とも違う)新しい字体が書かれていた(▽図)。

　キャラクタ符号系はキャラクタと符号を対応させるものという考え方からすれば、対応表の字体が変わっても、前の字体と同じ字体が印刷されるままにしておいてよかったのだけれど、ほとんどのシステムでは対応表の字体に合せて印刷される字体を交替してしまった。そのため、氏名を扱う業務などで、本人が希望するのとは違う字体が印刷されたり、それを避けるために記録の中の符号を書き直す作業が行なわれたりして混乱が拡がった。
　このことを通して、文字の区別には意味の違い(キャラクタ)と書き方の違い(字体)との二つのレベルがあり、場合によってその二つが使い分けられていることがはっきり意識されるようになった。
　今のJISでは、キャラクタ符号系を字体の表現に流用しないようにはっきり述べているし、対応表に載っている文字の字体は代表にすぎないとしている。しかし、まだ多くの人々はキャラクタ符号系を字体を区別するためのものと誤解しているし、誤解が解けた人も、字体の差を表現する手段がないために、知っていてしかたなくキャラクタ符号系を流用している。
　これらの問題も含めて、キャラクタ符号系にまつわる問題のうちのいくつかは、文字には字体の違いがあることから生まれている。それらをまとめて字体問題という(▽図)。

同じキャラクタに対して違う符号が使われているので、一致しているものを一致しているとみなしてもらえない

キャラクタ符号系は字体の違いも表現できる(べきだ)と誤解されている

字体の違いを表現できる(しかもキャラクタ符号系による表現と併用できる)手段がない

字体が違うだけなのに別々の符号を対応させてしまったものがあり、それを今さら廃止できない

対応表に書かれているのとは違う字体(伝統的な字体や氏名に使われている固有の字体など)が迫害されるようになる(かもしれないという心配)

外国の字体と一まとめにされて祖国の字体が迫害されるようになる(かもしれないという心配)

△
字体問題の論点

　字体問題は漢字の関係で議論されることが多いが、ほかの文字の体系でも起る。一つの考え方として、ラテン文字の"A"と"a"には別々の符号が割り当てられているが、これだっておかしいかもしれない。また、ラテン文字の"A"とギリシャ文字の"A"とキリル文字の"A"はそれぞれ異なった符号が割り当てられることが多い(JIS2単位系でも)が、キャラクタとしては同じものだと考えるべきかもしれない(字体もよく似ているし)。
　これからは、キャラクタの違いではなくて字体の違いが区別できる、字体符号系とでも呼べるような符号系(しかも目的によってはキャラクタ符号系としても機能できるような)が作られることが必要だろう。