文章と文字

科目学習書●[メディアテクノロジー論]/[マルチメディア活用論]

理解させる
●
文章と文字

△
＜ | ＞

http://www.infonet.co.jp/apt/March/syllabus/MedTech/text.html

文章の構造

　ことばは情報を記録/通信するために生み出された。ことばには書きことばと話しことばとがあり、書きことばは視覚を通じて、話しことばは聴覚を通じて情報の記録/通信に関わっている。
　紙などに書かれた文章は文字の列(sequence)として組み立てられている(▽図)。言語によっては、見かけでは一列に並んでいるようには見えない場合もあるが、文章は人(や機械)が1字ずつ書いていくものなので、そのような場合にしても書く順番で見れば一列になっている。

△
(上から順に)ラテン文字、アラビア文字、日本字で書かれた文章

　声によって語られる文章も書かれた文章と同じように要素の列として組み立てられている。声の文章の場合は、何を要素と考えるかについては場合によっていろいろだけれど、多くの言語では、その文章を文字で書いた場合のそれぞれの文字に対応する音が要素になっていると考えることができる。この要素を音素という。
　文章は像(書かれた文章の姿)や音(読み上げる声)として表現することもできるし、文字の列として表現することもできる。
　文章が像や音として表現してあれば、字がきれいに書けているかとか声が大きいとかいったことがらをそこから読み取ることができる。でもそれとは裏表で、内容が同じかどうかは比べることはできなくなってしまう。
　翻訳や(広い意味での)表示の形式の変更をする場合には、像や音をじかに処理することはできない。そのため、なるべく多くの人の役に立つように文章を記録/通信するためには、見え方とか聞こえ方は切り離して、文字の列として表現する考え方の方が適している。
　文章を文字の列と見なしたものをテキスト(text=本文。資料[テキスト])という。そして、テキストの要素になっている文字をキャラクタ(character=人格。資料[キャラクタ])という。したがって、テキストはキャラクタの列と考えることができる。
　ファイルの名前などのように、短くて文章にはなっていないテキストをストリング(string=紐)という。

文章の生成と利用

　わたしたちは紙とペンを使って文章を書き、口で話し、それを読んだり聞いたりしてきた。80年代になると、こうした活動の一部はワードプロセッサ(word processor)のように電子的な情報システムの支援のもとで行なわれるようになった。
　電子的なテキストはエディタ(editor)を使って作文したり紙に書かれているものから写したりすることによって生成される。紙に印刷されているのを見たり話している声を聞いたりして、そこに書かれている/話されている内容を自動的に認知(recognition)してテキストにすることも(まだ未熟だけれど)可能になっている。
　これらのシステムは、単体のアプリケーションとして作られるだけでなく、電子メールやグラフィックデザインなどの作業を支援するシステムの機能の一部として組み込まれていることも多い。

　電子的なテキストが作られてさえいれば、それを印刷/表示させたり、合成された声で話させたりすることが可能になる。また、電子メールにして送ったり、それを受け取ったりすることもできる。さらに、膨大なテキストの中から指定したストリングが含まれている部分を検索(retrieve)することもできる。

もっと深く学習するための資料
・

前川守
100万人のコンピュータ科学 3
文学編文章を科学する
(岩波書店、95-10-18)
・
5章に分かれていてそれぞれは別々に学習できる
飛ばしながらだったら4時間ずつぐらいで読み切れるだろう(ほんとはきちんと学習してほしいけどね)

もしまだならここで

符号

ビット

について学習しておきなさい

符号系

　テキストを記録/通信するためには、そのテキストに現れるかもしれないキャラクタのそれぞれに対して、それが区別できるような符号を対応させておく必要がある。これを(キャラクタ)符号系(coding system。資料[符号系])という。
　現在の世界では、ビット列(bit sequence。資料[ビット])を符号として使う多くの符号系が公けのものとして決められている。これらは、テキストに使われている言語や使っているシステムの性能に応じて使い分けられている。
　国際的な用途では、ラテン文字、数字、基本的な記号が扱えるISO符号系(資料[ISO符号系])が最もよく使われている。各国のそれぞれの言語に対応した符号系はこれをもとにして作られている。日本ではJIS1単位系(資料[JIS1単位系])、合衆国ではASCII(実質的にはこっちが先。資料[ASCII])が作られていて、それぞれの国内では広く使われている。
　JIS1単位系では漢字には符号を対応づけていない。これは、漢字は何千(または万とも)種類もあるので、ISOとの互換性を保ちながらでは、それらを取り込むことができないからだ。そこで、ほかにJIS2単位系(資料[JIS2単位系])を定めて漢字を扱えるようにしている。また、JIS2単位系の短所を改良したシフトJIS(資料[シフトJIS])や(日本語)EUC(資料[EUC])もコンピュータの関係では広く使われている。
　最近になって、世界のどんな言語(を混ぜてもいい)で書かれたテキストに対しても使える符号系としてユニコード(資料[ユニコード])が作られた。現在ではほとんどのコンピュータがユニコードに対応しているので、これからは日本語のテキストはユニコードで記録/通信されることが増えていくだろう。

　体験
　JIS規格書を見て、JIS2単位系(X0208)が実際に表として定められているのを確かめよう。

テキストの表現

　文章は、文字とは違って無限に種類が多いので、文章の全体に対して符号が対応するような符号系を決めることはできないし、そもそも一つの文章の全体を一つの符号で表現することもできない。
　テキストを記録する場合は、一つの符号系を決めて、テキストを組み立てているキャラクタに対応する符号を順に書き並べていく。これを順に読み出してキャラクタに置き換えていけば、もとのテキストは完全に再現できる。つまり、テキストを記録するための媒体は、かなり多数の符号を順に一つずつ書き込んでいって、それをまたあとで順に一つずつ読み出すことが可能になっていなければならない。
　キャラクタとキャラクタとの間の区切りは、媒体やそれを読み書きする装置の側で判断できるようになっているので、区切りを示すものを特に差し入れる必要はない。しかし実際には、段落の区切りを表す印(資料[EOL])や、全体の最後を表わす印(end of file。資料[EOF])をつけておくことが多い。
　ストリングには段落の区切りはない。また、全体の最後を表す印はつけなかったり(その場合は字数との組合せとして表現される)、テキストとは違う印を使ったりする。

リッチテキスト

　実際の(目が見える人のための)文書では、文字の大きさ、色、書体などの属性を使い分けて書かれていることが多い。このような、強化されたテキストをリッチテキスト(rich text)という。リッチテキストも、テキストと同じように文字だけで組み立てられているが、テキストよりも多くの情報を含んでいる。
　リッチテキストの表現のための形式は、作文や表示に使うアプリの種類によってそれぞれ独自の形式が決められていて、特に標準と言えるような形式は決められていない。

　同じ内容のリッチテキストをClarisWorks形式、MicrosoftWord形式、HTML形式の3種類の形式で保存したファイルの実際の内容を見比べてみなさい。

テキストの表示と印刷

　テキストとして表現されている情報には、テキストを構成している一つずつの(または一まとまりの)キャラクタがどんな姿(または音)をしているかは含まれていない。したがって、テキストを表示(または印刷、発声)するためには、テキストの情報とそれぞれのキャラクタの姿(または音)に関する情報とを組み合わせなければならない(▽図)。

	→
	↑

　キャラクタの姿に関する情報を、書体ごとに(場合によってはさらに大きさや修飾ごとに)まとめたものをフォント(font)という。
　フォントはコンピュータの(方式によってはプリンタの)記録部(現在ではハードディスク装置)に格納されている。コンピュータが文章を表示している時は、キャラクタごとに(では済まない場合もある：資料[文章の生成])フォントの内容が呼び出され、それに基づいてモニタに文字の姿が描かれる。リッチテキストの場合は、タグとして書き込まれている指示に従って特定のフォントが使われる。

　文章を表示(または印刷)するのに使えるフォントの種類はコンピュータ(やプリンタ)によっていちいち違っている。そのため、(特にグラフィックデザインでは)自分が使っている書体はほかのコンピュータでは表示できないかもしれないということをしっかり意識しておかなければいけない(資料[フォントの非可搬性])。

　文章を表示(または印刷)する機器にはいろいろなものがあり、フォントはそのそれぞれの機器のしくみに対応して作り分けられている。
　特にプリンタを使って印刷をする場合は、フォントの種類とプリンタとの組合せが合っていないと期待したとおりに印刷できない場合があるので、よく考えてフォントを選ばなければいけない(資料[フォントとプリンタとの関係])。

記述による情報の表現

　これまで、いろんなメディアがどう表現されているか学習してきたが、表現のしかたは分かっても、それはとてもそのままディスクに記録したり電話を通して遠くに転送したりできるようなものには思えなかっただろう。
　現在は、(特に複雑な)情報の多くは、その内容を説明するストリングやテキストによって表現されている。つまり、ビット列は、ことばを表現するための手段なのはもちろんだが、さらに、ことばで表現できるすべての情報を表現するための手段にもなっている。
　ことばではないものをことばで表現するためには、語彙や文形と、その意味との対応をきちんと決めておかなければならない。情景を記述するためのVRMLやウェブを記述するためのHTMLはそのために決められた。そのほかの多くのメディアについても、その内容を文章として表現するための規約が定められている(▽表)。
　もう学習したものの復習も含めて、これらのメディアとそれが文章によってどう表現されているか、特にその語彙と文形を確認しておこう。

メディア	表現の形式
音楽	MIDIメッセージ
情景	VRML
ハイパテキスト	HTML
作業	JavaScript C++

　このようにいろんなタイプの情報が文章として表現されるようになったのは、文章には語彙と文形さえうまく決めれば、どんな複雑な情報でも表現できる力があるからだ。情報を表現するために、ある規約にしたがって書かれているテキストのことを記述という。

　意味的情報のほとんどは、文章による記述を通じて記録/通信されている(MIDIメッセージのような例外もある)。したがって、文章が情報として表現できるということは、多くの意味的情報が表現できるということにつながる。つまり、キャラクタは、すべてのメディアの基礎になるメディアだと言える。プログラム(まだ学習していないが)も作業を表現した文章と言っていい。
　コンピュータは、もともとはただの計算機として登場したはずだった。それが現在のように万能の情報処理機械に進化できたのは、(人ほどではないにしろ)文章を読み書きできる能力が備わっていたからだ。

もしまだならここで

負荷容量情報量

について学習しておきなさい

もっと深く学習するための資料

コンピュータの漢字コード
http://wyvern.cc.kogakuin.ac.jp/~nyan/text/kanji.html
JIS、シフトJIS、EUCのかなり細かい解説
用語辞典もついている

日本語と文字コード
http://www.kanzaki.com/docs/jcode.html
JIS、シフトJIS、EUC、ユニコードの解説
読みやすいお勧めの資料

野島正宏
Unicode
ASCII、Vol.22, No.3, pp.227
(98-03)
ユニコードのなかなか濃い解説
ユニコードを超えて日本字コードのあり方について考えるための手がかりにもなる

Joergen Bettels, Avery Bishop
Unicode: A universal character code
http://www.digital.com/info/DTJB02/DTJB02SC.TXT
(93)
ユニコードのずっしりした解説

杉浦克己
書誌学
古文献資料に親しむ
(放送大学教育振興会、99-03-20、ISBN：4-595-85083-2、3800円)
●
ここで紹介するとちょっと変な気がするかもしれないけど、文字と言ったらコンピュータ以前の歴史の方がずっと長いわけで、ここに書いてあるようなことにもアンテナを張っておくのっていいんじゃないかと思う
特に図書館/博物館/美術館なんかの関係の仕事に進みたい人にはかなりおもしろいはず。いろいろと目鱗な発見があるよ

 　MIDIメッセージ、VRML、HTML、JavaScriptなどの記述形式については、本やウェブとしてまとめられている資料がたくさんある。
　下記のジャンクションで資料を探したらきっといい資料が見つかるだろう。

MIDI | VRML | HTML | JavaScript

　とことん学習したいんだったら下記の資料が特にいい。どれも内容は正確でしかも読みやすい。なお、中味はどれも日本語だから安心しなさい。

izumi、"What is MIDI? MIDI Manual on the Internet for Beginners"、http://www.iijnet.or.jp/izmi/sol/glossary/midi/ (1996)
中味は日本語
でも用語辞典なんかが少しは必要かも

(著者不明)、"About VRMS"、http://www.din.or.jp/~y-shiba/yuuta/ (日付不明)
基本編から始めるといい

Trycomp、"HTML講座初級編"、http://trycomp.oc.to/sei/HP/index.html (2000-02-12)

とほほ、とほほのJavaScript入門、http://wakusei.cplaza.ne.jp/twn/wwwjs.htm (1999)

＞もっと深く学習するための問題＜

△
＜ | ＞
・
文学 | 本