資料シート●各科目

テキスト

http://www.infonet.co.jp/apt/March/syllabus/bookshelf/text.html




文章の構造


 ことばは情報を記録/通信するために生み出された。ことばには書きことばと話しことばとがあり、書きことばは視覚を通じて、話しことばは聴覚を通じて情報の記録/通信に関わっている。
 紙などに書かれた文章は文字の(sequence)として組み立てられている(▽図)。言語によっては、見かけでは一列に並んでいるようには見えない場合もあるが、文章は人(や機械)が1字ずつ書いていくものなので、そのような場合にしても書く順番で見れば一列になっている。







(上から順に)ラテン文字、アラビア文字、日本字で書かれた文章

 声によって語られる文章も書かれた文章と同じように要素の列として組み立てられている。声の文章の場合は、何を要素と考えるかについては場合によっていろいろだけれど、多くの言語では、その文章を文字で書いた場合のそれぞれの文字に対応する音が要素になっていると考えることができる。この要素を音素という。
 文章は像(書かれた文章の姿)や音(読み上げる声)として表現することもできるし、文字の列として表現することもできる。
 文章が像や音として表現してあれば、字がきれいに書けているかとか声が大きいとかいったことがらをそこから読み取ることができる。でもそれとは裏表で、内容が同じかどうかは比べることはできなくなってしまう。
 翻訳や(広い意味での)表示の形式の変更をする場合には、像や音をじかに処理することはできない。そのため、なるべく多くの人の役に立つように文章を記録/通信するためには、見え方とか聞こえ方は切り離して、文字の列として表現する考え方の方が適している。
 文章を文字の列と見なしたものをテキスト(text=本文。資料[テキスト])という。そして、テキストの要素になっている文字をキャラクタ(character=人格。資料[キャラクタ])という。したがって、テキストはキャラクタの列と考えることができる。
 ファイルの名前などのように、短くて文章にはなっていないテキストをストリング(string=紐)という。

 文章は、基本的にはキャラクタが並んだものにすぎないから、非常に長いストリング(string=紐、文字列)だと考えることもできる。ストリングを拡張して、段落や全体の最後を表すキャラクタ以外の印が含まれていてもいいことにしたものをテキスト(text=本文)という(▽図)。

□□□(段落)□□□(段落)...(段落)□□□(最後)

テキスト

 時間の経過に沿った要素の列という点で、テキストはオーディオとよく似ている。  段落の区切りの印をEOL(またはeoln、end of line)という。実際には、EOLは、特別に規則で決めたストリングを使って表現する場合と、[LF]、[CR]などの特別な(キャラクタとしては絶対に使わない)準キャラクタで表現する場合とがある。

 文章の全体の最後の印をEOF(end of file)という。EOFには○だけまたは×だけを並べたビット列が使われる。

 印刷された本やウェブに載っているような実際のテキストは、単純に文字が並んでいるのではなくて、(chapter)や(section)などの要素に枝別れした構造になっている。



 HTMLは、もともとこのような構造を本文の中に書き込んで(mark)おいて、検索や表示の時に役に立てたいという必要から作られた。


文章の生成


 わたしたちは紙とペンを使って文章を書き、口で話し、それを読んだり聞いたりしてきた。80年代になると、こうした活動の一部はワードプロセッサ(word processor)のように電子的な情報システムの支援のもとで行なわれるようになった。
 電子的なテキストはエディタ(editor)を使って作文したり紙に書かれているものから写したりすることによって生成される。紙に印刷されているのを見たり話している声を聞いたりして、そこに書かれている/話されている内容を自動的に認知(recognition)してテキストにすることも(まだ未熟だけれど)可能になっている。
 これらのシステムは、単体のアプリケーションとして作られるだけでなく、電子メールやグラフィックデザインなどの作業を支援するシステムの機能の一部として組み込まれていることも多い。


文章の利用


文章の表示/印刷+朗読


 テキスト形式のファイルに記録されている一つずつの文字の情報には、テキストを構成している一つずつの(または一まとまりの)キャラクタがどんな姿(または音)をしているかは含まれていない。つまり、モニタに文字を表示させたくても(プリンタで文字を印刷させる場合でも)、どんな形の字を表示すればいいのかは分からない。したがって、テキストを表示(または印刷、発声)するためには、テキストの情報とそれぞれのキャラクタの姿(または音)に関する情報とを組み合わせなければならない(▽図)。











 電子的なテキストが作られてさえいれば、それを印刷/表示させたり、合成された声で話させたりすることが可能になる。また、電子メールにして送ったり、それを受け取ったりすることもできる。さらに、膨大なテキストの中から指定したストリングが含まれている部分を検索(retrieve)することもできる。

 文字の形は書体(明朝体、ゴシック体などの違い)、大きさ、修飾(平体、長体、斜体などの違い)と文字の符号との組み合わせで決まる。これらの組み合わせのそれぞれに対して、どの文字をどんな姿で表示/印刷しなければならないかを決めてまとめたものをフォント(font)という。
 フォントはコンピュータの(方式によってはプリンタの)記録部(現在ではハードディスク装置)にファイルとして格納されている。文章を表示する時は、コンピュータはあらかじめ決められているフォントを調べ、その記事に基づいて文字を表示する。リッチテキストの場合は、タグとして書き込まれている指示に従って特定のフォントが使われる。

 文章を表示(または印刷)するのに使えるフォントの種類はコンピュータ(やプリンタ)によっていちいち違っている。そのため、(特にグラフィックデザインでは)自分が使っている書体はほかのコンピュータでは表示できないかもしれないということをしっかり意識しておかなければいけない(資料[フォントの非可搬性])。

 文章を表示(または印刷)する機器にはいろいろなものがあり、フォントはそのそれぞれの機器のしくみに対応して作り分けられている。
 特にプリンタを使って印刷をする場合は、フォントの種類とプリンタとの組合せが合っていないと期待したとおりに印刷できない場合があるので、よく考えてフォントを選ばなければいけない(資料[フォントとプリンタとの関係])。
 多くの情報はわたしたちが感覚できるような特定の姿を備えていないから、それを見たり聞いたりするためには再生や表示のような作業が必要になる。これらの作業を官能化(presentation)という。
 テキストの場合は、目に見えるようにするために文字の像を並べたり(ライティング=writing)、耳で聞けるようにするために音素を並べたり(スピーキング=speaking)する処理が行なわれる。もっとも、文字の像を単純に並べていくだけではふつうに書くような文章の姿が再現できない場合もあり、実際のライティングやスピーキングではかなり複雑な処理が必要になる(▽図)。

×




文字の像の横書き/縦書きでの使い分け

 それぞれの文字(またはストリング)に対応する像や音は、あらかじめスチルやオーディオの集合としてコンピュータやプリンタに内蔵させておかなければならない。最近では、これらはそれぞれフォントファイルとかボイスファイルと呼ばれる大きなファイルとして、コンピュータやプリンタのハードディスク装置に保存しておくことが多い。


Q  "常磐大学"って作文するためには、"TOKIWADAIGAKU"ってタイプしますが、テキストを保存する時にはこのローマ字がファイルに書き込まれるんですか?

A  いいえ、ローマ字は書き込まれていません。
 それどころか、作文のウィンドーの中に"常磐大学"って表示された時にはもう、"TOKIWADAIGAKU"ってタイプしたことは忘れられています。ローマ字じゃなくてひらがなでタイプした場合も同じです。
 紙のウィンドーに作文を書き込んだり、絵を描いたりするためには、キーボードやマウスを使っていろんな操作をしますが、ウィンドー(の陰に隠れているメモリ)やファイルの中に保存されるのは、いろんな操作をした最後の結果だけで、その結果が作られてきた経過は何も保存されません。"TOKIWADAIGAKU"も、"常磐大学"と作文するための操作でしかありませんから、あとに残らないんです。
 ただ、あとになってから微妙なやり直しができるようにするために、操作を順番に覚えておいて、それを保存することもできるようになっているアプリはいくつかあります。たとえばExcelは、氏名などの読み方の欄を自動的に作れるように、しばらくの間はタイプしたローマ字を覚えておいてくれます。


レーアウト付きテキスト


 狭い意味でのテキストは、文章のうちの内容(=キャラクタがどう並んでいるか)だけを抜き出したもので、文字の大きさ/書体/修飾(下線、上添え/下添え、...)、折り返し方、字間/行間、...などは捨てられている。これらの、テキストには含まれていない情報をレーアウト(layout)という。ポスタや本などの(=文章の見せ方の)デザインでは、レーアウトも大切な情報だ。

 テキストにレーアウトを加えたものをレーアウト付きテキスト(layouted text または rich text)という。
 レーアウト付きテキストを記録/通信するためのフォーマットはいろいろあるけれど、HTML形式はその一つだ。

 Wordでフォーマットを指定しないでファイルを保存すると、Word形式のファイルが作られる。Word形式もレーアウト付きテキストのためのフォーマットの一つだけれど、再生するためにはWord(もちろん有料)が必要になる(それにレーアウトの一部しか再現されない)ので、ウェブには使わない方がいい。

テキスト形式 テキスト
文章の内容しか保存されない。
ただし、改行だけは保存される(でも再現されるという保証はない)
ふつうのエディタがあれば内容を調べることができる
HTML形式 テキスト
レーアウト
レーアウトも保存される
ふつうのエディタがあれば内容を調べることができる
Word形式 テキスト
レーアウト
レーアウトも保存される
Wordを使わないと内容を調べることはできない

Q  Wordではウェブは作れないんですか?

A  ちゃんと作れます。
 デザインが完成したら、別のファイルにも保存してください。その時に、フォーマットとしてHTML形式を使うように指定してください。そうすれば、レーアウト付きテキストとして保存してくれます。
 注意:別のファイルに保存する前に、必ずふつうの手順で保存をしておいてください。あとで手直しをする場合には、こっちのファイルの方が必要になります。

 PDF形式は、グラフィックデザイン(=印刷のためのデザイン)では最も標準的なフォーマットとして使われている。グラフィックデザインではテキストのレーアウトも取り扱わなければならないので、PDF形式を使えばレーアウト付きテキストを保存/通信することができる。

 HTML形式で保存されているファイルは、読者の指定やブラウザの性能に応じて、レーアウトを直して表示される。しかし、PDF形式のファイルを再生する場合はそのような調整は行なわれない(どうしても調整が必要な場合は再生されない)。
 ほとんどのウェブブラウザは、そのままではPDF形式を再生することはできないが、無料で配られている強化ソフトウェア(AcrobatReaderなど)を使えばそれが可能になる。このため、作者がデザインしたレーアウトに従って再生させたいウェブのためのページとしてもPDF形式は使われている。


コンピュータ


Copyleft(C) 2000-04, by Studio-ID(ISIHARA WATARU). All rights reserved.


最新更新
04-12-12