学習書●[情報処理]

×

情報


|

http://www.infonet.co.jp/apt/March/syllabus/Literacies/information.html


符号 ビット 16進形式 ISO符号系 JIS1単位符号系 JIS2単位符号系 シフトJIS EUC ユニコード 自然な整数 負の整数 実数 負荷 圧縮/伸張 情報量

きょうの迷信

"アナログは人間的"
???



ビット


 ×と○(0と1と書くのがふつうだけれど数と間違えるからこの科目ではそうしない)などの2種類の要素をある決まった個数だけ並べたものをビット列(bit sequence)という。要素として使われるものをビットという。ビットは2種類しかないから、ビット列は単純なしくみの手順や機械で取り扱うことができる。それでいながら、せいぜい8個も並べるだけで、かなりの種類のビット列を作ることができる(資料[n桁の長さのビット列は2n種類ある])。

 あらかじめ定められているビット列の長さを桁数という。同じ桁数のビット列は、数のように強さを比べたり足し合せたりすることができる(資料[ビット列])。


16進形式


 ビット列を読み上げる時は左から棒読みするのが基本だが、それでは間違えやすくて不便なので、実際には16進形式という形式で読み書きすることが多い。16進形式は、ビット列を4桁ごとに分けて、そのそれぞれ(4桁なので16種類しかない)を"0"〜"9"および"A"〜"F"の16種類の数字(と言っていいなら)で表すことによって、まるで10進形式の記数のようにビット列を表わす形式で、8桁/16桁のビット列でもたった2桁/4桁(同順)で読み上げたり書き下したりすることができる(資料[16進形式])。

 試しに、強さの順を考えながら、4桁ぐらいの長さのビット列の表を作ってみなさい。


符号


 情報を記録したり通信したりできるように、情報をある決められた形式に整えることを表現(representation。presentation=表示とは違うので間違えないように)という。
 情報の内容の種類があらかじめ決まっていてその区別がつけばいいという場合は、そのそれぞれに対して記録や通信に便利な形式で名前をつけておいて、その名前によって情報を表現する。この名前を符号(code)という。最近では、符号を作るのにはビット列がよく使われている。
 情報からその符号を求めることを符号化(coding。▽図上)といい、逆に符号をもとの情報に戻すことを複号(decoding。▽図下)という。

実体
符号化


復号

符号


×

"A"
"B"
...
×○×××××○
×○××××○×
...
0
1
...
××××
×××○
...

 情報と符号との対応の方式(たとえば対応表)を符号系(coding system)という。情報を記録したり通信したりしなければならなくなるたびに符号系を決めていると、今度はその符号系を記録したり通信したりしなければならなくなってしまってきりがない。だから、符号系は用途に応じてあらかじめ決めておいて、いつも必ずそれを使うことにしておかなければいけない。


文字 文字列 文章


 わたしたちが本や雑誌で読む文章(text)は、題名、見出し、いくつかの段落に分かれた本文の列として構成されている。これらの要素はさらに文字(句読点などの記号やスペースも含む)が並んだものとして構成されている。文字(character=性格)が並んだものを文字列(string=紐)という。したがって、文章は文字列の長いものと考えることができる。

 厳密には、文章はふつうの文字だけで構成されているわけではない。EOL(end of line、文末)やEOF(end of file、文章末)などの特別な記号(列)も含まれている。


文章の表現


 文章は無限に種類が多いので、対応表として符号系を決めるというわけにはいかない。そこで、文章は文字の列だということを生かして、文章をまず文字に分解し、それぞれの文字を符号化してからまたもとのようにつなぎ合わせることによって符号化する(▽図)。

Hoo!
分離

H
o
o
!
(文章末)


符号化

×○××○××××○○×○○○○×○○×
○○○○××○××××○○○○○○○○○
結合

×○××○×××
×○○×○○○○
×○○×○○○○
××○××××○
○○○○○○○○

 文章には長い/短いの違いがあるので、文章を実際に表現するためには、文章の本体のほかに、文字が並んでいるのがどこで終わるか分かるようにする仕組みが必要になる。この仕組みの作り方には、文章の本体の直後に文章が終わったことを表わすEOF(end of file)という印をつけておく閉鎖法と、文章の本体の直前に字数を表現するビット列をつけておく字数法とがある。


文字の表現


 文字を表現するための符号系としては、Morse符号系(モールス-。▽図、資料[Morse符号系])が古くから使われてきた。



Morse符号系
国際式(左) 日本式

 Morse符号系はよく工夫されていたが、正確な表現のためには十分とはいえなかった。そこで最近では、代わりにビット列による符号系が使われている。
 文字のための符号系にはいろんな種類が連立していて、現在はそれらが混乱を起こしながらなんとか使い分けられている(資料[キャラクタ])。日本で特に広く使われているものだけでも、ラテン文字(つまりABC)のためのものが2種類、日本字のためのものが4種類以上ある。

 ISO符号系(Internationale Standization Organization-、国際標準化機構)は、合衆国のASCII符号系をもとにして、国際的に共通に使えるように定められた符号系だ(資料[ISO符号系])。各国の独自の符号系は、ISO符号系を基準にして作られている。
 ISO符号系は、世界で共通に使われているラテン文字、数字、それらと合わせて使う記号などをカバーしている。これのらキャラクタには8桁のビット列が割り当てられている。ただし、キャラクタを区別するために使われているのは、8桁のうちの右の7桁だけで、左端の1桁は、記録や通信の誤りを防ぐ目的などに使われている。

 JIS1単位符号系は、ISOを日本の事情に合わせて直した符号系だ(資料[JIS(1単位系)])。8桁のビット列を使い、その前半でISO符号を吸収し、後半でかたかなをカバーする。ひらがなや漢字が扱えない割りに、ISO符号系や各国の符号系と混乱するので、できれば使わない方がいいと考えられている。たとえば、インタネットの電子メールでは、JIS1単位符号は使ってはいけないことになっている。

 JIS2単位符号(またはただJIS符号)は、16桁のビット列を使う符号系だ(資料[JIS(2単位系)])。ひらがなや漢字もカバーできる。しかし、JIS1単位符号と混ぜて使うと区別がつかなくなるので、混ぜて使うのなら切り替えを表す記号が必要になる。

 シフトJIS符号(またはMicrosoft JIS符号)はJIS2単位符号と同等の符号系だ(資料[シフトJIS])。1単位符号と混ぜて使っても区別しやすくするために、1単位符号と間違えそうなビット列は使わないように、JIS2単位符号の表の左右を少しずつずらしたような符号系になっている。ウィン機はもちろんマック機でも、標準の符号系として使われてきた。

 EUC符号系(正確にはEUC日本符号系。資料[EUC])も、これまでの二つと同じように16桁のビット列を使う符号系で、漢字を含む日本字をカバーする。unixで標準の符号系として使われている。各国ごとに、その国に特有な文字をカバーするEUCが決められている。

 ユニコード(Unicode)は、8桁や16桁などいろんな長さのビット列を混ぜて使う符号系で、世界のすべての字をカバーする(資料[ユニコード])。ユニコードでは、書き方が違うだけの漢字や、各国の同等の漢字に対して共通の符号を割り当てるので、各国語が混ざった文章やデータベースに使うと大きな効果が得られることが期待されている。マック機やウィン機は、これからは標準の符号系をユニコードに切り替えていくことが決まっている。

 符号系の使いやすさは、文字の選び方(それによって使うビット列の長さが決まる)と並べ方によって決まる。また、ほかの符号系と混ぜて使う場合は、切り替え方や区別のしかたも決めておく必要がある。

 符号系が違えば同じ符号でも表している意味が違う。でも、符号を見ただけでは、それがどの符号系で符号化されているか区別することはできない(暗号を解くつもりで作業すれば分かるかもしれないが)。だから、海外のウェブを日本字用の符号系に照らし合わせて読もうとすると、ビュアは間違った字を表示してしまう。これを字化けという。
 インタネットでは、日本字についてはJIS2単位符号系を使って表現しなければならないことになっている。だから、実は、ほとんどの方式のコンピュータのエディタを使って書いた(つまりシフトJISやEUCで表現されている)ウェブや電子メールは、そのままでは正しく表示することができない(それどころか通信することもできない)。そこで、ExplorerやNetscapeなどのクライアントは、これらの文章がコンピュータを出入りするたびに符号の交換をしてくれている。

 時々は、符号系の判定がうまくできなくて、文章が、間違った符号系で読み書きされてしまうことがある。海外のウェブを日本字用の符号系で読もうとして起こった間違いの実例を見ておきなさい。


文章の表示/印刷


 JIS1単位系などのビット列の符号やモールス符号で表現されている文字の実体は、ABCとかいろはの区別でしかない。つまり、文章のファイルの中には、その文章に含まれている文字の形に関する情報は記録されていない。
 だから、モニタに文字を表示させたくても(プリンタで文字を印刷させる場合でも)、それだけではどんな形の字を表示すればいいのか分からない。この溝を埋めるために、OSは文字の符号とその文字の形との対応表を持っている。
 文字の形は書体(明朝体、ゴシック体などの違い)、大きさ、修飾(平体、長体、斜体などの違い)と文字の符号との組み合わせで決まる。これらの組み合わせのそれぞれに対して、どの文字をどんな姿で表示/印刷しなければならないか決めてまとめたものをフォント(font)という。コンピュータはあらかじめファイルとしてディスクに保存されているフォントに従って文字を表示する。


数 記数 数字


 数を書き表したものを記数という。記数に使う文字のうち、数を書き表すためだけに使う専用の文字を数字という。
 数と記数(または数字)は、よく似ているが全く別のものだから、きちんと区別しなければいけない。この二つを混同してしまうと、数について学習することはできない。数と記数の違いについてきちんと理解しておきなさい(資料[数 記数 数字])。
 は、番号や数量などを表わす値で、それはいろんな字を使って表現することもできるし、この単元で学習するように、ビット列で表現することもできる。数を表現するのに使われる文字は、文化によっていろいろだが、多くの場合、ふつうの文章に使うのとは違う専用の文字が使われることが多い。この文字を数字という。つまり、数は内容で、数字はそれを表現する道具(の一部)と言える(資料[数 記数 数字])。

 数字と数を混同しないようにするために、この単元では、数字(やそのストリング)はコーテーションで括って("2")書き表し、数は裸のまま(3)で書き表して区別する。

 多くの数は、複数の数字を組み合わせることによって書き表せる。この組み合わせ方の規則を記数法という。日本でふつうに使われているのは、インド式記数法(アラビア式記数法と呼ばれることが多いが間違い)で、ほかに漢字記数法も使われている。
 記数法は文化によって異なっている。できれば、海外のほかの文化の中で使われている記数法や、今では使われていない記数法(たとえば下記の資料)についても学習してみるといい。

古代エジプトの記数法と数字 | 古代バビロニアの記数法と数字 | 古代ヘブライの記数法と数字 | 古代ギリシアの記数法と数字


数のいろいろな意味


 数はいろんな使われ方をする。これを区別しないで使ったために混乱が起こることも多い。しかも、かえって数とは考えない方がいいような使われ方もある(資料[数は一つではない])。


数の表現
自然な整数


 0、1、2、...(=0と正の整数とを併せたもの)を自然な整数(natural)という(ただ自然数という場合もあるが、自然数と呼ぶのなら0は含めない方がいいという意見もある)。初めに、自然な整数を表現する方法について考える。自然な整数の表現は、ほかのもっと複雑な数の表現の基本にもなっている。

 自然な整数も含めて、数を表現するには、文字の場合と同じく、それぞれの数にビット列の符号を割り当てて、それを数そのものの代わりとして使う。
 自然な整数だけ考えればいい場合は、一括辞書順法という考え方にしたがって数に符号を割り振る。一括辞書順法では、数の大小とビット列の強弱とがちょうど対応するようにビット列を割り振っていく(資料[数の表現 自然な整数])。

 4桁のビット列の表を作り、そのそれぞれのビット列に対して、何の数が対応するか考えて書き足してみなさい。

 実は、数にビット列を対応させたり、逆にビット列からそれが表わす数を読み取ったりするには、いちいち小さい順の表を作って上から数える必要はない。もっと小さな表とちょっとした(回数は多いけれど)計算とで簡単に変換できる。もしそうでなかったら、コンピュータは数を読み書きするために膨大な表を覚えておかなければならなくなってしまっただろう。自然な整数の符号化/復号の手順について学習しなさい(資料[自然な整数フビット列])。

 このことを実験で確かめてみよう。2桁ぐらいの自然な整数を一つ決めて、それを表現する4桁のビット列を割り出してみなさい。それができたら、逆にそれが意味する数を割り出してみなさい。もとの数に戻れるはずだ。

 一括辞書順法では、2^(ビット列の桁) 未満の数にしか符号を割り振ることができない。つまり、使うビット列の桁によって符号を割り振れる数の範囲が限られてしまう。だから、一括辞書順法を使う場合は、あらかじめ、符号を割り当てる数の範囲をはっきり決めておかなければならない。数は文字と違って無限に種類があるので、この点では、一括辞書順法はかなり制約が厳しい符号化だと言える。


ビット列による自然な整数の計算


 ビット列にも、数と同じように足し合わせが決められている(▽図。資料[ビット列の和])。ビット列の足し合わせは、九九がほとんどいらないという点で、実は、数の足し合わせよりずっと簡単だ。

 ×○
+×○
=○×

ビット列の和


 ビット列の和についてはいくつかのおもしろい例があるので、実際に実験してみよう(資料[ビット列のふしぎな和])。

 ビット列の足し合わせと、そのビット列が表現する数の足し合わせとは(ほぼ)完全に一致する。しかも、ビット列は数よりずっと簡単に足し合わせができる。

 これを実験で確かめてみよう。0〜99の自然な整数を二つ決めて、それを以下の二つの方法で足し合わせてみなさい。

ア:それぞれを表現する8桁のビット列を割り出してビット列として足し合わせ、それから逆にその結果が意味する数を割り出す
イ:そのまま足し合わせる

 どっちも同じ結果になるはずだ。

 これは、もとの数に対応する符号の計算をするだけで、もとの数の計算の結果が求められるということを意味している。これは、一括辞書順法のとても優れた性質だ。このことから、一括辞書順法は、数の通信や記録だけでなく、数と数との計算にも使われている。ただし、決まった長さの桁で表わせる数の範囲は限られているから、和がその範囲を超えてしまうと、ビット列の和から得られた結果は正しい和にはならなくなってしまう。


可換の4角形


 (自然な整数の)数の和は、一括2進化形式のビット列の和で求めることができた。このような、実体の操作がその情報の操作で代用できる関係を可換の4角形という(資料[可換の4角形])。

 符号などの表現を使って情報の加工を行う場合は、可換の4角形が成り立つ限界をきちんと理解しておくことが大切だ。
 一括辞書順法の場合は、あらかじめ名前を振る数の範囲を決めておかなければならないことだ。足し合わせなどの加工の結果がその範囲を超えてしまうと、ビット列の足し合わせによって得られた結果は正しい和にはならない(資料[数の表現 和])。


加工のための表現


 文章や数などの情報はいろいろな形式で表現されているが(資料:[いろいろなメディアとその表現の形式])、これらの多くの形式は、もともとは表現のために考えられ生み出されてきた。
 しかし、数の表現に使われている一括2進化形式は、表現のためだけのために生み出されたのではない。むしろ、数の大小を判定したり、和や積を求めたりする作業を機械にもさせられるような、加工のための形式として生み出された。一括2進化形式のように、情報の表現の形式のうちのあるものは、記録や通信だけでなく、計算や比較などの加工によって、情報の中に埋もれている新しい情報を掘り起こす作業にも役立てられている。


数の表現
負の整数


 自然な整数だけでなく、負の整数も(少し変な手順だが)ビット列の名前を割り振ることができる(資料[数の表現 負の整数])。

 -99〜-0(?!)の負の整数を決めて、それを表現する8桁のビット列を割り出してみなさい。
 実は、このビット列は、同時に別の自然な整数の名前にもなっている。その数も割り出してみなさい。

 この割り振り方は変わっているように見えるが、このようにすると、自然な整数の場合と同じように負の整数の和も、ビット列の和を求めることによって割り出すことができるようになる。つまり、ビット列の加工によって数の引き算ができる。

 0〜99の自然な整数を決めて、それと前の実験で使った数とを以下の二つの方法で足し合わせてみなさい(つまり引き算をすることになる)。そして同じ結果になるか確かめなさい。
ア:それぞれを表現する8桁のビット列を割り出してビット列として足し合わせ、逆にその結果が意味する数を割り出す
イ:そのまま足し合わせる

 特別な場合として、前の実験の数の反数(正負が逆の数)を表現するビット列を割り出し、前の実験で求めたビット列と足し合わせてみなさい。
 必ず××××××××(:0)になるはずだ。


数の表現
実数


 端数のある数のことをコンピュータでは実数と呼んでいる(端数のある数で表わせるのは数学でいう実数のうちのほんの一部だが)。実数(たとえば0.25。2進形式なら0.01)は仮数(1)と指標(-2)との組合せとして表現できる。そこで、実数は二つの(負のも含む)整数の組みで表現する(資料[数の表現 実数])。
 整数でも、範囲があらかじめ決められない場合は、これと同じ手法を使って表現することができる。ただし、この場合は、端数の下の方の桁は正確ではなくなるかもしれない。


数式計算系


 いくつかの数は、(正確に扱いたい限り)名前(π)や間接的な説明(2の平方根)でしか表わせない。数式計算系とよばれる情報システムでは、このような数や変数を含む数式を特別な形式で表現して、演算や比較などの作業をすることができる。


複雑な情報の表現


 計算表、データベース、文章など、ほとんどの情報は、数と文字(と必要ならさらに区切り)の列として表現することができる。さらに、数も文字もビット列の符号によって表現することができる。したがって、ビットを表現できる媒体があれば、どんな情報でも表現することができると考えられる。また、表現の方式がうまくできていれば、情報の加工(計算、検索、照合などの)も、ビット列による表現を使って機械的に行なうことができる。

 また、これまでいろんな単元で学習してきた(またはこれから学習する)多くのメディアは、文章として表現されている。ことばではないものをことばで表現するためには、語彙や文形と、その意味との対応をきちんと決めておかなければならない。情景を記述するためのVRMLやウェブを記述するためのHTMLはそのために決められた。そのほかの多くのメディアについても、その内容を文章として表現するための規約が定められている(△表)。


メディア
表現の形式
音楽
MIDIメッセージ
情景
VRML
ハイパテキスト
HTML
作業
JavaScript
C++

 これらはどれも、もともとは文章とは関係がなかったものを、文章として(特別な語彙や文形を使うけれど)表現するための記述法だ。
 このように、コンピュータが登場するまでは文章として表現したりはしなかったようなもの(情景やスピーチ)に関する情報でさえ、現在ではおもにコンピュータとのかかわりから文章として表現されるようになっている。さらに、プログラムだって、作業を表現した文章と言っていい。
 このようにいろんなタイプの情報が文章として表現されるようになったののは、文章には、(語彙文形さえうまく決めておけば)どんな複雑な情報でも表現できる力があるからだ。
 コンピュータが使われるようになるよりもずっと前から、意味的情報の多くは、文章による記述として表現されている。したがって、文章が情報として表現できるということは、多くの意味的情報が表現できるということにつながる。つまり、キャラクタは、すべてのメディアの基礎になるメディアだと言える。プログラム(まだ学習していないが)も作業を表現した文章と言っていい。
 コンピュータは、もともとはただの計算機として登場したはずだった。それが現在のように万能の情報処理機械に進化できたのは、(人ほどではないにしろ)文章を読み書きできる能力が備わっていたからだ。


デジタル アナログ


 ビット列で数を表現するのは、原理的には、数を名前で表現していることになる。このような、名前や説明によって情報を表現する方法を、デジタル(digital)な方法という。この名前は、数を伝えるのに指(digit)を立てて見せるやり方に由来する。
 これに対して、70年代以前の情報システム(初期の一部のコンピュータも含めて)の多くは、電圧や水圧の大小で数量を表現し、それを使っていろんな作業を行なっていた。以前のラジオやTV、テープレコーダやビデオデッキなどは、このような技術として成立してきた。このような方法を、アナログ(analogue)な方法という。この名前は、アナログが、たとえ(analogy)による表現であることに由来する。
 デジタルとアナログとは対等に選択できる二つの技術と考えられることが多い。しかし、アナログの技術は実はそれほど歴史のあるものではなく、数量に関わる情報に対してしかアナログの技術は確立されていない。したがって、アナログな技術は、ごく限られた情報に対して、慎重に適用しなければならない。特に、ことばで語られるような知識に対しては、アナログな手法は使うべきではない(資料[それはアナログじゃ表現できない])。
 この意味で、アナログな技術の時代は、いろんな対象を無理に数量化することを要求する時代だった。技術を能力にそぐわないことには使わないようにするためにも、アナログで処理してきたいろんなことがほんとうに手法として正しかったのかどうか、反省しておかなければならない。


負荷 容量 情報量


 情報をビット列などで表現した時に、その表現を使って表現するのがどれぐらい手間取るかを表す量を、その情報のその表現での負荷(charge)という。
 負荷は、(表現のベースとしてビット列を使っているなら)そこに含まれているビットの総数で表すことができる。情報がファイルに保存されているなら、そのファイルの大きさが負荷だと言っていい。たとえば、シラバスのこのページは、ふつうに表現してあれば、約8万ビットの負荷になる。

 表現の媒体が、どのくらいの負荷に対応できるかを、その媒体の容量という。たとえば、ふつうの3.5型2HDフロッピの1枚の容量は、約1.4MB(ここでは1B=8ビット)だ。通信の場合は、時間当たりの容量(rate。ビット/秒などで表す)が問題になる。

 負荷は、情報の内容だけでなく、その表現のしかたによっても変わる。つまり、内容は同じ情報でも、負荷をかけない表現と負荷がかかる表現とがある。負荷がかかる表現から、負荷がかからない表現に書き換えることを圧縮(compression)、その逆を伸張(decompression)という。
 情報を圧縮していくと、それぞれの情報(とそれが出てくる情報源)によって決まっているある限界があって、それより小さく圧縮することはできなくなる。この限界をその情報の情報量(information。情報そのものも)という。
 情報量は、情報源からその情報が現れる確率によって決まる。たとえば、雨が降るか降らないかが均等で、さらに、その日の天気が次の日の天気に全く影響しないようないいかげんな地方で、1か月の天気を記録する場合、降れば×、降らなければ○で記録するしかないから、情報量は30ビットになる。しかし、雨ばっかり降っているような地方なら、(ふつうの記録での)[××]がきっと多いから、それを×で表し、ただの○を[○○]で、[×○]を[○×]で表すことにすれば、15ビットより少し大きいぐらいの負荷で表現できてしまうだろう。
 このように、2択の情報の場合、どっちも均等に現れる場合の情報量は二つとも1ビット/件であり、そうでない場合は1ビット/件を中心にして、情報量は確率の増減とは反対の向きに増減することが知られている。
 情報源から出てくる情報の情報量の平均を、その情報源のエントロピ(entropy、熱力学のエントロピとは性質は同じだけれど別のもの)という。エントロピが高いほど、その情報源からの情報を表現する媒体にはより重い負荷がかかる。





[演習]

演習の進め方をよく確認してからとりかかりなさい


n-式符号

 ●/○の2種類だけではなく、n-種類の記号の組合わせで符号を作ることもできる。それらをn-式符号(n-ary code)という。
 "0"〜"9"の10種類のキャラクタだけを区別できればいいとして、それぞれなるべく短い符号系になるように注意して、2-式、3-式、4-式、...の符号系の例を作ってみなさい。
 また、その結果に基づいて、要素の記号の種類の多少と、それらからできる符号系の長所/短所との関係を見つけ出しなさい。

自分で考えなさい

報告例
小長井敬


符号系の実際

 日本字に対する符号のつけ方のいろいろな符号系(少なくともJIS16ビット系、シフトJIS、ユニコードぐらいは)について、それぞれの方式ではどの文字はどんなビット列で表現することになっているかいくつかの例(自分で適切な例を選びなさい)について調べて、16進形式や実際のビット列で示しなさい。

資料を探して調べなさい


符号系の長短

 日本字に対する符号のつけ方のいろいろな符号系(少なくともJIS16ビット系、シフトJIS、ユニコードぐらいは)のいろんな特性について調べ、見比べやすいように表にまとめなさい。

資料を探して調べなさい


EBCDIC/ASCII

 パーソナルコンピュータが広く使われるようになる85年ごろまでは、ラテン文字でさえまだEBCDIC(=エビスディク)といわゆるASCII(=アスキ)という二つの規則が使われていた。これらについて調べなさい。
 資料[EBCDIC]および[ASCII]に簡単な解説がある。これをまず見て、EBCDICやASCIIについて学習しなさい。その上で、さらにほかの資料を探して新しい知識を見つけなさい。
 たとえば、それぞれは現在はどんな場合に使われているか、などのテーマを自分で決めて調べてみなさい。

自分で資料を探して調べなさい
コンピュータの知識が必要かもしれない


電子メール

 インタネットの電子メールはISO符号系で書かなければならない。しかし、多くのコンピュータでは日本字で電子メールを読み書きできるようになっている。このくい違いはどう解決されているか、資料を探して調べるか考えるかして説明しなさい。

コンピュータの知識が必要かもしれない


字化け

 実際に字化けが起こっている例をいくつか採集して、その内容を実際に示しなさい。また、昆虫や植物の標本と同じようにラベルも付けなさい。
 そのうえで、それが起こったしくみを推定して説明しなさい。

自分で考えなさい
説明にあたっては、適切な図を使い、それを示しながら説明するようにしなさい。
コンピュータの知識が必要かもしれない

報告例
市原昌治


容量の単位

 よく、フロッピなどの容量を説明する場合に、"アルファベットなら1万4千字(日本字なら7千字)"、という言い方をする。日本字だと字数が少なくなるのは、アルファベットと日本字とでは符号系が違うことに関係がある。それを説明しなさい。

自分で考えなさい
説明にあたっては、適切な図を使い、それを示しながら説明するようにしなさい。

報告例
笹井俊伸


漢字を制限した場合

 常用漢字とかなとラテン文字と数十種類の句読点に符号を振るだけだったら、16ビットものビット列はいらないかもしれない。その場合、少なくともどのくらいの長さのビット列を使わなければならないか考えなさい。

自分でいろいろな条件を設定して考えなさい


一つ飛ぶ理由

 "あ"に対応するビット列は82A0だが、その次の"い"は82A1ではなく82A2になっている。なぜ一つ飛んでいるのか考えなさい。
 実は、ほとんどの字の間がこのように一つずつ飛んでいる。たとえば、な行/ま行/ら行などでは一連になっているから、ひらがなとかたかなとに交互に割り当てているというわけではない。

まず自分で考えなさい。それでも分からなかったら資料で調べてもいい

報告の例とヒント
小長井敬 田中朋子


篤胤文字

 漢字が使われるようになる以前にも、日本には固有の文字系があったとする説がいくつかある。それらの文字は神代文字と呼ばれている。中には平田篤胤が紹介したもの(▽図)もある。
 篤胤の説はどうやら間違っていたらしいが(文字が古代の日本語とちゃんと対応していないので)、篤胤の文字をよく調べてみると、文字の構成についていろいろおもしろいことに気づく。どんな規則に基づいて構成されているか説明しなさい。
 ところで、その規則の中には、現在の日本語に関してわたしたちが理解していることとはずれていることが含まれている。それを見つけて詳しく説明しなさい。



自分で考えなさい
説明にあたっては、適切な図を使い、それを示しながら説明するようにしなさい。


記数法

 資料[古代エジプトの記数法と数字][バビロニアの記数法と数字][古代ギリシアの記数法と数字][マヤの記数法と数字]などで、実際に使われている(または使われていた)記数法の制度について学習しなさい。そして、これ以外の記数法を一つ選び、その規則と意味を解説しなさい。
 独特な数字を使う記数法については、その数字についても少しだけ解説しなさい。

必ずを使って説明しなさい

ヒント

報告例
宇根紅桃木部聡美成毛牧子


数と記数との順序の違い

 数と記数との違いの一つは、数に対して自然に受け入れられている順序と、ストリングの特別なものとしての記数に対して自然に受け入れられている順序とではくい違いがあるという点だ(資料[数 記数 数字])。
 自然な整数の場合について、数の順序と、記数の順序は、それぞれどう了解されているか説明しなさい。そして、その二つにはどんなくい違いがあるか見つけなさい。

自分で考えてみなさい
分かり切っているはずのことだけれど、それだけにきちんと説明するのは難しいかもしれない


数の混同

 資料[数は一つではない]では、用途が違う数を混同してはいけないと言っているが、たとえばどんな混同が行なわれ得るか考えなさい。
 混同が問題になる場合としては、番号なのに番号にはない属性を使おうとしてしまった場合と、指標なのに指標にはない属性を使おうとしてしまった場合とがある。この二つの場合のどちらかについて、架空のでいいから(しかしありそうな)例を具体的に示しなさい。

自分で考えなさい
たとえば、足し合わせたらいけないのに足し合わせてしまったり、大小や遠近を比べたらいけないのに比べてしまっている場合がないか探してみなさい

ヒント

報告例
笹井俊伸長島庸介


BCD

 以前は、数の符号化にはBCD(<binary-coded decimal=桁毎辞書順法)という手法も使われていた。これは、どんなものだったのか調べなさい。また、一括辞書順法とどこが似ていてどこが違うのか、そしてそれぞれにどんな長短があったのか比べなさい。

自分で資料を見つけて調べなさい
説明にあたっては、適切な図を作り、それを示しながら説明するようにしなさい


目撃者の手品

 目撃者の手品という余興に使うおもちゃ(資料[目撃者の手品])がある。このおもちゃの種を当ててみなさい。

自分で考えなさい
説明にあたっては、適切な図を作り、それを示しながら説明するようにしなさい

報告例
×
榎本幸太郎杉浦聖子
この報告は、見てしまったあとでは自分で課題を学習することが難しくなる
この課題に取り組むつもりなら見てはいけない


ビット列のふしぎな和

 ある特別な二つのビット列を足し合わせると、または次々に足し続けていくと、変わった結果が得られることがある。資料[ビット列のふしぎな和]には、先生やほかの学生が見つけたそんな例がいくつも載っている(まず自分でも実際に試してみなさい)。
 このような例を自分でも探して報告しなさい。
 できれば、そこから法則を見つけ、さらにその理由を明らかにしなさい。

自分で探してみなさい

報告例
×
国井陽子


大きい整数

 資料[数の表現 実数]に、実数(ここでは端数のある数)の表現の説明がある。これをちょうどさかさまに使うと、(下の方の桁が分からなくなってしまってもいい場合に限られるが)かなり大きい整数をふつうの長さのビット列で表現できる。それを自分で工夫しなさい。そして、その工夫を、いくつかの実例によって説明しなさい。

自分で考えなさい。ちょっと手強い
説明にあたっては、適切な図を作り、それを示しながら説明するようにしなさい




この単元の内容と関係がある手引きの記事

2.8.1 2値信号とコード
2.8.2 文字の表現
2.8.3 数の表現
2.8.4 16進表現
3.4 日本語の入力
5 Word97の使い方
6.1 表計算の基礎知識
6.3 データの入力 数値と文字列
6.5 データの入力 数式と関数




参考書


コンピュータの漢字符号
http://wyvern.cc.kogakuin.ac.jp/~nyan/text/kanji.html
JIS、シフトJIS、EUCのかなり細かい解説
用語辞典もついている


日本語と文字符号
http://www.kanzaki.com/docs/jcode.html
JIS、シフトJIS、EUC、ユニコードの解説
読みやすいお勧めの資料


野島正宏
Unicode
ASCII、Vol.22, No.3, pp.227
(98-03)
ユニコードのなかなか濃い解説
ユニコードを超えて日本字符号のあり方について考えるための手がかりにもなる

Joergen Bettels, Avery Bishop
Unicode: A universal character code
http://www.digital.com/info/DTJB02/DTJB02SC.TXT
(93)
ユニコードのずっしりした解説

杉浦克己
書誌学
古文献資料に親しむ
(放送大学教育振興会、99-03-20、ISBN:4-595-85083-2、3800円)
×
ここで紹介するとちょっと変な気がするかもしれないけど、文字と言ったらコンピュータ以前の歴史の方がずっと長いわけで、ここに書いてあるようなことにもアンテナを張っておくのっていいんじゃないかと思う
特に図書館/博物館/美術館なんかの関係の仕事に進みたい人にはかなりおもしろいはず。いろいろと目鱗な発見があるよ




|


Copyleft(C) 2001, by Studio-ID(ISIHARA WATARU). All rights reserved.


最新更新
01-10-06