オーディオ

資料シート●各科目

オーディオ

http://www.infonet.co.jp/apt/March/syllabus/bookshelf/audio.html

　音を、耳で聞こえる感覚がそのまま再現できるような形式で表現した情報をオーディオ(audio)という。

△
にゃあ

　音(sound)は、とても速くて細かい振動(=押したり引いたりする振れの変化の繰り返し)だ。音が伝わっていく途中の空気や水にはたらく圧力(押されているのか引っぱられているのか、それはどのくらいの強さか)を、一定の時間(たとえば1/4万秒)ごとに調べて並べていけば、時刻に対する圧力の変化のグラフができる(▽図)。

△
時間につれて変化する圧力

　音には高さ、大きさ、音色の違いがある。これらはそれぞれ、圧力の振動の振幅、振動数、波の形と対応している(資料[音])。つまり、音を成り立たせている圧力の変化を正確に記録/転送すれば、風の音や虫の声のような音でも、実際に聞こえたのと全く同じ音を記録/転送することができる。オーディオはこうした考え方に基づいて音を表現している。

　テープレコーダを使うとオーディオをテープに記録することができる。また、ラジオでは電波を使ってオーディオを放送する。つまり、これらは音を成り立たせている圧力の変化を何かの方法で記録したり放送したりできるようにしている。
　レコードでは、音のグラフをそのまま溝の表面に刻んで録音する。テープレコーダでは、音のグラフを磁気の強弱にして録音している。どちらの方式も、圧力の変化をそのまま記録している。つまり、記録されている情報はそのまま圧力の変化のグラフと同じ形をしている。

　CDやコンピュータでは、圧力の変化を、それぞれの時刻に対する圧力の相対的な値を順に並べた列(つまり数の列)として表現する。このようにしてオーディオを表現するための書式としては、AIFF、Wave、(いわゆる)MP3などがある。

△
AIFFファイル

　圧力の変化を数の列として表現するためには、まず、圧力の変化のグラフを左右(時刻の方向)にいくつかに切って、その切れ目に当たる時刻の圧力の情報だけを選び出さなければならない。さらに、グラフを上下(圧力の方向)にもいくつかに切って、圧力の値をその切れ目に合わせて丸めなければならない。オーディオCDの場合では、時刻の分割の細かさは44.100kHz、圧力の分割の細かさは16ビット(つまり2¹⁶段階)にすることが多い。
　この二つの作業によって、もとのグラフに含まれていた情報のうちのかなりの部分は捨てられてしまう。しかし、人の音を聞く能力にはもともと限りがあるので、実用上はほとんど問題ない。たとえば、人の耳が受け入れることのできる音の高さはせいぜい20kHzまでだけれど、この高さの音は40kHzよりも細かく記録されていれば完全に再生できることが分かっている。そのため、変化を44.100kHzよりも細かく記録したとしても、(人間が)耳で聞く限りでは、それによって区別されるようになった音の違いを聞き分けることはできないだろうと考えられている。

　放送では、媒体として電波(や電線の中を流れる電流)を使うので、音のグラフの形をそのまま通信することはできない。もっと細かい振動なら電波として通信できるので、音のグラフの形を、そのような振動の厚みに対応させるAMや、同じく濃さに対応させるFMなどの方式が使われている。
　音を表現するために作られた複雑な電波を信号という。音を信号として電波に書き入れることを変調(modulation)、逆に信号から音を読み出すことを復調(demodulation)という(▽図)。また、もとの信号を書き入れるための細かい振動を搬送波という。

送信	転送	受信
音から信号を導出 ↓ 信号をアンテナに投入	電波	アンテナから信号を検出 ↓ 信号から音を導出

　音の変復調は基本的には時刻の経過につれて少しずつ行なっていけばいいので、スチルやビデオに比べてオーディオの技術の確立は早く、1900年代には記録(蝋管録音器)も通信(ラジオ)も可能になっていた。

　番号を表す符号として特別な形をしたごく短い波をビットとするビット列を使えば、AMやFMの場合と同じように音を表現する信号ができる。このようにして信号を作るのも変/復調の特別なものと考えて、PCM(pulse-code modulation)という。
　オーディオCDは、音楽などの聴覚的な情報を記録するフォーマットとして、現在では最もよく使われている。オーディオCDでは、PCMにもとづいて情報化したオーディオを、CD-ROMやCD-Rなどの媒体材に記録する(▽図)。

記録	持続	再生
音からビット列を導出 ↓ プレス	CDの表面の凹凸	レーザの照射に対する反射のずれを検出 ↓ ビット列から音を導出

　オーディオを番号の列としてそのまま表現すると、媒体にかなりの負荷がかかる。そのため、最近では多少は品質を犠牲にしても負荷が減らせる方式が使われるようになってきた。なかでも、MPEGの一部であるMP3(＜MPEG-1 layer-3)は、3分間のオーディオなら1MB程度に圧縮して記録することができるので、短い曲をウェブを通じて放送したり、持ち歩いて聞いたりするのに使われている。

　音は、種類によっては、演奏(performance)やスピーチ(speech)として表現することもできる。オーディオでは音を官能的(sensitive)に表現するのに対して、演奏やスピーチでは音を意味的(semantic)に表現する。したがって、オーディオはそのまま実際に聞こえる音として再生することができるが、演奏やスピーチはレンダリング(rendering)に相当する作業を経ないと直接には耳で聞くことはできない。
　逆に、オーディオとして表現されている音に対して、転調(音楽の場合)や、字としての表示(講演の録音の場合)などの意味的な作業をしたい場合には、そこから意味を汲み出す認知という作業をあらかじめ行なっておく必要がある。

音