わたしたちは生活を通じていろんな音を聞いているが、音楽を聞いている時、人が話すのを聞いている時、雨や風の音を聞いている時では、情報の受け入れ方はかなり違っている。
音楽や人の話しを聞いている時、わたしたちは、音そのものの強弱やそれがきれいな音かどうか、といったことも聞き取ろうとしているが、音楽なら音符に対応する演奏の音、話しなら文字に対応する発声を単位として聞いていて、頭の中ではそれが並んだものとして音を聞こうとしている。逆に、演奏したり話したりする時も同じようなことを意識しながら音を出している。
コンピュータで音楽を扱うのには二つの取り組み方がある。音を
要素から組み立てられたものとして扱う方法と、
そのまま扱う方法だ。
音楽や
スピーチ(speech=人の話し)は初めの方法で、そのほかの音はあとの方法で扱うことが多い。
音楽を音として扱えば、ことばでは言い表せない内容、たとえば音のせり上がりとか出遅れとかいったことまで正確に記録したり転送したりできるが、演奏の内容に対して操作を加えることはできない。たとえば滑らかな演奏を歯切れのいい演奏に変えるようなことはできない。音として音楽を扱っている限り、どこが音符の切れ目かは分からないからで、どうしてもこのような操作をしたければ、音をよく調べて一度は音符の列として書き直してみなければならない。
要素から組み立てられたものとして扱う場合は、歯切れを変えるとか転調するとかいった、要素を単位とする操作ができるようになる。けれど、あらかじめ要素として考えに入れてない内容は捨てなければならない。たとえば、
MIDIという形式では、音を硬く弾くか柔らかく弾くかの違いは書き表せない。もちろん、要素の性質を増やせばいいのだけれど、それでは要素がいくらでも増えてしまい、分かりやすさは損なわれてしまうだろう。
曲を歌唱することによっても音は生じる。このような音を
ボーカルという。現在のデジタル情報システムでは、ボーカルはまだ自由には取り扱えるようにはなっていない。これは、ボーカルが音楽とスピーチとの両方の特徴を合わせ持つからだ。