このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。
音楽系の習い事の経験がある | 声が高い | |
学籍番号 | 氏名 | (番号欄) |
ヘッドフォンまたはイヤフォンを今持っている | 名前が4文字じゃない |
CDのサンプリング周波数を調べ、各自で実験した後、それが妥当かどうか を班で議論する。最終的にどのような結論になるかは自由である。 以下についての議論を含むレポートを作成すること
自分の名前をディジタル符号化する。 以下のそれぞれのフォーマットで、自分の名前をディジタル符号にすること。 なお、それぞれの符号において、ローマ字表記などの英字、ひらがな、漢字 表記など、表記法を別々に選んで良い。 (モールス符号、ASCIIはローマ字、Shift_JIS, UTF-8 は漢字など)。 基本は0,1で表すこととするが、煩瑣な場合は16進法の記法も許す。
11/13 火曜日の夕方までに <sakamoto@c.dendai.ac.jp>宛に CDのサンプリング周波数に関するレポートと、各班員の名前に関する符号をまとめたレポートを作成して メールすること。
情報を物理現象を使って伝達することを考えます。 我々が日常行っているのは、言葉を音声にしたり、文字として書いたりしてい ます。 人間が行っているこれらの行動は、そのままコンピュータが行うには複雑す ぎます。 コンピュータが通常行っているのは、基本的に0,1という2つの状態を 表す物理現象(onかoff,波の有無、高い周波数と低い周波数など)を時間的に繰 り返して、0と1の列を送ることです。 今回は、符号化について考えます。
日本語に使われている文字は一般には10万文字以上だと言われています。 しかも、中学校までで学校で習う範囲で考えても、日本独自の文化である漢文の返 り点など、今でも一般的なワープロで書くことが困難な表記がまだまだあり ます。
文字表記にも優先すべき文字とそうでない文字があり、 JIS規格では優先順位で第一水準、第二水準、第三水準、第四水準が定めら れています。 現在はコンピュータにおいて、第二水準までは必ず使用でき、第四水準まで も使用できます。 但し、第四水準まででも11,233文字までしか収録できてなく、地名や人名な どで収録できていない文字もあります。 例えば「わたなべ」という姓名には「渡辺」の他にも「渡邉」「渡邊」など もあり、第四水準でも複数ありますが、使われている表記すべてが収録され ているわけではありません。
通信に使う文字表記にはいくつかの規格があります。 歴史的に電気通信で広く使われたものとして「モールス符号」があります。 これは、文字を単音と長音の二種類の音の組み合わせで表現するものです。 Aは「・ー」Bは「・ー・ー」などと表します。 近年まで、無線技師の試験の必須項目でもありましたが、現在は試験項目か らも外されるようになってきて、廃れていく状況です。
コンピュータでは当初は数字だけが計算できればよかったのと、メモリーが 当初は高額だったので、10進数が扱えるように4bit(24=16)や、 数字(10)、英字(26 or 26✕2)に必要な6bit(26=64), 7bit(27=128)の文字コードが使われました。 大昔は大文字しか使えないコンピュータもあった名残で、今のWindowsパソ コンでもファイル名で大文字と小文字を区別しないで使えるようになってい たりします。
7bit の文字コードで今でも最も重要なのは ASCII コードです。 これには、数字、英大文字、英小文字が含まれています。
コンピュータはアメリカで発展し、また、当初メモリーが高価だったことも あり、 20世紀では、主にコンピュータで使用できる文字は英字+一言語でした。 コンピュータで使用する情報の単位として1Byteが 8bitになっていった過程で、文字コード表の前半の128個がASCII、残りの 128個に一言語を割り当てる文字コードが使われました。 ISO-8859 はその規格で、ISO-8859-1 は西ヨーロッパ言語の文字拡張がされ ていました。 JIS X 0201はカタカナを埋めていました。
ISO-2022 は7bitの可変長の文字コード体型で、しかも ASCII と共存できる ようになっていました。 ISO-2022-JP は複数バイト で漢字も表現できるようになっていました。 ただ、これを実現するために、文字コードの中に制御文字が必要なため、文 字列の途中から見たとき、特定のバイトが漢字コードなのか ASCIIコードな のかの判定ができませんでした。 ただ、電子メールは古くから7bitで運用されていたのと、ISO-2022 は広く世 界の言葉を含んでいたので、過去においては電子メール用の国際文字コード として使われていました。
マイクロソフトは、8bitコードの後半は2byteの文字コードとするMS漢字コー ドを考案し、JIS第二水準までの文字を表現できるようにしました。 これは、SJISなどという名前で広まり、1997年に正式にShift_JISとして規 格化されました。 Windowsや 組込系などの小さなシステムでの漢字表記などでは、今でも使用されていま す。
「英字+一言語」という枠組みから抜けて、 国際的な枠組みですべての文字を包括するために、UNICODE が定められまし た。 これは、多バイト文字ですが、用途により表現法がいくつか定められました。
現在では多くのOSでUNICODEが使用される。
音声などのアナログ信号をディジタル符号にするにはどうすればよいでしょ うか?
基本的には有限長のディジタル符号で、表現できるものは有限でしか無いの で微細なアナログ波形すべてをディジタルで表現できません。 そのために考えられるのが、帯域制限です。
波は一般的に、フーリエ級数で表すことができます。
その際、フーリエ級数を有限で打ち切ると、高い周波数成分を失った波形に なります。 これは という有限個の情報だけからなる 波形です。 さらに、この各係数も有限桁で近似することにより、元の波形を有限の情報で 近似することができます。
実際の波形の符号化は、一定時間間隔で波の高さを測定するサンプリングに よって行われます。 さて、サンプリング間隔 T によって、どこまでの周波数帯域までの波が表現 できるかについては次の定理があります。
Hz 以上のスペクトルを持たない帯域制限された信号は、以下で与えられる間隔で標本化された値によって一意に決定される
なお、パルス符号変調(PCM: Pulse Code Modulation)はこの原理により、波 を符号化します。