第 1 回 ガイダンス、最小二乗法、第1回課題

本日の内容


このドキュメントは http://edu.net.c.dendai.ac.jp/ 上で公開されています。

1-1. ガイダンス

この授業のねらい

情報通信研究技術特論は、 2024年度の大学院カリキュラム改革において導入された科目です。

情報通信工学は目覚ましい発展をし、コンピュータ技術も大きく発展しました。 そのため、最先端技術にたどり着き、研究をするには多くの知識や技術が 必要になりました。 そのため、研究室に配属になってから、研究に着手するまでに、研究室で多く のことを学ぶ必要が出てきました。

そこで、情報通信研究技術特論では、 研究室で学ぶような、次のような共通化できそうなことについて、各教員 が分担して教授します。

情報通信工学の実験
学部レベルの知識を学んだ上で、知識を定着するために実験科目を設置 したい。
シミュレーション技術
情報通信工学の研究において、コンピュータシミュレーションによる実 験が重要となっている。 各研究室で様々な分野においてシミュレーション実験が実施されているが、共通技術 を講義で学べると、研究効率が向上する。
論文作成のためのコンピュータ技術
研究論文を作成する上で、データ処理などのコンピュータ処理技術は重要 であるため、大学院の講義で学べると、研究効率が向上する。

情報通信研究技術特論Bでは、上記のうち、 「論文作成のためのコンピュータ技術」 を取り上げます。

本講義では誤差を含むようなデータに関して、可視化や分析の手法を実習形 式で学びます。 進め方は、

  1. 1つのテーマの講義を実施し
  2. 課題を課し、そのためのテストデータを提供します。
  3. 翌週に担当グループが、そのデータの処理の実践をプレゼンテーションして もらいます。

そのため、本日、受講者を6グループに分けます。 そして、6個のテーマを1つずつ担当してもらいます。

6つのテーマは次のとおりです

  1. 回帰分析
  2. Q-Qプロット
  3. パラメトリック検定
  4. ノンパラメトリック検定
  5. 相関関係
  6. 主成分分析

1-2. 回帰分析

回帰分析とは?

回帰分析は、「勉強時間による試験の成績」など、目的変数を説明変数を 用いて表すこと言います。 このとき、何らかの単純なモデルを仮定し、誤差を許容しながらも、誤差 の少ないモデルを観測値から得ることを考えます。

年齢と身長など、単純な比例関係にないものもある一方で、 特定の物理現象の観測など、すでにモデルが定まっている中で、モデルの 正当性を調べたり、モデルのパラメータを決定したりすることにも使われ、 科学的な論文では、モデルやデータの評価によく使われます。

論文例

データの可視化

予め厳密なモデルが決まっている場合はともかく、データが得られたとき に、どのようなモデルになるのかを予め決めるのは人間の仕事になります。 そのために重要なのは経験と勘とも言えるかもしれません。 我々の仕事は、得られたデータを可視化して、当てはまりそうなモデル (データを説明できる式や仕組み)を 考えることです。

そのため、このデータ分析を行うにあたり、データ収集をした後はデータ を可視化しなければなりません。

データの可視化の目標は、結論が導きやすいようにすることです。 最も「結論が導きやすい」のは、グラフ上でモデルが直線で表せるようにする ことです。 最も単純な可視化として X-Y平面へのプロットが考えられます。 しかしこれでうまく行くのは y = a x + b のような一次方程式の関係だけになります。

一方、両対数グラフへのプロットでは、直線になるのは log y = a log x + b より、 y = b x a というモデルが当てはまります。 これには、様々な多項式や物理式が含まれます。 更に特殊な目盛りを使用する方法もありますが、それは次回にお話します。

つまり、回帰分析をするには、適切な目盛りでデータを可視化し、そのデー タを説明できそうな直線を引くのがポイントになります。

回帰直線の概念

さて、データに対して直線を引くにはどうすれば良いでしょうか? 学生実験レベルではグラフ用紙に生じた誤差を意識しながら感覚的に直線を引 く程度で済ませたかもしれません。 しかし、数学的に誤差を最小にするような線を引く方法があります。 それが最小二乗法です。

最小二乗法は基本的には観測点 ( x1 , y1 ) , ... , ( xn , yn ) に対して、 誤差項 e1 , ... , en を考え、 y1 = a x1 + b + e1 , ... , yn = a xn + b + en という関係を考ます。 そして、 i=1 n ei = 0 などの仮定をした上で、誤差が小さくなるように a ,b を定めるというものです。 ここで、誤差を小さくするために、 e2 の和を考え、その最小化をします。 つまり、 f = i=1 n ( yi - a xi - b ) 2 に対して、 f を最小にする a,b を求めます。 これには、 faにも b にも二次式で下に凸なので、 a, b で偏微分して 値が 0 になるような a, b を求めれば良いです。

f = i=1 n ( yi - a xi - b ) 2 = i=1 n ( yi 2 + a2 xi 2 + b 2 - 2 a xi yi + 2 a b xi - 2 b yi ) = i=1 n yi 2 + a2 i=1 n xi 2 + n b 2 - 2 a i=1 n xi yi + 2 a b i=1 n xi - 2 b i=1 n yi
{ f a = 0 f b = 0
{ 2 a i=1 n xi 2 - 2 i=1 n xi yi + 2 b i=1 n xi = 0 2 n b + 2 a i=1 n xi - 2 i=1 n yi = 0
( i=1 n xi 2 i=1 n xi i=1 n xi n ) ( a b ) = ( i=1 n xi yi i=1 n xi )
( a b ) = ( i=1 n xi 2 i=1 n xi i=1 n xi n ) -1 ( i=1 n xi yi i=1 n xi )

これが基本的な最小二乗法です。 一方、例えば モデルが y = b x a となっている ような場合に、データから a , b を決定できるかを考えます。 このような場合、 両辺の対数を取ると一次式になるので、それに対して最小二乗法を行えば 値が決定できます。

一方、モデルとして、いくつかの定数が予め固定されている場合。 例えば b=0 という前提で y = a x のような場合もあります。 このような場合も最小二乗法で同じように a を求めることができます。

精度

求めたモデルが、どれくらいのデータを説明できているかについて議論 が必要な場合があります。 決定係数はモデルがどの程度精度でデータを表しているかを示します。 R2 などと表され、単位は % を使ったりします。 また、Wikipedia によると、 決定係数は単純に一つ定義が存在するわけではなく、 いくつかの導出式があります。 決定係数を用いた議論をするときは、定義にも気を使う必要があります。

一方、残差の問題があります。 これは、求めたモデルにとっての外れ値や異常値がどれくらい含まれて いるかという議論です。

ソフトウェアでの処理

回帰分析のうち、最小二乗法などの単純な線型回帰と呼ばれるデータ処理は、 Excel を始め様々なソフトウェアで可能です。

論文に分析を載せる場合、以下の処理が必要です。

  1. データを可視化
  2. モデルの導出
  3. 導出したモデルを可視化したデータに重ねる
  4. モデルの表示、評価

これらを支援するため、グラフの表示、線型回帰分析ツールなどが使えるソ フトウェアがあります。

課題

以下のデータをダウンロードし、何らかのソフトウェアで回帰分析を行 い、 モデルを導出、表示すること。

  1. data11.csv
  2. data12.csv

さらに data12.csv について、指数が -2 であることが予めわかっているとき、係数を求める方法を考え、導出すること。


坂本直志 <sakamoto@c.dendai.ac.jp>
東京電機大学工学部情報通信工学科