データの分析と知識発見(’16):シラバス概要
■ 講座情報
データの分析と知識発見(’16)
Introduction to Data Analysis ('16)
【主任講師】
秋光 淳生(放送大学准教授)
【教材・資料】
・インターネット視聴
■ 講義概要
現在、ICTの進歩に伴い、大量のデータが収集、蓄積され、
それを元に大量の計算がなされ多くの情報・知識を得ることができるようになった。
現在氾濫するデータや情報にどう接し、それとどう付き合っていくべきなのか、
また、そういった情報を抽出するためにはどういった処理をすれば良いのか、
といった事について、具体的に演習を通して身につけることを目指す。
【授業の目標】
大量のデータをどのように処理し、分析するのか、
またそういった分析をすることで、どういった知識が抽出できるかについて、
具体的な実践を通して身につけることを目標とする。
【講義項目】
- 第1回 はじめに
- 第2回 関数とパッケージ
- 第3回 多次元データとファイル操作
- 第4回 データの視覚化
- 第5回 表の作成
- 第6回 検定
- 第7回 回帰分析
- 第8回 主成分分析
- 第9回 多次元尺度法
- 第10回 因子分析
- 第11回 クラスター分析
- 第12回 アソシエーション分析
- 第13回 決定木
- 第14回 ニューラルネットワーク
- 第15回 テキストマイニング
■ 講義内容
各講義回の概要とキーワード
第1回 はじめに
データ分析の流れと尺度水準について説明する。
講義で導入するソフトウェアとしてRやRStudioについて説明し、
Rを用いた基本的な計算について説明する。
■ 【キーワード】
R、データ分析の流れ、尺度水準
第2回 関数とパッケージ
Rにおける関数の使い方や定義の仕方について説明し、
パッケージの追加や利用の仕方について説明する。
RStudioを用いてレポートを作成する方法について説明する。
■ 【キーワード】
平均、分散、関数、パッケージ
第3回 多次元データとファイル操作
多次元のデータを扱うことを考え、
配列やリストといったデータの形式について説明する。
ファイルからデータを読み込むための方法について述べる。
■ 【キーワード】
相関係数、分散、行列、データフレーム、リスト
第4回 データの視覚化
データをグラフにすることによって、データの持つ特徴を視覚的に把握することができ、
より多くの情報を得ることができる。
ここでは、 代表的なグラフの種類や書き方について説明し、
グラフを作成する上で気をつけるべき事柄について述べる。
■ 【キーワード】
散布図、棒グラフ、円グラフ、折れ線グラフ、ヒストグラム
第5回 表の作成
質的データを分析する方法としてクロス集計について説明する。
クロス集計表において項目間の関連を判断するための指標について説明し、
データを読み込み、Rで表を作るための方法について学ぶ。
■ 【キーワード】
クロス集計表、シンプソンのパラドックス、ユール係数、ファイ係数
第6回 検定
検定はデータを元に何か判断を下す場合の定量的な根拠となる。
根拠を得るためには確率分布の知識が必要となる。
そこで検定の考え方、確率分布について説明し、Rでカイ2乗検定を行う手順を説明する。
■ 【キーワード】
仮説検定、帰無仮説、統計分布、カイ2乗検定
第7回 回帰分析
回帰分析とは、
データの中のある変数を他の変数の線形結合によって表現しようとする方法である。
まず回帰分析の係数の導出法や、当てはまりの指標について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
目的変数、説明変数、最小2乗法、偏相関係数
第8回 主成分分析
主成分分析とは、
多次元の成分の中で主となる成分を見つけ出す手法のことであり、
それによって、多次元のデータを低次元で表現することも可能になる。
主成分分析について説明し、
Rを用いてシミュレーションを行う。
■ 【キーワード】
主成分分析、分散行列、中心化、標準化、寄与率
第9回 多次元尺度法
距離をもとに座標を計算する方法である多次元尺度法について説明する。
まず、距離の公理について説明したのち、手法について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
距離、三角不等式、古典的多次元尺度法
第10回 因子分析
主成分分析と似た方法として因子分析がある。
因子分析はデータの中に潜む共通の要因を見つけようとするものである。
因子分析の概要、および因子負荷量の計算について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
因子分析、共通因子、独自因子、軸の回転
第11回 クラスター分析
データの集まりの中で似た特徴をもつまとまりのことをクラスターという。
最初に近い特徴を持つものから順にクラスターを結合する階層的クラスター分析について説明し、
次に非階層的クラスター分析の方法として、k-means法について説明する。
■ 【キーワード】
階層的クラスター分析、非階層的クラスター分析、k-means法
第12回 アソシエーション分析
データの関係として関係があるかどうかを表すのが相関であった。
ここでは、データを元に「AであればBである」といった
因果関係を導く方法であるアソシエーション分析について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
支持度、信頼度、期待信頼度、リフト値、アプリオリ
第13回 決定木
決定木とは条件の分岐を木構造で表現したものである。
それは、データをある条件をもとに分割していく手法である。
そこで、まず木構造について説明し、
次にどのようにデータを分割するかという判断基準について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
二分木、分類木、ジニ係数、不純度
第14回 ニューラルネットワーク
ニューラルネットワークについて説明する。
それを踏まえ、例題を元に学習を行う教師あり学習について説明し、
データの中からルールを学び予測する方法について説明し、
Rでシミュレーションを行う。
■ 【キーワード】
ニューラルネットワーク、教師あり学習、汎化、過学習
第15回 テキストマイニング
講義のまとめとしてテキストを分析する手法の例について紹介する。
この章では形態素解析をするフリーのソフトウェアを利用して文書から
形態素解析によってテキストから定量的なデータを導き、
今までに説明した手法を用いて文書の分類を行う例を示す。
以上