第1章 データサイエンス |
1.1 データサイエンスがめざすもの 1 |
1.2 データの上流から下流まで 2 |
1.2.1 データサンプリング 2 |
1.2.2 データとその記述の一体化 3 |
1.2.3 DandDルール 6 |
1.2.4 データのブラウジング 7 |
1.2.5 データに含まれる情報量 7 |
1.2.6 データモデリング 8 |
1.2.7 モデルヴァリデーション 10 |
1.2.8 ソフトウェア 11 |
1.3 データエンジニアリング 12 |
1.3.1 データの同化 12 |
1.3.2 データマイニング 13 |
1.3.3 データ学習アルゴリズム 13 |
1.4 データリテラシー 14 |
1.4.1 データの型 14 |
1.4.2 データの属性と構造 14 |
1.4.3 日時の表現 15 |
1.4.4 背景情報 18 |
1.4.5 ランダム性と非ランダム性 19 |
1.4.6 変量 22 |
1.4.7 平均,分散,標準偏差 22 |
1.4.8 相関と関係 24 |
1.4.9 偏差値 25 |
第2章 データ |
2.1 データベクトル 27 |
2.1.1 値 29 |
2.1.2 属性 30 |
2.2 データベクトルの構造化 44 |
2.2.1 配列形式 45 |
2.2.2 関係形式 46 |
2.2.3 その他の形式 53 |
2.3 特別な意味をもつ構造 54 |
2.3.1 グラフ,関連度表 55 |
2.3.2 並べ替え 56 |
2.3.3 時系列 56 |
2.3.4 点過程データ 57 |
2.3.5 意図しない観測打切り 57 |
2.3.6 制約 58 |
2.3.7 区間 59 |
2.3.8 基数系 59 |
2.3.9 座標 61 |
2.4 データ取得計画 64 |
2.4.1 ランダム化 64 |
2.4.2 システマティックな抽出,意図的な抽出 69 |
2.4.3 実験計画 72 |
2.5 背景情報 76 |
2.5.1 改訂の記録 77 |
2.5.2 参考文献 77 |
第3章 データの浄化と組織化 |
3.1 事例研究 79 |
3.1.1 実験データ 79 |
3.1.2 地震データ 82 |
3.1.3 気象観測データ 86 |
3.1.4 マーケティングデータ 92 |
3.1.5 給油記録データ 95 |
3.1.6 高血圧症研究データ 98 |
3.1.7 商品先物取引データ 100 |
3.2 データの浄化 105 |
3.2.1 人為的なミスの訂正 105 |
3.2.2 表現の統一 105 |
3.2.3 1次データへの絞り込み 106 |
3.2.4 冗長な変量の削除 106 |
3.2.5 単位の統一 106 |
3.2.6 コーディング 106 |
3.3 データの組織化 107 |
3.3.1 新たな変量の導入 107 |
3.3.2 関係形式と配列形式 107 |
3.3.3 時間の扱い 107 |
3.4 背景情報の記述 109 |
3.4.1 データベクトルの属性 109 |
3.4.2 関係形式や配列形式の背景情報 109 |
3.4.3 文章での記述 110 |
第4章 データのブラウジング |
4.1 データを数値として眺める 112 |
4.2 データをグラフィカルに眺める 113 |
4.2.1 散布図 114 |
4.2.2 時系列図 119 |
4.2.3 箱型図 128 |
4.2.4 累積分布図 134 |
4.2.5 Q-Qプロマット 137 |
4.3 関係を探る 143 |
4.3.1 補間と平滑化 144 |
4.3.2 独立性と無相関 146 |
4.4 データを変換する 149 |
4.5 データを分解する 149 |
第5章 データの流通と蓄積 |
5.1 データの源泉 151 |
5.2 データの公開 153 |
5.2.1 データ公開の形式 156 |
5.2.2 データの著作権 156 |
5.2.3 データの価値 157 |
5.3 インターデータベース 158 |
5.3.1 フローティングDandDインスタンス 159 |
5.3.2 データの蓄積 160 |
5.3.3 モデルの蓄積 161 |
5.4 データの流通と蓄積のもたらす未来 161 |
参考文献 163 |
索引 165 |