第I部 マルチエージェントと学習 |
1.エージェント |
1.1 エージェントとはなにか 2 |
1.2 エージェントの種類 3 |
1.2.1 反射エージェント 3 |
1.2.2 内部状態に基づくエージェント 4 |
1.2.3 ゴールに基づくエージェント 5 |
1.2.4 効用に基づくエージェント 6 |
1.3 学習するエージェント 7 |
2.マルチエージェントシステム |
2.1 なぜマルチエージェントシステムか 10 |
2.2 マルチエージェントシステムの位置づけ 11 |
2.3 研究対象:なにを研究するのか 12 |
2.3.1 分散環境 12 |
2.3.2 相互作用 13 |
2.3.3 ミクローマクロループ 14 |
2.4 利点:マルチはシングルに比べてなにが嬉しいか 15 |
2.5 マルチエージェント学習:特徴と分類 16 |
2.5.1 学習の特徴 17 |
2.5.2 学習の分類 19 |
3.学習メカニズム |
3.1 基本的要素をマスタしよう 21 |
3.1.1 マルコフ決定過程 21 |
3.1.2 政策 24 |
3.1.3 ルールの価値 25 |
3.1.4 行動選択手法 27 |
3.2 強化学習:具体的なメカニズムに触れてみよう 30 |
3.2.1 学習アルゴリズムの分類 30 |
3.2.2 ブートストラップ型学習 35 |
3.2.3 非ブートストラップ型学習 51 |
3.2.4 強化学習メカニズム間の関係 61 |
第II部 研究事例 |
4.分散学習:個体レベルの適応 |
4.1 コミュニケーションなしでの協調 66 |
4.1.1 なぜコミュニケーションなしの協調か 67 |
4.1.2 ブロック押しタスク 68 |
4.1.3 実験 69 |
4.1.4 ディスカッション 71 |
4.1.5 まとめ 75 |
4.2 マルチロボットを操作する 76 |
4.2.1 なぜ従来手法ではうまくいかないのか 76 |
4.2.2 実環境における強化学習 78 |
4.2.3 餌集めタスク 79 |
4.2.4 実験 82 |
4.2.5 ディスカッション 83 |
4.2.6 まとめ 85 |
5.協調学習:グループレベルの適応 |
5.1 協調するにはなにを共有すべきか 86 |
5.1.1 なぜ共有が重要か 86 |
5.1.2 なにを共有するのか 87 |
5.1.3 追跡問題 87 |
5.1.4 実験 88 |
5.1.5 ディスカッション 90 |
5.1.6 まとめ 94 |
5.2 協調のための言語と意味の獲得 94 |
5.2.1 言語や意味の起源はなにか 95 |
5.2.2 言語ゲーム 95 |
5.2.3 ロボットによる言語ゲーム 96 |
5.2.4 実験 101 |
5.2.5 ディスカッション 105 |
5.2.6 まとめ 107 |
6.社会的学習:組織レベルの適応 |
6.1 組織学習の概念は通用するのか 108 |
6.1.1 組織学習 108 |
6.1.2 組織学習指向型分類子システム 110 |
6.1.3 CADのプリント基板設計問題 115 |
6.1.4 実験 116 |
6.1.5 ディスカッション 116 |
6.1.6 まとめ 119 |
6.2 ヘテロ集団での役割分担 119 |
6.2.1 組織における分業 119 |
6.2.2 役割と問題解決 120 |
6.2.3 役割の獲得 123 |
6.2.4 スチームコンデンサ 125 |
6.2.5 実験 126 |
6.2.6 ディスカッション 127 |
6.2.7 まとめ 130 |
第III部 課題と展望 |
7.マルチエージェント学習の難しさ |
7.1 状態空間の爆発問題 132 |
7.2 同時学習問題 135 |
7.3 不完全知覚問題 137 |
7.4 信頼度割当て問題 141 |
8.マルチエージェント学習の設計論に向けて |
8.1 エージェント単体の設計 143 |
8.2 エージェント集団の設計 145 |
8.3 設計指針へのサポート 147 |
付録 148 |
A.参考図書・論文誌・国際会議 148 |
A.1 参考図書 148 |
A.2 論文誌 152 |
A.3 国際会議 153 |
B.テストベッド問題 155 |
B.1 なぜテストベッド問題か 155 |
B.2 具体的な問題 156 |
C.学習メカニズムの更新式と変数 160 |
参考文献 163 |
あとがき 182 |
索引 185 |