1. 戻る 
  2. 株式会社カットシステム
  3. 書籍
  4. 「倒立振子の作り方 ゼロから学ぶ強化学習」

倒立振子の作り方
ゼロから学ぶ強化学習
物理シミュレーション×機械学習

表紙画像
著者 遠藤 理平
判型 B5変型、160頁
ISBN 978-4-87783-440-1
価格 本体 2,400円
発行日 2019年 2月10日(初版第1刷)
備考 ダウンロードサービス:学習に使えるサンプルファイル

本書について

 小学生の時分、雨上がりの学校からの帰り道で、「手のひらに乗せた傘」を倒さないように歩いた経験は誰にでもあると思います。「傘の角度」や手に感じる「傘から受ける力」などの情報をもとに、状況を瞬間的に判断して最適な行動を取ることで傘の状態を維持しますが、誰に教わるでもなく、練習を重ねることで誰でも出来るようになります。反対に、行動指針を言葉で説明しようとすると、冗長でわかりにくい表現にならざるを得ません。

 このように言葉で説明するのは難しいが、練習により失敗と成功を繰り返すことで習得できる認知のことを暗黙知と呼びます。自転車に乗る、ブランコを漕ぐ、などの動作が、その代表例となります。反対に、言葉や図表、法則などで表現できる知識は形式知と呼ばれ、科学・技術と高い親和性がある領域となります。

 昨今の人工知能と評される機械学習は、人間が設定した目的に対して「試行錯誤の反復訓練」を行うことで、期待値が高い行動を学習できるものです。つまり、コンピュータには苦手な領域とされていた暗黙知を従来の技術基盤に取り込むという、全く新しい価値創造の可能性を意味しています。

 本書は、コンピュータを用いて物理現象を再現する「物理シミュレーション」と、与えられた環境内で目的に応じて最適な行動を決定する「強化学習」を組み合わせて解説する書籍です。先ほど例として紹介した「手のひらに乗せた傘」をモデル化した倒立振子を対象に強化学習の方法を解説していきます。

 本書は大きく分けて、前半4章と後半6章の2部構成になっています。前半は、3×3のマス目に○(先手)と×(後手)のマークを交互に埋めていき、「縦・横・斜めのいずれかで同じマークが3つ並ぶと勝ち」という2人対決ゲーム(三目並べ)を題材にして強化学習の基本を解説します。その結果を踏まえて、コンピュータ対戦型の三目並べ(Webブラウザゲーム)を開発します。実行環境にWebブラウザを利用するため、HTML5(JavaScript)を使ってゲームを開発します。後半は、振り子運動のシミュレーションの実装方法を解説し、その後、倒立振子を強化学習と組み合わせて実現するために必要な要素を順番に解説していきます。物理シミュレーションは計算量が多いため、プログラミング言語としてC++を利用します。

内容見本PDF(約1MB)

目次