化学品の市場調査、研究開発の支援、マーケット情報の出版

☆ 基礎から最新の研究動向、応用事例解を解説し、「OpenAI gym」 を用いた実習を行う!

R&D支援センターセミナーのご案内

       開催日時:2019年12月26日(木)10:30~16:30
       会  場:江東区産業会館 第6展示室  → 会場へのアクセス 
       参 加 費:55,000円(税込、昼食・資料付)
       持 参 物:ノートPC
            ※(お申込み後に、実習で使用するための情報をご連絡いたします。)

お申し込み受付中

申込方法

 下記のカートへの投入、あるいはFAX用紙にてお申込ください。折り返し、聴講券、会場地図、請求書を送付いたします。

 FAX申込用紙PDF 

講 師

 中部大学 生命健康科学部臨床工学科 兼 工学部情報工学科 准教授 博士(工学)
 松井 藤五郎 氏

【ご専門】
 人工知能、データ解析、機械学習、強化学習

定 員

 30名

受講対象・レベル

 強化学習に関心がある方
 強化学習の導入にお困りの方

必要な予備知識

 特に予備知識は必要ありません。基礎から解説いたします

習得できる知識

 強化学習の基礎理論と基本アルゴリズムを理解し、実際に強化学習を試してみることができるようになる。

趣 旨

 2016年、Googleが買収したDeepMind社が開発したコンピューター囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのが深層学習(ディープ・ラーニング)と強化学習を組み合わせたDeep Q-Network (DQN)である。
 本セミナーでは、強化学習の基礎理論と基本アルゴリズムについて解説し、LEGOロボットを用いたデモ、最近の研究動向、最新の応用事例を紹介し、強化学習ライブラリーのOpenAI gymを用いた実習を行う。

プログラム

1.はじめに
 1-1 強化学習研究の歴史
 1-2 強化学習研究の動向
 1-3 デモ(迷路)

2.強化学習の基礎
 2-1 強化学習の枠組み
 2-2 マルコフ決定過程 (MDPs)
 2-3 決定的環境と確率的環境
 2-4 エージェントの目的
 2-5 行動価値
 2-6 学習エージェントの行動選択法
  2-6-1 一様ランダム選択
  2-6-2 グリーディー選択
  2-6-3 ε-グリーディー選択
  2-6-4 ソフトマックス選択
 2-7 探査と知識利用のジレンマ

3.基本的な強化学習アルゴリズム
 3-1 行動価値推定型
  3-1-1 Q学習
  3-1-2 Sarsa
 3-2 方策最適化型
  3-2-1 Policy Gradient
 3-3 行動価値推定型
  3-3-1 Profit Sharing (PS)
  3-3-2 OnPS

4.強化学習パラメーターのチューニング
 4-1 状態のチューニング
 4-2 行動のチューニング
 4-3 報酬関数のチューニング
 4-4 割引率のチューニング
 4-5 ステップあたりの時間のチューニング
 4-6 ステップサイズのチューニング
 4-7 ε-グリーディー選択におけるεのチューニング
 4-8 ソフトマックス選択における温度のチューニング
 4-9 行動価値の初期値のチューニング

5.実環境への応用する際の課題
 5-1 マルチエージェント強化学習
 5-2 関数近似
 5-3 部分観測マルコフ決定過程 (POMDPs)

6.最新の強化学習
 6-1 多目的強化学習
 6-2 逆強化学習
 6-3 安全な強化学習
 6-4 マルコフ決定過程簡約化
 6-5 複利型強化学習
 6-6 深層強化学
  6-6-1 Deep Q-Network (DQN)
  6-6-2 A3C
  6-6-3 TRPO
  6-6-4 PPO

7.OpenAI gym実習
 7-1 OpenAIとgym
 7-2 環境構築
 7-3 サンプルプログラムの実行

8.応用事例
 8-1 複利型強化学習の応用事例
  8-1-1 国債銘柄選択
  8-1-2 ブラックジャック
  8-1-3 株取引
  8-1-4 日本国債取引
 8-2 深層強化学習の応用事例
  8-2-1 ロボットアーム
  8-2-2 自動運転車
  8-2-3 ドローン

9.まとめ

 【質疑応答・名刺交換】