逆強化学習・模倣学習の基礎と応用

☆☆☆ Web配信セミナー ☆☆☆
☆☆☆ 本セミナーは、Zoom/ウェビナーを使用して、行います。☆☆☆

トリケップスセミナー

　開催日時：2022年4月21日（木）10:30～16:30
　参加費：お1人様受講の場合　51,700円（税込/1名）
　　　　　1口（1社3名まで受講可能）でお申し込みの場合　62,700円（税込/1口）

　★　本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、お申込み前にZoomのテストミーティング（http://zoom.us/test）にアクセスできることをご確認下さい。

　★　インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

　★　受講中の録音・撮影等は固くお断りいたします。

講　師

下坂正倫（しもさかまさみち）氏　
東京工業大学　情報理工学院　情報工学系　准教授（博士（情報理工学））

＜略歴＞
　2001年　東京大学工学部機械情報工学科卒業
　2006年　東京大学大学院　情報理工学系研究科　知能機械情報学専攻博士課程修了
　2006年～2007年　東京大学大学院　情報理工学系研究科助手
　2007年～2011年　東京大学大学院　情報理工学系研究科助教
　2011年～2015年　東京大学大学院　情報理工学系研究科講師
　2015年　東京工業大学　情報理工学(系)研究科　准教授
　2016年　東京工業大学　情報理工学院　准教授
　　現在に至る

講義項目

　1　逆強化学習の位置づけ・機械学習の基礎
　　1.1　逆強化学習と機械学習・最適制御の関係
　　　＊強化学習は制御と関連が強い
　　　＊逆強化学習と強化学習（最適制御）と何が違う？
　　1.2　機械学習の基礎のおさらい
　　　＊生成的　/　識別的
　　　＊経験リスク最小化
　　　＊様々な損失
　　　＊2クラス分類　/　他クラス分類　/　系列ラベル分類
　　　…構造的なデータに対しても「識別」は定義できる　⇒　逆強化学習ではどうやって解く？
　　
　2　逆強化学習の定式化・解法
　　2.1　強化学習の基礎：マルコフ決定過程、ベルマン方程式
　　　＊動的システム
　　　＊マルコフ性
　　　＊マルコフ決定過程　/　報酬関数
　　　＊価値関数　/　ベルマン方程式
　　2.2　逆強化学習の定式化とアルゴリズム
　　　＊報酬期待値の最大化
　　　＊損失関数の設定
　　　＊最大エントロピー逆強化学習
　　　＊周辺分布の獲得前向き・後ろ向き計算
　　2.3　逆強化学習を適用しようとすると起きる問題は？？　
　　
　3　逆強化学習の適用例・最近の事例
　　3.1　海外での適用事例、下坂研究室での事例
　　　＊（簡易版）車線変更
　　　＊経路選択
　　　＊Zone 30マルコフの加減速モデリング
　　3.2　連続・高次元化に向けた方向性、深層学習との融合
　　　＊関数近似の利用、離散化の工夫
　　　＊連続空間上のIRL：分配関数（積分計算）の近似がポイント
　　　＊この分野も深層NN、さらにはGANの導入が始まってきている
　　

化学品の市場調査、研究開発の支援、マーケット情報の出版

トリケップスセミナー

講 師

講義項目

講　師