化学品の市場調査、研究開発の支援、マーケット情報の出版

トリケップスセミナー

     開催日時:2018年12月10日(月)10:30~16:30
     会  場:オームビル  → 会場へのアクセス 
          〒101-8460 東京都千代田区神田錦町3-1
     参 加 費:お1人様受講の場合 46,000円 (税別/1名)
          1口(1社3名まで受講可能)でお申し込みの場合 57,000円 (税別/1口)

講 師

曽我部 東馬 博士 
   電気通信大学
     i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授
    兼任 ㈱GRID 最高技術顧問 

【経歴・研究内容・専門・ご活動など】
 物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、㈱グリッドの共同設立者となり会社を立ち上げる。
 その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。
 2016年より電気通信大学の准教授および㈱GRIDの最高技術顧問を兼任。
 現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。

【講師WebSite】
  http://cluster-iperc.matrix.jp/ja/
  http://www.gridpredict.jp/

講義項目

  第1部 逆強化学習の基礎知識
    1.1 マルコフ決定過程
      ・平均とマルコフ性(MP)
      ・逐次平均表現とMP
      ・マルコフ報酬過程
      ・マルコフ決定過程
    1.2 Bellman方程式の導出:
      ・平均から決定型Bellman方程式の導入:
      ・平均表現と価値関数の導入:
      ・確率型Bellman方程式の導出:
       ① 行動状態価値関数の導入:
       ② 確率型ベルマン方程式の導出
       ③ 遷移確率関数 T (r ( S’) , S’│s,a )の極意
       ④ グリッドワード問題の応用
    1.3 動的計画法
      ・ε = 1 – Greedy反復方策
      ・ε = 0 – Greedy方策反復法(On-Policy)
      ・ε = 0 – Greedy価値反復法(Off-Policy)
    1.4 逆強化学習の基本概念の導入
      ・報酬関数の定義
      ・報酬関数による価値関数の推定

  第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
    2.1 線形計画最適化逆強化学習手法の導入
    2.2 線形計画逆強化学習手法の定式化
    2.3 線形計画逆強化学習手法のコーディング要領
    2.4 線形計画逆強化学習手法の応用事例の紹介

  第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
    3.1 関数近似の基本概念
    3.2 関数近似モデルを用いた報酬の表現
    3.3 機械学習による報酬関数の回帰
    3.4 最大エントロピーを取り入れた報酬誤差関数の設計
    3.5 熟練者による行動確率教師データの生成
    3.6 最大エントロピー逆強化学習手法のコーディング要領
    3.7 最大エントロピー逆強化学習手法の応用事例の紹介

  第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
    4.1 深層NN(neural network)の導入
    4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
    4.3 熟練者による状態頻度教師データの生成
    4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
    4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

  第5部 逆強化学習の展望と関連技術の紹介