強(qiáng)化學(xué)習(xí)入門（基于Python）

定　價：￥49.00

作　者：	吳喜之，張敏
出版社：	中國人民大學(xué)出版社
叢編項：	基于Python的數(shù)據(jù)分析叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787300313818	出版時間：	2023-03-01	包裝：	平裝
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要組成部分?！稄?qiáng)化學(xué)習(xí)入門——基于Python（基于Python的數(shù)據(jù)分析叢書）》采用理論與實踐相結(jié)合的寫法，從強(qiáng)化學(xué)習(xí)的基本概念開始，詳細(xì)介紹了強(qiáng)化學(xué)習(xí)的算法理論和實踐操作，配有Python代碼實現(xiàn)，完整呈現(xiàn)強(qiáng)化學(xué)習(xí)算法的實踐細(xì)節(jié)。通過這本書你將會：（1）理解強(qiáng)化學(xué)習(xí)關(guān)鍵方面的問題。（2）探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。（3）深入理解強(qiáng)化學(xué)習(xí)的各種方法，包括MC方法，TD方法，深度學(xué)習(xí)Q方法，SARSA方法等。（4）通過大量的現(xiàn)實例子及Python實現(xiàn)程序，不斷地實踐，成為強(qiáng)化學(xué)習(xí)的高手。

作者簡介

暫缺《強(qiáng)化學(xué)習(xí)入門（基于Python）》作者簡介

圖書目錄

第一部分強(qiáng)化學(xué)習(xí)基礎(chǔ)與實踐
第1章引言
1．1 從迷宮問題談起
1．1．1 人類和動物所面對的迷宮問題
1．1．2 迷宮的說明性例子
1．1．3 例1．1：獎勵矩陣
1．1．4 例1．1：訓(xùn)練以得到關(guān)于狀態(tài)和行動的獎勵： Q矩陣
1．1．5 例1．1：使用Q矩陣來得到最優(yōu)行動(路徑)
1．1．6 例1．1：把代碼組合成 class
1．2 熱身：井字游戲*
1．2．1 兩個真人的簡單井字游戲
1．2．2 人和機(jī)器的井字游戲的強(qiáng)化學(xué)習(xí)實踐
1．2．3 井字游戲的強(qiáng)化學(xué)習(xí)代碼解釋
1．2．4 整個訓(xùn)練過程
1．2．5 使用訓(xùn)練后的模型做人機(jī)游戲
1．2．6 1．2．1節(jié)代碼
1．2．7 附錄： 1．2．3節(jié)人和機(jī)器的井字游戲代碼
1．3 強(qiáng)化學(xué)習(xí)的基本概念
1．4 馬爾可夫決策過程的要素
1．5 作為目標(biāo)的獎勵
1．6 探索與開發(fā)的權(quán)衡
1．6．1 探索與開發(fā)
1．6．2 強(qiáng)化學(xué)習(xí)中的優(yōu)化和其他學(xué)科的區(qū)別
1．7 本書將會討論和運(yùn)算的一些例子
1．7．1 例1．3格子路徑問題
1．7．2 例1．4出租車問題
1．7．3 例1．5推車桿問題
1．7．4 例1．6倒立擺問題
1．7．5 例1．7多臂老虎機(jī)問題
1．7．6 例1．7和其他例子(例1．3、例1．5及例1．6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2．1 馬爾可夫決策過程簡介
2．1．1 馬爾可夫性
2．1．2 策略
2．1．3 作為回報期望的價值函數(shù)
2．1．4 通過例 1．3 格子路徑問題理解本節(jié)概念
2．2 動態(tài)規(guī)劃
2．2．1 動態(tài)規(guī)劃簡介
2．2．2 Bellman方程
2．2．3 最優(yōu)策略和最優(yōu)價值函數(shù)
2．3 強(qiáng)化學(xué)習(xí)基本方法概述
2．3．1 代理與環(huán)境的互動
2．3．2 策略迭代：策略評估和策略改進(jìn)
2．3．3 價值迭代
2．3．4 策略迭代與價值迭代比較
2．3．5 異步動態(tài)規(guī)劃
2．3．6 廣義策略迭代
2．3．7 策略梯度
2．3．8 off-policy， on-policy和offline RL
2．4 蒙特卡羅抽樣
2．4．1 MC策略評估
2．4．2 MC狀態(tài)-行動值的估計
2．4．3 on-policy： Q價值的MC估計
2．4．4 off-policy： MC預(yù)測
2．4．5 MC的策略梯度
2．5 和本章概念相關(guān)的例子
2．5．1 例1．3格子路徑問題使用Bellman方程做價值迭代
2．5．2 例1．3格子路徑問題的TD函數(shù)
第3章各種機(jī)器學(xué)習(xí)算法及實例
3．1 暫時差(TD)簡介
3．1．1 TD、DP和MC算法的比較
3．1．2 TD方法的特點(diǎn)
3．1．3 TD(0)方法的延伸
3．2 TD評估及策略改進(jìn)
3．2．1 SARSA (on-policy)
3．2．2 Q學(xué)習(xí) (off-policy)
3．2．3 加倍Q學(xué)習(xí) (off-policy)
3．3 函數(shù)逼近及深度學(xué)習(xí)算法
3．3．1 基于價值和策略的函數(shù)逼近
3．3．2 深度Q學(xué)習(xí)
3．3．3 TD：演員-批評者(AC)架構(gòu)
3．3．4 A2C算法步驟
3．3．5 A3C 算法
3．3．6 DDPG 算法
3．3．7 ES 算法
3．3．8 PPO 算法
3．3．9 SAC 算法
3．4 用第1章的例子理解本章算法
3．4．1 例1．3格子路徑問題： SARSA
3．4．2 例1．4出租車問題： SARSA
3．4．3 例1．3格子路徑問題：加倍Q學(xué)
3．4．4 例1．5推車桿問題：深度Q學(xué)習(xí)
3．4．5 例1．5推車桿問題： A3C
3．4．6 例1．6倒立擺問題： DDPG
3．4．7 例1．5推車桿問題： ES
3．4．8 例1．5推車桿問題： PPO-Clip
3．4．9 例1．6 倒立擺問題： SAC
第二部分：軟件及一些數(shù)學(xué)知識

第4章 Python基礎(chǔ)
4．1 引言
4．2 安裝
4．2．1 安裝及開始體驗
4．2．2 運(yùn)行Notebook
4．3 基本模塊的編程
4．4 Numpy模塊
4．5 Pandas模塊
4．6 Matplotlib模塊
4．7 Python 的類――面向?qū)ο缶幊毯喗?
4．7．1 類的基本結(jié)構(gòu)
4．7．2 計算最小二乘回歸的例子
4．7．3 子類
第5章 PyTorch與深度學(xué)習(xí)
5．1 作為機(jī)器學(xué)習(xí)一部分的深度學(xué)習(xí)
5．2 PyTorch 簡介
5．3 神經(jīng)網(wǎng)絡(luò)簡介
5．3．1 神經(jīng)網(wǎng)絡(luò)概述
5．3．2 梯度下降法
5．3．3 深度神經(jīng)網(wǎng)絡(luò)的PyTorch表示
5．4 深度學(xué)習(xí)的步驟
5．4．1 定義神經(jīng)網(wǎng)絡(luò)
5．4．2 轉(zhuǎn)換數(shù)據(jù)成訓(xùn)練需要的格式
5．4．3 訓(xùn)練并評估結(jié)果
第6章回顧一些數(shù)學(xué)知識*
6．1 條件概率和條件期望
6．2 范數(shù)和收縮
6．3 線性代數(shù)
6．3．1 特征值和特征向量
6．3．2 隨機(jī)矩陣
6．4 馬爾可夫決策過程
6．4．1 馬爾可夫鏈和馬爾可夫決策過程
6．4．2 策略
6．4．3 關(guān)于時間視界的優(yōu)化
6．5 Bellman 方程
6．5．1 有折扣無限視界問題的Bellman問題
6．5．2 無折扣無限視界問題的Bellman問題
6．6 動態(tài)規(guī)劃
6．6．1 價值迭代
6．6．2 策略迭代