Python強(qiáng)化學(xué)習(xí)：算法、核心技術(shù)與行業(yè)應(yīng)用

定　價(jià)：￥129.00

作　者：	埃內(nèi)斯·比爾金
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

當(dāng)當(dāng)網(wǎng) (￥96.70)

ISBN：	9787111734895	出版時(shí)間：	2023-10-01	包裝：	平裝-膠訂
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)使用受現(xiàn)實(shí)世界商業(yè)和行業(yè)問(wèn)題啟發(fā)的實(shí)際示例來(lái)講授強(qiáng)化學(xué)習(xí)技術(shù)的相關(guān)知識(shí)。本書(shū)分為四部分：部分涵蓋強(qiáng)化學(xué)習(xí)的必要背景，包括定義、數(shù)學(xué)基礎(chǔ)和強(qiáng)化學(xué)習(xí)解決方案的概述；第二部分深入介紹先進(jìn)的強(qiáng)化學(xué)習(xí)算法（規(guī)模化的深度Q-學(xué)習(xí)、基于策略的方法、基于模型的方法、多智能體強(qiáng)化學(xué)習(xí)等），包括每種算法的優(yōu)缺點(diǎn)；第三部分介紹強(qiáng)化學(xué)習(xí)中的高級(jí)技術(shù)，包括機(jī)器教學(xué)、泛化和域隨機(jī)化、元強(qiáng)化學(xué)習(xí)等主題，還涵蓋強(qiáng)化學(xué)習(xí)中有助于改進(jìn)模型的各種高級(jí)主題；第四部分講解強(qiáng)化學(xué)習(xí)的各種應(yīng)用，例如自主系統(tǒng)、供應(yīng)鏈管理、營(yíng)銷和金融、智慧城市與網(wǎng)絡(luò)安全等，并討論強(qiáng)化學(xué)習(xí)領(lǐng)域的一些挑戰(zhàn)及未來(lái)方向。學(xué)完本書(shū)，你將掌握如何訓(xùn)練和部署自己的強(qiáng)化學(xué)習(xí)智能體來(lái)解決強(qiáng)化學(xué)習(xí)問(wèn)題。

作者簡(jiǎn)介

暫缺《Python強(qiáng)化學(xué)習(xí)：算法、核心技術(shù)與行業(yè)應(yīng)用》作者簡(jiǎn)介

圖書(shū)目錄

CONTENTS
目　　錄
譯者序
前言
作者簡(jiǎn)介
審校者簡(jiǎn)介
第一部分　強(qiáng)化學(xué)習(xí)基礎(chǔ)
第1章　強(qiáng)化學(xué)習(xí)簡(jiǎn)介　2
1.1　為什么選擇強(qiáng)化學(xué)習(xí)　2
1.2　機(jī)器學(xué)習(xí)的三種范式　3
1.2.1　監(jiān)督學(xué)習(xí)　3
1.2.2　無(wú)監(jiān)督學(xué)習(xí)　4
1.2.3　強(qiáng)化學(xué)習(xí)　4
1.3　強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域和成功案例　5
1.3.1　游戲　6
1.3.2　機(jī)器人技術(shù)和自主系統(tǒng)　7
1.3.3　供應(yīng)鏈　8
1.3.4　制造業(yè)　8
1.3.5　個(gè)性化和推薦系統(tǒng)　9
1.3.6　智慧城市　9
1.4　強(qiáng)化學(xué)習(xí)問(wèn)題的元素　10
1.4.1　強(qiáng)化學(xué)習(xí)概念　10
1.4.2　將井字棋游戲建模為強(qiáng)化
學(xué)習(xí)問(wèn)題　11
1.5　設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境　12
1.5.1　硬件要求　12
1.5.2　操作系統(tǒng)　13
1.5.3　軟件工具箱　13
1.6　總結(jié)　14
1.7　參考文獻(xiàn)　15
第2章　多臂老虎機(jī)　17
2.1　探索–利用權(quán)衡　17
2.2　什么是多臂老虎機(jī)問(wèn)題　18
2.2.1　問(wèn)題定義　18
2.2.2　一個(gè)簡(jiǎn)單多臂老虎機(jī)問(wèn)題
的實(shí)驗(yàn)　19
2.3　案例研究：在線廣告　22
2.4　A/B/n測(cè)試　23
2.4.1　符號(hào)　23
2.4.2　應(yīng)用于在線廣告場(chǎng)景　24
2.4.3　A/B/n測(cè)試的優(yōu)缺點(diǎn)　27
2.5　ε-貪心策略行動(dòng)　27
2.5.1　應(yīng)用于在線廣告場(chǎng)景　27
2.5.2　ε-貪心策略行動(dòng)的優(yōu)缺點(diǎn)　29
2.6　使用置信上界進(jìn)行行動(dòng)選擇　30
2.6.1　應(yīng)用于在線廣告場(chǎng)景　30
2.6.2　使用置信上界的優(yōu)缺點(diǎn)　32
2.7　湯普森（后）采樣　33
2.7.1　應(yīng)用于在線廣告場(chǎng)景　33
2.7.2　湯普森采樣的優(yōu)缺點(diǎn)　36
2.8　總結(jié)　36
2.9　參考文獻(xiàn)　36
第3章　上下文多臂老虎機(jī)　37
3.1　為什么我們需要函數(shù)近似　37
3.2　對(duì)上下文使用函數(shù)近似　38
3.2.1　案例研究：使用合成用戶
數(shù)據(jù)的上下文在線廣告　39
3.2.2　使用正則化邏輯斯諦回歸
的函數(shù)近似　42
3.2.3　目標(biāo)函數(shù)：悔值小化　45
3.2.4　解決在線廣告問(wèn)題　46
3.3　對(duì)行動(dòng)使用函數(shù)近似　50
3.3.1　案例研究：使用來(lái)自美國(guó)
人口普查的用戶數(shù)據(jù)的上
下文在線廣告　51
3.3.2　使用神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)
近似　55
3.3.3　計(jì)算悔值　57
3.3.4　解決在線廣告問(wèn)題　57
3.4　多臂老虎機(jī)和上下文老虎機(jī)的
其他應(yīng)用　59
3.4.1　推薦系統(tǒng)　59
3.4.2　網(wǎng)頁(yè)/應(yīng)用程序功能設(shè)計(jì)　60
3.4.3　醫(yī)療保健　60
3.4.4　動(dòng)態(tài)定價(jià)　60
3.4.5　金融　60
3.4.6　控制系統(tǒng)調(diào)整　60
3.5　總結(jié)　61
3.6　參考文獻(xiàn)　61
第4章　馬爾可夫決策過(guò)程的制定　63
4.1　馬爾可夫鏈　63
4.1.1　具有馬爾可夫性的隨機(jī)
過(guò)程　63
4.1.2　馬爾可夫鏈中的狀態(tài)分類　65
4.1.3　轉(zhuǎn)移和穩(wěn)態(tài)行為　66
4.1.4　示例：網(wǎng)格世界中的n-
步行為　67
4.1.5　示例：一個(gè)可遍歷馬爾可
夫鏈中的樣本路徑　69
4.1.6　半馬爾可夫過(guò)程和連續(xù)時(shí)
間馬爾可夫鏈　70
4.2　引入獎(jiǎng)勵(lì)：馬爾可夫獎(jiǎng)勵(lì)過(guò)程　70
4.2.1　將獎(jiǎng)勵(lì)附加到網(wǎng)格世界
示例　71
4.2.2　不同初始化的平均獎(jiǎng)勵(lì)之
間的關(guān)系　72
4.2.3　回報(bào)、折扣和狀態(tài)值　72
4.2.4　解析式地計(jì)算狀態(tài)值　73
4.2.5　迭代式地估計(jì)狀態(tài)值　74
4.3　引入行動(dòng)：馬爾可夫決策過(guò)程　75
4.3.1　定義　75
4.3.2　網(wǎng)格世界作為馬爾可夫決
策過(guò)程　76
4.3.3　狀態(tài)值函數(shù)　77
4.3.4　行動(dòng)值函數(shù)　77
4.3.5　優(yōu)狀態(tài)值和行動(dòng)值
函數(shù)　78
4.3.6　貝爾曼優(yōu)性　78
4.4　部分可觀測(cè)的馬爾可夫決策過(guò)程　79
4.5　總結(jié)　80
4.6　練習(xí)　80
4.7　參考文獻(xiàn)　81
第5章　求解強(qiáng)化學(xué)習(xí)問(wèn)題　82
5.1　探索動(dòng)態(tài)規(guī)劃　82
5.1.1　示例用例：食品卡車的庫(kù)存補(bǔ)充　82
5.1.2　策略評(píng)估　85
5.1.3　策略迭代　90
5.1.4　值迭代　94
5.1.5　動(dòng)態(tài)規(guī)劃方法的缺點(diǎn)　95
5.2　用蒙特卡羅法訓(xùn)練智能體　96
5.2.1　蒙特卡羅預(yù)測(cè)　97
5.2.2　蒙特卡羅控制　104
5.3　時(shí)間差分學(xué)習(xí)　111
5.3.1　一步時(shí)間差分學(xué)習(xí)　112
5.3.2　n-步時(shí)間差分學(xué)習(xí)　117
5.4　了解模擬在強(qiáng)化學(xué)習(xí)中的
重要性　117
5.5　總結(jié)　118
5.6　練習(xí)　119
5.7　參考文獻(xiàn)　119
第二部分　深度強(qiáng)化學(xué)習(xí)
第6章　規(guī)?；纳疃萉-學(xué)習(xí)　122
6.1　從表格型Q-學(xué)習(xí)到深度Q-
學(xué)習(xí)　122
6.1.1　神經(jīng)網(wǎng)絡(luò)擬合的Q-迭代　123
6.1.2　在線Q-學(xué)習(xí)　127
6.2　深度Q網(wǎng)絡(luò)　128
6.2.1　DQN中的關(guān)鍵概念　128
6.2.2　DQN算法　129
6.3　DQN擴(kuò)展：Rainbow　130
6.3.1　擴(kuò)展　130
6.3.2　集成智能體的性能　134
6.3.3　如何選擇使用哪些擴(kuò)展：Rainbow的消融實(shí)驗(yàn)　134
6.3.4　“死亡三組合”發(fā)生了什