Trust Region Policy Optimization教學 - Part 1

更新 發佈閱讀 1 分鐘

首先定義符號:

vocus|新世代的創作平台

因此我們有​

vocus|新世代的創作平台

其中

vocus|新世代的創作平台

再定義State Avtion Value.Function、Value Function和Advantage Function分別為:

vocus|新世代的創作平台

接著我定義

vocus|新世代的創作平台

此外觀察上述定義,能有

vocus|新世代的創作平台

因此我有以下展開

vocus|新世代的創作平台

這時回顧

vocus|新世代的創作平台

因此我有

vocus|新世代的創作平台

結合之後得到

vocus|新世代的創作平台

移項之後得到

vocus|新世代的創作平台

接著我把最後一項的期望值展開

vocus|新世代的創作平台

稍微調整一下位置

vocus|新世代的創作平台

然後我定義Discounted Visit Probability

vocus|新世代的創作平台

因此我有

vocus|新世代的創作平台

這告訴我們一件重要的事情:如果我要判斷新的Policy是否有比較好,只須要判斷對所有狀態下,如果有以下情況的話

vocus|新世代的創作平台

則新的Policy會較優。

這同時也說明,更新策略為

vocus|新世代的創作平台

此外要如何判斷已經達到最佳的Policy了呢?

只需要確保在新的Policy之下,其能達到的狀態和所有能採取的動作,都不再能造成正的

vocus|新世代的創作平台

則說明已經達到最佳Policy

留言
avatar-img
Learn AI 不 BI
248會員
1.2K內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/25
上週發了一篇AI書單推薦 今天來談談,我是怎麼學習的,我總共學了七年AI,自然對於一個小白想入門有更深刻的體悟,更能了解怎麼樣學習才能不至於一次面臨太多困難而放棄 我的建議是這樣: 先花兩年把Machine Learning學完,當中會遇到很多數學問題,這方面可以「在遇到問題時」再去翻
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
2024/05/18
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
看更多
你可能也想看
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
在Python中,我們可以用def關鍵字定義函數,並透過函數名稱呼叫它。函數參數可以是必填、關鍵字、默認或不定長度的類型。return語句負責結束函數並回傳值。全域變數可以在整個程序中使用,而區域變數只能在特定函數內使用。我們還可以在一個文件中定義函數,然後在另一個文件中呼叫它。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
Thumbnail
代理模式通過封裝原始對象來實現對該對象的控制和管理,同時不改變原始對象的行為或客戶端與該對象互動的方式,以此介入或增強對該對象的訪問和操作。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
這篇內容,將會講解什麼是函式,以及與函式相關的知識。包括函式的簡介、Runtime Function、自訂函式、Script Function 腳本函式、Method 方法。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
策略模式將多種演算法封裝於獨立的策略類別中,每個策略類別都實現了一個共同的介面。這種設計允許使用者在系統運行時動態選擇和切換演算法,以達成相同的目的。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
本書介紹了戰略設計、管理領域複雜度、實際應用領域驅動設計等主題。透過對核心子領域、支持子領域、限界上下文等概念的探討,提供了領域驅動設計的相關知識。這篇文章中還涉及了微服務、事件驅動架構和資料網格等相關主題,提供了設計系統和應用領域驅動設計的指導。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
本章節旨在介紹TypeScript中的函數,包括其基本結構、如何呼叫函數、函數的參數以及函數的返回值等相關概念。通過本章節,讀者可以學習到如何在TypeScript中使用不同的方式來定義函數,如函數聲明、函數表達式、箭頭函數和匿名函數等。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
Function的使用方式
Thumbnail
Function的使用方式
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
Thumbnail
一般在使用 TypeScript 的時候,大家都有遇過定義列舉資料的情境吧。 不過不管是 enum 和 literal 的方式其實都有些小缺點,以下推薦一個個人認為體驗更好的方式。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News