進入強化學習的環境 OpenAI Gym

甘果-avatar-img
發佈於程式
更新 發佈閱讀 6 分鐘

反饋式類神經網路通當使用在具備有明確目標的學習運算上面,或是稱之為「監督式學習」;但是,如何可以讓學習的機制可以不斷的進步,或者是否可以達到自我學習的地步呢?「強化式學習」(Reinforcement Learning) 就是一種可能的方法。

強化式學習是透過學習機器 (agent) 與環境 (environment) 的互動,利用觀察 (observation) 學習機器行為 (action) 與環境互動結果的積分 (reward) 大小來逐步加強學習機器的能力。

vocus|新世代的創作平台


當然,我們也可以使用 python 在 nVidia Jetson Orin Nano 的機器來完成「強化學習」的實作。在OpenAI Gym 這裏提供了 python 使用者多個強化學習的環境,讓大家有一個共同的環境可以測試自己的強化學習演算法以及學習機器的能力,而不用花時間去搭建自己的測試環境;在這裏我們先實作利用強化學習進行一個叫做「Frozen Lake」的題目。

首先,先安裝 OpneAI Gym 的 python 程式庫

pip install gymnasium

然後安裝文字遊戲 (toy-text) 套件

pip install gymnasium[toy-text]

這個題目的目標是從起始狀態 (S) 移動到目標狀態 (G),只能在冰凍的地磚 (F) 上行走,並避開洞穴 (H);可以由以下的圖形示意。

vocus|新世代的創作平台

一開始,從左上角的家出發,目標是右下角可以獲得禮物的地方,在中晚會有設定幾個障礙,也就是上圖中結冰的洞;每次移動一格 (Action),系統會回傳目前的位置 (Observation),如果掉進障礙就結束 (Terminated),如果到達目標,分數 (Reward) 就會加一分給奬勵並且結束 (Terminated);強化學習的使用就是透過這樣的學習機置達到學習完成目標的路徑。

首先,OpenAI Gym 已經定義了利用 action 的數字代表移動的方向:

vocus|新世代的創作平台

同時也把目前的狀況用文字定義出來:

vocus|新世代的創作平台

所以,我們可以先把一開始的狀態用程式描述出來。

import gymnasium as gym
env=gym.make('FrozenLake-v1', is_slippery=False,render_mode='ansi')
env.reset()
print(env.render())
vocus|新世代的創作平台

紅色的部份就是目前的位置;當然,我們可以用人工的方式很容易看出來,如果我們移動的順序是「右/右/下/下/下/右」那麼就可以完成這個題目,在程式上就是:

path=[2,2,1,1,1,2]
env.reset()
for i in range(len(path)):
action=path[i]
observation, reward, terminated,_,_=env.step(action)
print(env.render())
print('location:',observation)
print('reward:',reward)
print('If terminated?',terminated)
vocus|新世代的創作平台


在每一步移動 (Action) ,OpenAI Gym 這個「Frozen Lake」的環境都會回傳目前的位置 (Observation)、奬勵分數分數 (Reward) 以及是否結束 (Terminated),來提供接下來學習機制程式的撰寫。

最簡單的方式,我們可以採用亂數來找到可以通過的方式,例如

import numpy as np
epochs=100
for epoch in range(epochs):
state=env.reset()
path=[]
terminated=False
while (not terminated):
action=env.action_space.sample()
path.append(action)
observation, reward, terminated,_,_=env.step(action)
if(reward>0):
print('successful path:',path)
print(env.render())
vocus|新世代的創作平台

在這段程式中,我們可以使用亂數嘗試了 100 次的路徑來取得成功的路徑;其中「env.action_space.sample()」這個函數就是「OpenAI Gym」所提供的亂數選取動作的函數。當然,這樣的一個作法並不能稱之為「學習」;所以,在接下來的文章中會陸續將「強化學習」的方法作進一步的描述。

留言
avatar-img
甘果的沙龍
12會員
41內容數
作者從國內主要的半導體公司退休,重回校園教學研究;開始第三人生。分享退休投資規劃、科技產業經驗以及校園學習點滴。
甘果的沙龍的其他內容
2025/04/26
本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境,以及如何使用 venv 工具、安裝常用函式庫(如 numpy、pyTorch 等),並設定 Jupyter 連動不同 Python 虛擬環境。
Thumbnail
2025/04/26
本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境,以及如何使用 venv 工具、安裝常用函式庫(如 numpy、pyTorch 等),並設定 Jupyter 連動不同 Python 虛擬環境。
Thumbnail
2025/04/19
這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器,方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script,讓伺服器能持續運作。
Thumbnail
2025/04/19
這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器,方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script,讓伺服器能持續運作。
Thumbnail
2025/04/10
本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器,搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟,並推薦了相關應用 app。
Thumbnail
2025/04/10
本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器,搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟,並推薦了相關應用 app。
Thumbnail
看更多
你可能也想看
Thumbnail
2018年12月6日至9日,BRAIN GYM®101 教育肌應學 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司舉辦。這些學員來自不同的專業領域,包括企業家、教師、工程師、藝術家、營養師等,各自擁有不同的學習目標和期待。
Thumbnail
2018年12月6日至9日,BRAIN GYM®101 教育肌應學 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司舉辦。這些學員來自不同的專業領域,包括企業家、教師、工程師、藝術家、營養師等,各自擁有不同的學習目標和期待。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦單位是才賦顧問有限公司。第二天的課程從學員的分享開始,許多人表示在參加前一天的課程後,他們的睡眠品質有了顯著的提升。這是因為當肌應檢測解除了,緊張感減輕,自然而然地改善了睡眠品質。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦單位是才賦顧問有限公司。第二天的課程從學員的分享開始,許多人表示在參加前一天的課程後,他們的睡眠品質有了顯著的提升。這是因為當肌應檢測解除了,緊張感減輕,自然而然地改善了睡眠品質。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦是才賦顧問有限公司。這次課程的內容是教授丹尼遜健腦操®26式動作,吸引一眾專業人士參加,包括呼吸治療師、營養師和專業芳療師。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦是才賦顧問有限公司。這次課程的內容是教授丹尼遜健腦操®26式動作,吸引一眾專業人士參加,包括呼吸治療師、營養師和專業芳療師。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
2019年8月15日臺北舉辦的BRAIN GYM®101教育肌應學 基礎丹尼遜健腦操®國際證書課程,由教育肌應學基金會授權的許可丹尼遜健腦操®導師王紫晴老師主講,讓學員透過運動和遊戲中探索教育肌應學應用於日常生活中,享受學習的樂趣,並新建立輕鬆和有趣的學習模式。
Thumbnail
2019年8月15日臺北舉辦的BRAIN GYM®101教育肌應學 基礎丹尼遜健腦操®國際證書課程,由教育肌應學基金會授權的許可丹尼遜健腦操®導師王紫晴老師主講,讓學員透過運動和遊戲中探索教育肌應學應用於日常生活中,享受學習的樂趣,並新建立輕鬆和有趣的學習模式。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
2019年2月26日至3月1日在臺北舉辦,30位學員參與由蘇志華老師主持的BrainGym®丹尼遜健腦操®國際證書課程。探討了丹尼遜健腦操®的核心理念和技巧,以及運動如何與學習產生聯繫,具體體驗了放鬆、愉悅和學習的美好。該課程將這些經歷帶回到學員的工作崗位和生活中,成為推動學習和成長的重要力量。
Thumbnail
2019年2月26日至3月1日在臺北舉辦,30位學員參與由蘇志華老師主持的BrainGym®丹尼遜健腦操®國際證書課程。探討了丹尼遜健腦操®的核心理念和技巧,以及運動如何與學習產生聯繫,具體體驗了放鬆、愉悅和學習的美好。該課程將這些經歷帶回到學員的工作崗位和生活中,成為推動學習和成長的重要力量。
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
我從今年初開始就不斷強調,AI 的發展過程中,電力是多麼重要的一件事,算力雖然是推動 AI 的引擎,但電力才是支撐引擎運轉的燃料,沒有充足且穩定的電力供應,再先進的 GPU 也只是無法啟動的昂貴晶片、毫無用武之地,所以AI的終點不是算力,而是電力。
Thumbnail
我從今年初開始就不斷強調,AI 的發展過程中,電力是多麼重要的一件事,算力雖然是推動 AI 的引擎,但電力才是支撐引擎運轉的燃料,沒有充足且穩定的電力供應,再先進的 GPU 也只是無法啟動的昂貴晶片、毫無用武之地,所以AI的終點不是算力,而是電力。
Thumbnail
2018年5月3日至6日,BRAIN GYM®101 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司如期舉行,這是一場針對日常生活中學習的最佳學習工具的深度探討。本課程由著名講師蘇志華先生主持。
Thumbnail
2018年5月3日至6日,BRAIN GYM®101 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司如期舉行,這是一場針對日常生活中學習的最佳學習工具的深度探討。本課程由著名講師蘇志華先生主持。
Thumbnail
BRAIN GYM®104 教育肌應學 丹尼遜健腦操®26式課程在台北成功舉辦,這是一個匯聚了來自不同領域專業人士的學員,旨在深入探索丹尼遜健腦操® 26式的應用與技巧。這兩天的課程不僅讓學員們更加熟悉了丹尼遜健腦操®的原理和方法,更加深刻地理解了如何應用這些技巧促進全腦學習的效果。
Thumbnail
BRAIN GYM®104 教育肌應學 丹尼遜健腦操®26式課程在台北成功舉辦,這是一個匯聚了來自不同領域專業人士的學員,旨在深入探索丹尼遜健腦操® 26式的應用與技巧。這兩天的課程不僅讓學員們更加熟悉了丹尼遜健腦操®的原理和方法,更加深刻地理解了如何應用這些技巧促進全腦學習的效果。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News