Bandit 001|如何將未知量轉化為已知量?

更新 發佈閱讀 2 分鐘

由Yasin Abbasi-Yadkori [1] 於2011年發表的文章,


《Improved Algorithms for Linear Stochastic Bandits》[2],


是每一個做 Bandit Problem 學術研究的人必讀的經典。


而看Bandit相關的Paper,我的第一步是從Regret Analysis開始看。


在Yasin這篇文章的第15頁,


我們可以看到對「瞬間後悔 instantaneous regret」的完整分析過程。


瞬間後悔的定義,是「在真實強盜參數 (Bandit Parameter)下,


強盜算法 (Bandit Algorithms),


所選擇的行動 (Action)所得到的獎勵 (Reward),


以及可能達到的最大獎勵 (Maximal)之間的差距 (Gap)。」


Yasin 在證明的第一步,用了一個很巧妙的上界,


直接點出了其在Section 2 描述的


「面對不確定性下的樂觀 Optimism in the Face of Uncertainty (OFU)」


在瞬間後悔分析時達到的效果:


將「未知的"真實強盜參數"與未知的"最優行動"」


替換成「已知的“估計強盜參數與已知的”強盜算法選擇的行動“」。


於是,在瞬間後悔定義中用到的未知量,


都能轉化為強盜算法設計就能知道的已知量,


那麼分析就能繼續下去。


這個思維在做理論研究的時候相當重要,


因為當我們在選取Performance Measure時,


通常會涉及一些「無法觀察的未知量」。


而如何用上界或下界來替換成「能計算的已知量」,


是一個演算法能不能做理論分析的關鍵。


Reference

[1] https://yasin-abbasi.github.io/

[2] https://papers.nips.cc/paper_files/paper/2011/hash/e1d5be1c7f2f456670de3d53c7b54f4a-Abstract.html

留言
avatar-img
王啟樺的沙龍
649會員
2.0K內容數
Outline as Content
王啟樺的沙龍的其他內容
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/03/29
Passive Consumption(被動接收) vs. Active Reading(主動閱讀)|真正讓你進化的閱讀差在這裡 碩博士生每天都在讀論文、讀報告、讀教材, 但大多數人其實只是「看過了」,不是「讀進去了」。 讀很多卻吸收很少,記不起重點、寫不出心得, 不是你不夠努力,而是你還停
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
2025/01/29
4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀,你就可能錯失整個時代的最大機遇 AI 的發展速度,真的快到讓人心驚。 我們常常以為美國在 AI 領域穩居頂尖,可現在中國的 AI 創新力好像開始迎頭趕上,這背後的原因是什麼? 若我們沒有跟上這波 AI 變革,就可能被遠遠拋在後面,錯失技
Thumbnail
看更多
你可能也想看
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
有時候未必賞識,只是長官不懂 在調查局任職的最後十年,我一直在懷疑自己引以為傲的數據分析能力真的是一種能力嗎?到最後電腦犯罪變成在搞假訊息防制,搞到我都在懷疑人生,到底是在打擊假訊息,還是打擊言論自由。(我自己應該是很久就關注假訊息的議題,也寫過相關文章,所以我並不是反對打擊假訊息,而是反對實質造
Thumbnail
有時候未必賞識,只是長官不懂 在調查局任職的最後十年,我一直在懷疑自己引以為傲的數據分析能力真的是一種能力嗎?到最後電腦犯罪變成在搞假訊息防制,搞到我都在懷疑人生,到底是在打擊假訊息,還是打擊言論自由。(我自己應該是很久就關注假訊息的議題,也寫過相關文章,所以我並不是反對打擊假訊息,而是反對實質造
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
  自從之前發現被對岸網站盜文,就決定在文章中間或末端加上一些文字聲明。由於我連載的平台有好幾個,所以花了一些時間,把每一個平台的每一篇文全都加上聲明,想藉此查看盜文都是從哪個連載平台盜的﹙雖然本來我心裡就有底了,但總要有證據嘛﹚。   而且,因為怕盜文時設有自動屏蔽、替換功能,我還特地將文字聲明
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
我們要趁人蛇集團撒網的時候,抓到證據並一口氣收網,算是一種借力使力的計畫。
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
設定討論方向到情報操作者不想要的方向,可以卡住情報操作者想引導人們相信的事、辯解的藉口。 以 #兩兆錢坑 法案來講,情報操作者的論述大概是用「時候未到所以不一定」的原理來欺瞞逃脫質疑。這時可以設定的討論方向是: 1雖然未發生,但是法規有限制比較有保障 2討論「空白授權」可能的危害 例如:
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
以前是防人類盜圖, 現在是防科技盜圖, 我感覺不管是哪一種在盜圖, 看到那個盜圖技術反而是佩服勝過生氣。😅 然後這種事情從以前到現在其實一直在發生, 只不過科技的力量仍然帶來更大的影響, 如果掌握資源的人認為,本來就沒有義務去思考, 那麼部分的犧牲只是時間早晚的問題。 這麼說也不是覺得可以
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
這篇文章分析了PANW法說會提到的資安產業過去10年最大的結構性變化,並探討了雲端和機器學習對資安產業的影響,特別針對雲端、機器學習、network security等議題進行了詳細的分析。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
前幾天看到一則標題『貼牌的中國製智慧門鈴內含安全漏洞』,讓我想到以前寫過類似的故事,關於小型資訊公司與貼牌軟體漏洞的故事,也想重新整理思路當面對類似問題無論是開發公司或是購買軟體的公司該如何面對。
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
Thumbnail
資訊作戰是一個廣泛的術語,包含一系列旨在影響對手或目標受眾行為、感知或決策的活動。可用於實現各種目標,包括: 獲取或維持信息優勢,干擾或否認對手的溝通能力,損害對手的聲譽或可信度,在對手內部種下紛爭或分裂,影響敵人人口的行為。 資訊操作可使用各種方法進行: 網絡戰, 心理戰, 社會工程, 資訊不實
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News