In-Context Learning

更新 發佈閱讀 3 分鐘

基本概念

  • In-Context Learning(ICL) 就是讓大型語言模型(LLM)在「不經過額外微調」的情形下,只靠你在 prompt(提示)裡提供的數個範例,就能根據這些範例推理與產生符合新任務需求的回應。
  • 在 ICL 過程中,模型的參數不會因為這些範例而被更新,即「學習」的過程僅發生於一次性推理(inference)階段,而不是長期調整模型本身。
  • ICL 的能力是在大規模預訓練中自動獲得的,是目前主流 LLM(如 GPT-3、Llama 等)的關鍵特徵之一。

原理與特點

  • 本質上,ICL 是**提示工程(Prompt Engineering)**的一種:你可以在 prompt 中直接加入任務描述和幾組 input/output 範例,模型就能在新情境下舉一反三、給出對應答案。
  • 不同於傳統機器學習方法需要再訓練(fine-tuning),ICL 只需調整 prompt 格式與範例,不需額外計算資源。
  • 模型的知識來自於預訓練時見過的巨量語料和輸入-輸出對,ICL 做的是根據 prompt 內容,模擬 human-like reasoning、推論出對應的行為。
  • 這種能力隨著模型規模及預訓練資料量提升而提高,現有 LLM 皆具有某種程度的 ICL 能力。

應用情境

  • 情感分類:只需給出數個句子與標籤範例,模型就能對新句子進行情感判斷。
  • 客製化口語翻譯、正規化:可針對特殊用詞、領域術語,依範例自動歸納規則,提升翻譯品質。
  • 各式 NLU/NLG 任務:分類、抽取、摘要等,皆可用範例驅動,無需重新訓練。
  • 快速原型:在資料有限、需求多變的業務場域,能以最小開發成本測試新任務效果。

與 Few-Shot Learning、Prompt Engineering 的關聯

  • Few-Shot Learning 是 ICL 的一種具體操作:在 prompt 中提供少量(few-shot,通常 2~5 組)範例,讓模型依樣畫葫蘆完成新任務。
  • Prompt Engineering 則泛指設計 prompt 的過程,而 ICL 是 prompt engineering 的核心技法之一。

優點與限制

  • 優點
    • 無需微調,節省時間與硬體資源。
    • 彈性高,範例設計靈活。
    • 易於除錯,只要調整範例格式即可修正異常行為。
  • 限制
    • 過度仰賴 prompt 範例質量與設計,格式不一致可能導致失敗或偏誤。
    • 本質上屬於「黑盒」推論,雖現象易觀察,但原理目前尚無完全共識。

ICL 正快速改變 AI 應用的開發與設計範式,是現代語言模型最重要的能力之一。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/07/14
Feature engineering(特徵工程)是機器學習中將原始資料轉換成能更有效表示問題特徵的過程,目的是提升模型的預測準確度和泛化能力。 主要內容包括: **特徵選擇**:挑選對目標變數最有影響力的欄位或變數。 **特徵轉換**:對原始資料做數學或統計轉換,如標準化、正規化、對數變
2025/07/14
Feature engineering(特徵工程)是機器學習中將原始資料轉換成能更有效表示問題特徵的過程,目的是提升模型的預測準確度和泛化能力。 主要內容包括: **特徵選擇**:挑選對目標變數最有影響力的欄位或變數。 **特徵轉換**:對原始資料做數學或統計轉換,如標準化、正規化、對數變
2025/07/10
Continued pre-training 指的是在已有的預訓練模型基礎上,使用新的資料或特定領域的數據,進一步進行訓練以提升模型在該領域或任務上的表現。這種方法常用於大型語言模型或基礎模型(foundation models),讓模型能更好地適應特定應用場景。 主要概念 • 基礎模型(Fo
2025/07/10
Continued pre-training 指的是在已有的預訓練模型基礎上,使用新的資料或特定領域的數據,進一步進行訓練以提升模型在該領域或任務上的表現。這種方法常用於大型語言模型或基礎模型(foundation models),讓模型能更好地適應特定應用場景。 主要概念 • 基礎模型(Fo
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
2025/07/10
Amazon Forecast 是 AWS 提供的一項全受管的時間序列預測服務,利用機器學習技術,幫助企業根據歷史數據準確預測未來趨勢,無需具備機器學習專業知識即可使用。 主要特點 • 自動化機器學習:自動選擇最適合資料的演算法,簡化模型訓練和調校流程。 • 高準確度:基於 Amazon.
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News