HellaSwag

更新 發佈閱讀 3 分鐘

HellaSwag 是一個用來評估大型語言模型(LLM)常識推理能力的重要基準測試集,首次由 Zellers 等人在2019年提出。其設計目標在於測試模型對日常生活場景中「合理事件排序」的理解和推斷能力。以下是 HellaSwag 的關鍵特點與運作方式:

  • 名稱由來:HellaSwag 全稱為 Harder Endings Longer contexts Low shot Activities for Situations With Adversarial Generations,強調題目有較長的情境描述,且錯誤選項經過對抗性生成以提高難度。
  • 題目形式:每道題目以短篇描述開頭(句子多取自視頻字幕或線上教學文本,如 ActivityNet、WikiHow),描述一個日常動作或場景。接著給出4個可能的後續敘述選項,只有1個正確,其餘3個是精心生成且有誤導性的錯誤答案,要考驗模型的常識和邏輯推理能力。
  • 範例
    人類很容易看出選項A最符合合理操作,機器則需理解物理和社會常識來作答。
    • 上下文:一個人打開穀物盒,開始倒進碗裡。
    • 選項A:他把碗放在桌上,拿起湯匙。
    • 選項B:他把穀物扔向牆壁。
    • 選項C:他走開並關上門。
    • 選項D:他把盒子倒過來,什麼也沒出來。
  • 測試內容
    • 需要理解事件的時間序列、
    • 物理常識(行為是否可能)、
    • 社會規範(行為是否合適)、
    • 深層語義推理(基於暗示完成故事)。
  • 資料規模:原始版本包含超過一萬道題目,2025年推出的 HellaSwag-Pro 更擴充了超過11,000道題,並引入句式轉換(如被動語態、否定詞)、語義敏感性測試、去除表面線索等,強化評測模型的推理穩健度。
  • 評分意義:HellaSwag 不只是看模型表面文字匹配能力,而是衡量其真正理解和推斷常識事件的能力。目前人類正確率約95.6%,開源模型約80%,頂尖專有模型接近90%,顯示模型在常識推理上仍有提升空間。
  • 應用與影響
    • 作為診斷工具,揭露大型語言模型在常識推理方面的限制,
    • 驅動對抗性數據生成和語義穩健性評測技術,
    • 幫助模型開發者在多樣化問題和語境中提升模型可靠度,
    • 已成為多種自然語言處理應用的微調參考和評估標準。

總結來說,HellaSwag 是一個聚焦於日常場景常識推理的語言理解基準,透過設計精巧的選項干擾,挑戰模型不能只靠表面文字匹配,而必須具備真正的世界知識和推理能力,成為衡量大型語言模型智能的經典工具之一。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
MMLU,全名是「Massive Multi-task Language Understanding」(大規模多任務語言理解),是一個用來評估人工智慧語言模型在多種領域知識和推理能力的綜合基準測試。 以下是MMLU的主要特點說明: 測試範圍廣泛:涵蓋57個不同的主題領域,包括人文科學(歷史、哲學
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
COCO(Common Objects in Context)是一個大規模且廣泛使用的影像數據集,主要用於計算機視覺領域中的目標檢測(Detection)、圖像分割(Segmentation)、以及圖像描述(Captioning)等任務。以下是COCO資料集的重點介紹: 規模與內容: COCO包含
2025/08/14
ImageNet 是一個非常重要且廣泛使用的大型影像數據庫,主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹: 規模與內容: ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片,涵蓋了約兩萬多個類別(Synset,根據 WordNet 進行組織)。其中
2025/08/14
ImageNet 是一個非常重要且廣泛使用的大型影像數據庫,主要用於機器學習和計算機視覺的研究領域。以下是關於 ImageNet 的主要介紹: 規模與內容: ImageNet 數據集包含超過一千四百萬張標註過的高解析度圖片,涵蓋了約兩萬多個類別(Synset,根據 WordNet 進行組織)。其中
看更多
你可能也想看
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News