📝📝:大型語言模型如何應用在神經科學的研究?|倫敦大學學院:經過訓練後的模型,準確率遠高過人類專家

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台




本文翻譯自《Nature Human Behaviour》的研究《Large language models surpass human experts in predicting neuroscience results》由倫敦大學學院(University College London)實驗心理學(Department of Experimental Psychology)的研究團隊 Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun 等人所主持的研究項目。




科學發展中的挑戰

隨著科學文獻的指數增長,研究人員面臨巨大的資訊整合挑戰。

在神經科學(neuroscience)等跨學科領域,研究成果往往分散於大量資料中,而每篇文章的研究方法和結論可能不一致,甚至存在噪音。這對於人類專家來說,是一個超出資訊處理能力的難題。

為解決這些問題,研究者開始利用大規模語言模型(LLMs)來輔助科學預測和發現。這些模型具備從海量數據中提取模式並預測新結果的能力,或能為未來的科學探索提供重要助力。




研究方法:打造神經科學的前瞻性基準

為了檢驗LLMs在科學預測上的能力,研究者開發了一套名為 BrainBench 的評估系統。

該系統專注於測試模型是否能準確預測神經科學研究結果,並將其表現與人類專家進行對比。BrainBench的核心任務是提供一個修訂版與原始研究摘要,讓測試者選擇哪一個更可能反映真實的研究結果。

此基準主要測試模型在五個神經科學領域中的表現:

  1. 行為與認知(Behavioral/Cognitive)
  2. 系統與迴路(Systems/Circuits)
  3. 疾病神經生物學(Neurobiology of Disease)
  4. 細胞與分子(Cellular/Molecular)
  5. 發展與可塑性(Development/Plasticity/Repair)


此基準主要測試模型在五個神經科學領域中的表現。來源:本研究

此基準主要測試模型在五個神經科學領域中的表現。來源:本研究




關鍵結果:LLMs 的超越性表現

在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。

以下為 LLMs 表現優越的原因分析:

  1. 資訊整合能力強:LLMs能有效整合摘要中的背景、方法和結論等資訊,而不僅依賴局部結果。
  2. 預測準確性與信心一致:當模型對其判斷有較高信心時,正確率也更高,顯示其信心校準良好。
  3. 未受數據記憶限制:研究顯示,LLMs並非基於記憶而進行選擇,而是從神經科學資料中學習到更廣泛的模式。


大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。來源:本研究

大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。來源:本研究




模型優化:從一般到專業

為了提升LLMs在神經科學的應用能力,研究者採用了 LoRA(低秩適應) 方法,進行專業知識調適。通過在數百萬字的神經科學文獻上進行微調,研究團隊將LLMs轉化為更加專業化的工具——BrainGPT。

調適後模型的主要進步:

  • 在 BrainBench 測試中的正確率提升了約 3%。
  • 模型在理解專業術語與方法學上的能力顯著增強。




挑戰與展望

儘管LLMs展現出強大的預測能力,研究者仍需考量潛在風險:

  1. 過度依賴模型:若研究人員完全依賴模型預測,可能忽略突破性實驗的機會。
  2. 科學倫理與透明性:模型的訓練數據和權重應保持公開,以促進再現性與公平性。


展望未來,LLMs可以:

  • 作為科學研究的輔助工具,指導實驗設計。
  • 成為探索未知領域的重要夥伴,幫助解答跨學科問題。




本研究的突破在於首次系統性地驗證LLMs在神經科學領域的前瞻性應用能力。隨著技術的進步,我們可以期待這些模型成為推動科學發現的新引擎,為知識密集型領域帶來前所未有的效率與可能性。



留言
avatar-img
社會人的哲學沉思
192會員
346內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/25
大型語言模型以自然的節奏說話,表達好奇心,甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實: 這些 AI 系統根本不具備這些人類特質。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/22
「懶惰原住民」(the Lazy Native)的迷思並非自然形成,而是殖民當局帶著明確的意識形態意圖精心打造的。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
2025/04/18
KK 指出,AI 的長期影響將超過電力與火的發明,但這個變革需要數百年來逐步展現。
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
Thumbnail
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
Thumbnail
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
Thumbnail
ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型,想要做到的是哪些事情。
Thumbnail
類神經網路在圖形辨識應用中需要大量資料進行訓練,並常透過分批訓練來優化模型。本文介紹如何使用「MNIST」資料庫進行手寫數字辨識,並透過「資料分批」來有效處理訓練資料。最終,分批訓練的手法能夠提升模型的辨識能力,實現持續學習。
Thumbnail
類神經網路在圖形辨識應用中需要大量資料進行訓練,並常透過分批訓練來優化模型。本文介紹如何使用「MNIST」資料庫進行手寫數字辨識,並透過「資料分批」來有效處理訓練資料。最終,分批訓練的手法能夠提升模型的辨識能力,實現持續學習。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這篇文章提供了關於大型語言模型 (LLMs) 訓練和使用的深入綜述,涵蓋數據收集、標註、訓練的三個階段,以及模型幻覺、中間結果和參數知識等議題。此外,文章還探討了不同訓練方法 (如 SFT 和 RL) 的優缺點,並提出使用LLMs的建議,展望了未來LLMs的多模態應用和任務代理能力。
Thumbnail
這篇文章提供了關於大型語言模型 (LLMs) 訓練和使用的深入綜述,涵蓋數據收集、標註、訓練的三個階段,以及模型幻覺、中間結果和參數知識等議題。此外,文章還探討了不同訓練方法 (如 SFT 和 RL) 的優缺點,並提出使用LLMs的建議,展望了未來LLMs的多模態應用和任務代理能力。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
Thumbnail
在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。
Thumbnail
自然語言處理 (NLP) 與神經語言程式學 (NLP) 是什麼?前者為使機器理解人類語言,後者則研究如何透過了解大腦運作,使用語言改變人類的思考與行為。本文簡短探討了神經語言程式學的基礎、方法、及應用,以及提出一些疑問與反思。
Thumbnail
自然語言處理 (NLP) 與神經語言程式學 (NLP) 是什麼?前者為使機器理解人類語言,後者則研究如何透過了解大腦運作,使用語言改變人類的思考與行為。本文簡短探討了神經語言程式學的基礎、方法、及應用,以及提出一些疑問與反思。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News