Native Sparse Attention (NSA) 機制概述 Native Sparse Attention

更新 發佈閱讀 2 分鐘
vocus|新世代的創作平台

Native Sparse Attention (NSA) 機制概述


Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。


這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在其技術論文中詳細介紹了其設計理念和核心組件。


NSA 的核心特點


硬體對齊:

NSA 的設計考慮了現代硬體的特性,旨在加速推理過程,同時降低預訓練的成本,而不會犧牲模型的性能。


動態層次稀疏策略:

這一策略結合了粗粒度的標記壓縮和細粒度的標記選擇,能夠在保持全局上下文的同時,顯著提高處理速度。


高效的長文本處理:

NSA 特別適用於超快速的長文本訓練與推理,這使得它在處理大規模數據時表現出色。

技術創新


NSA 機制的創新之處在於其能夠在訓練過程中進行端到端的優化,並在推理階段顯著提高效率。


這一機制的推出被認為是對現有全注意力模型的一次重要補充,因為它在多項基準測試中表現出色,尤其是在長文本任務和基於指令的推理方面。

市場影響


NSA 的發布引起了市場的廣泛關注,相關的 AI 代幣如 SingularityNET (AGIX) 和 Fetch.AI (FET) 在發布後的短時間內出現了顯著的價格上漲,顯示出市場對於 NSA 能夠推動 AI 技術進步的信心。


Native Sparse Attention 機制的推出不僅在技術上具有創新性,還可能對 AI 相關的市場產生深遠的影響。

留言
avatar-img
AI.ESG.數位轉型顧問 沈重宗
83會員
640內容數
2025/04/30
哈囉~各位關心國際貿易的朋友們!👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊!😆 讓我們用台灣人最愛的「接地氣」方式,來看看這齣「關稅風暴」到底演到哪一集了~ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反? 沒錯!根據最新消息,沃爾瑪、塔吉特這
Thumbnail
2025/04/30
哈囉~各位關心國際貿易的朋友們!👋 最近美國零售業跟川普政府的關稅大戰簡直比八點檔還精彩啊!😆 讓我們用台灣人最愛的「接地氣」方式,來看看這齣「關稅風暴」到底演到哪一集了~ 🛒 零售巨頭們的「求生實錄」 1. 沃爾瑪帶頭造反? 沒錯!根據最新消息,沃爾瑪、塔吉特這
Thumbnail
2025/04/30
砍外包、拼自動化 Duolingo 大變身!🔥宣佈全面擁抱 AI 當「神隊友」💻,執行長 Luis von Ahn 親曝戰略藍圖:「砍外包、拼自動化,讓員工做更有價值的事!」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力,用 A
Thumbnail
2025/04/30
砍外包、拼自動化 Duolingo 大變身!🔥宣佈全面擁抱 AI 當「神隊友」💻,執行長 Luis von Ahn 親曝戰略藍圖:「砍外包、拼自動化,讓員工做更有價值的事!」👊 ✨ 轉型亮點一次看 ✨ 1. AI 接管重複性工作🔄 → 逐步淘汰外包人力,用 A
Thumbnail
2025/04/30
AI超會答,但你真的會問嗎?🤔 學會「提問力」讓你效率飆升! 你是不是也遇過這些狀況?👉 問AI「幫我寫旅遊行程」,結果它給你一份「從台北飛巴黎」的夢幻計畫(但預算只有5000台幣😅);或是請AI寫文案,卻生出一堆「正確但沒人想看」的廢話?問題不在AI,而是你「不會問」!
Thumbnail
2025/04/30
AI超會答,但你真的會問嗎?🤔 學會「提問力」讓你效率飆升! 你是不是也遇過這些狀況?👉 問AI「幫我寫旅遊行程」,結果它給你一份「從台北飛巴黎」的夢幻計畫(但預算只有5000台幣😅);或是請AI寫文案,卻生出一堆「正確但沒人想看」的廢話?問題不在AI,而是你「不會問」!
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
Thumbnail
免費增強版 DeepSeek最新更新概述 背景信息 DeepSeek是一款由杭州深度求索人工智能基礎技術研究有限公司開發的AI模型,近年來在全球範圍內引起了廣泛關注。其最新版本DeepSeek V3-0324於2025年3月24日發布,標誌著該模型在編程能力、推理能力和上下文理解等多個方面的顯
Thumbnail
阿峰老師解析BBC報導,揭示中國發展AI的「國家隊」策略。其藉由早期STEM教學培養人才、DeepSeek等低成本高效技術、國家強力支持與「彎道超車」創新,全面推動AI融入社會。儘管成就顯著,但國際上對隱私和信任的疑慮仍是其重大挑戰。台灣應借鏡此經驗,思考自身發展路徑。
Thumbnail
阿峰老師解析BBC報導,揭示中國發展AI的「國家隊」策略。其藉由早期STEM教學培養人才、DeepSeek等低成本高效技術、國家強力支持與「彎道超車」創新,全面推動AI融入社會。儘管成就顯著,但國際上對隱私和信任的疑慮仍是其重大挑戰。台灣應借鏡此經驗,思考自身發展路徑。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
中國AI模型DeepSeek崛起,其低成本訓練模式引發市場關注,探討其對臺灣伺服器ODM產業的影響,以及長期發展潛力。
Thumbnail
中國AI模型DeepSeek崛起,其低成本訓練模式引發市場關注,探討其對臺灣伺服器ODM產業的影響,以及長期發展潛力。
Thumbnail
戰略上我們要把AI當小嘍囉,戰術上我們要把AI當大佬。
Thumbnail
戰略上我們要把AI當小嘍囉,戰術上我們要把AI當大佬。
Thumbnail
本文以阿峰老師的角度,深入探討中國 AI 新創公司 DeepSeek 的崛起。文章剖析其低成本高效能的技術特色、產品應用,以及對全球 AI 格局帶來的影響。DeepSeek 的成功不僅挑戰了傳統 AI 開發觀念,也為台灣帶來 AI 產業發展的機會與挑戰。
Thumbnail
本文以阿峰老師的角度,深入探討中國 AI 新創公司 DeepSeek 的崛起。文章剖析其低成本高效能的技術特色、產品應用,以及對全球 AI 格局帶來的影響。DeepSeek 的成功不僅挑戰了傳統 AI 開發觀念,也為台灣帶來 AI 產業發展的機會與挑戰。
Thumbnail
Native Sparse Attention (NSA) 機制概述 Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。 這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在
Thumbnail
Native Sparse Attention (NSA) 機制概述 Native Sparse Attention (NSA) 是一種新型的稀疏注意力機制,旨在提高長文本的訓練和推理效率。 這一機制由中國的人工智慧公司 DeepSeek 於 2025 年 2 月 18 日正式發布,並在
Thumbnail
所謂「知己知彼,百戰百勝」,不論你喜不喜歡、認不認同,都不能不花點時間了解 DeepSeek 為什麼會這樣橫空出世?又為什麼爆紅,引起舉世震盪? 在這段影片中,我們將深入探討 DeepSeek R1 這篇引起舉世震盪的論文,揭示如何透過強化學習大幅提升大型語言模型的推理能力....
Thumbnail
所謂「知己知彼,百戰百勝」,不論你喜不喜歡、認不認同,都不能不花點時間了解 DeepSeek 為什麼會這樣橫空出世?又為什麼爆紅,引起舉世震盪? 在這段影片中,我們將深入探討 DeepSeek R1 這篇引起舉世震盪的論文,揭示如何透過強化學習大幅提升大型語言模型的推理能力....
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
Thumbnail
本文探討大型語言模型的發展趨勢,並以DeepSeek-V3為例,分析其在模型架構、訓練方法和效率成本上的改進。作者指出,大型語言模型的競爭焦點已轉向實際應用和數據的運用,而非模型間微小的性能差異。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News