原來哆啦A夢都是真的|Spoken LLMs帶來的革命

更新 發佈閱讀 4 分鐘

大家是否想過一個問題:隨著AI的普及化,過去陪伴大家長大的動畫角色「哆啦A夢」,是否可能成真?理論上只要有適合的載體,配合能聽得懂使用者說話的LLMs,「哆啦A夢」的概念就有可能成真!下文將介紹兩個與AI對話的作法,以及我對這個領域的未來看法。

⭐ 主流作法:語音轉文字,使用現有LLMs進行推論

流程如下:

①「語音轉文字」:使用語音辨識系統將語音轉為文字,著名系統為Whisper。

②「將文字餵給LLM」:將轉換後的文字丟給LLM,可依照不同情境餵給ChatGPT, Claude, Grok, Gemini...

③「文字輸出合成語音」:將AI的文字輸出合成語音,著名語音合成系統為ElevenLabs、Google TTS、Azure TTS。

該方法是基於現行大眾常用的LLMs,回覆內容已經相當成熟、準確率高。且整個流程使用不同系統串接,可依不同模組進行優化。

值得注意的是,該架構因為需要切換語音與文字,回覆速度不快。而且在語音轉文字的過程中,可能遺失說話者的語氣,所以如果要應用到真實的對話上,AI 的反應跟速度會讓使用者感覺「不大自然」

⭐ 理想作法:「會講話的LLM」Spoken LLMs

如果說大型語言模型是基於大量文字訓練出來的 AI 模型,Spoken LLMs可以說是基於大量語音資料訓練出來的 AI 模型,允許使用者直接透過說話的方式,跟 AI 進行溝通。

與第一種方法不同的是,Spoken LLMs 不用透過語音轉文字的方式,能直接分析使用者的語句及語氣,因此理論上Spoken LLMs考慮更多使用者的情感,回覆的速度及內容也會讓使用者認為更自然

該方法雖然理想,但由於訓練資料不易取得、需要耗費的GPU資源高,因此尚處於研究階段,著名的研究成果有 Google DeepMind 的 AudioLM、Meta 的 SeamlessM4T、MediaTek Research的TASTE。

⭐ Spoken LLMs 將實現人類夢想

前陣子社群媒體瘋傳的「吉卜力風格圖片」,給我帶來啟示,AI 推出的功能,決定了它會吸引到什麼樣的用戶

如果 AI 主打的是股票分析能力、系統設計能力只能吸引到我們這種整天看股票、在Github上面活動的可悲肥宅。如果 AI 推出的功能夠好玩、夠無俚頭,能觸及的群眾就不只香香的妹子、連長輩小孩都能吸引過來。

Spoken LLMs為什麼重要呢,因為該領域的模型如果發展成熟,再配合適當的載體,就能實現「哆啦A夢」貓型機器人的概念,它能擔任你的私人家教、私人諮商師、並且能為你處理生活瑣事(特別是軟體方面的瑣事)。

我們對 AI 的第一層認知是一個無情,但什麼都知道的老師。第二層的認知是:AI不僅理性,也很感性,越來越多人將它視為陪伴的對象、煩惱的傾訴對象。試想當這樣的 AI 有了實體,能跟人對話,其陪伴的功能又將更上一層樓。

如果未來陪伴型機器人普及的話,我希望能有一隻耿鬼造型的機器人,實現童年夢想。XD

vocus|新世代的創作平台
留言
avatar-img
EMO先生的沙龍
160會員
94內容數
本專題主要放一些投資理財方面的個人研究,投資理念偏向價值投資,習慣從產業的角度、產品營收佔比分析公司體質,近期研究的主題著重於: (1)半導體產業鏈:IC設計、IC製造、CoWos (2)重電產業鏈:台電強韌電網、智慧電網計畫 (3)營建股追蹤:隆大、新美齊、憶聲、順達、名軒
EMO先生的沙龍的其他內容
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
看更多
你可能也想看
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News