2026年3月10日,Google 同步發布了兩項更新,分別涵蓋了終端應用與底層基礎設施。在應用端,Google Workspace 迎來了大幅度的 Gemini 整合更新,將 Docs、Sheets、Slides 與 Drive 轉變為具備高度個人化、理解上下文脈絡的全能協作助理。而在開發者與基礎設施端,Google 則推出了全新的「Gemini Embedding 2」模型,能夠將文字、圖像、影片、音訊與文件統合在同一個向量空間中。
這兩項更新本質上是同一個技術願景:未來的 AI 必須徹底理解你專屬的資料庫,並且能夠像人類一樣,同時看懂圖片、聽懂聲音、閱讀長篇文件。
Gemini Embedding 2: Our first natively multimodal embedding model
應用層的擴張:Workspace 變身個人數位大腦
Google Workspace 這次的更新目前正以 Beta 測試版的形式,向全球的 Google AI Ultra 與 Pro 訂閱用戶逐步釋出。
Docs:跨越冷啟動障礙的寫作革命
面對閃爍的游標與空白的文件,如何踏出第一步往往是最困難的。Gemini in Docs 這次的更新,將 AI 的角色從「通用內容生成器」轉變為「專屬寫作夥伴」。
- 基於真實脈絡的初稿生成:過去我們要求 AI 寫草稿,往往需要花費大量時間在提示詞中補充背景資訊。現在,使用者可以直接透過側邊欄或底部的新工具列,要求 Gemini 直接參考特定的檔案。舉例來說,你可以輸入「使用我一月份的社區管委會會議記錄,以及即將舉辦的活動清單,草擬一份給社區居民的電子報」。Gemini 會自動提取這些檔案中的關鍵資訊,生成一份高度客製化的初稿。
- 精細的局部編修與語氣微調:除了整篇文章的生成,使用者可以選取特定段落,要求 Gemini 進行強化。例如輸入「保持充滿活力的語氣,但讓這份文件的專業度提升」,AI 會在保留原意的基礎上重塑文字結構。
- 風格與格式的一致:使用者可以使用「符合寫作風格」功能,讓整份文件的語氣保持一致,聽起來就像是使用者本人的口吻。另外,「符合文件格式」功能則可以自動套用參考文件的排版。如果你有一份非常喜歡的旅遊行程表範本,Gemini 可以直接從你的電子郵件中撈取航班資訊、飯店訂位與租車確認信,並填入該範本的格式中,省去複製貼上的繁瑣過程。
Sheets:終結手動輸入,迎來動態資料聚合
試算表往往是資料處理的核心,但手動整理與搜尋資料是一項極度消耗精力的工作。Gemini in Sheets 這次變成了一個能夠獨立建構整個資料專案的助理。
- 從自然語言到完整專案建構:你只需要告訴 Gemini 你的目標,例如「幫我規劃搬去芝加哥的專案。建立一個按房間分類的打包清單、一個水電網路的聯絡人清單,以及一個從我信箱中整理出搬家公司報價的試算表」,Gemini 就會自動從你的信箱與檔案中提取細節,建構出包含多個分頁、表格與儀表板的完整試算表。
- Fill with Gemini:這項功能大幅加快了資料處理的速度。使用者可以利用它來自動生成自訂文字、對資料進行分類與摘要,甚至能夠直接存取 Google Search 的即時資訊。以申請大學為例,假設你有一個包含各個學校名稱的追蹤表,你不需要再開啟無數個瀏覽器分頁去查詢每間學校的申請截止日期與學費。你只需要建立相對應的欄位標題,然後向下拉動範圍,Gemini 就會自動基於網路上的相關資訊,幫你填滿整個表格。這等於將網頁爬蟲與資料清理的工作,簡化為一個動作。
Slides:專注於敘事,將排版與設計交給 AI
製作簡報最耗時的往往不是內容的構思,而是版面的配置、圖表的繪製與風格的統一。Gemini in Slides 的更新讓使用者能夠將精力集中在「說故事」上。
- 生成完全可編輯的投影片組件:過去許多 AI 生成的簡報內容往往是難以修改的圖片或死板的區塊。現在,你可以要求 Gemini 根據檔案、郵件或網路上的資訊,生成與整體簡報主題完全相符的新投影片。無論是專業的版面配置還是圖表,產出的結果都是完全可編輯的。
- 對話式的協作編輯:如果生成的投影片不完全符合預期,你可以直接對 Gemini 下達修改指令,例如「讓這張投影片的顏色與我整份簡報的色系一致」或是「讓排版變得更極簡一點」。
- 一鍵生成完整簡報:Google 預告未來將推出一項強大功能,使用者只需提供單一提示詞(例如「為我即將到來的東京之旅製作一份五頁的簡報」),Gemini 就能夠在需要時提取相關的背景資訊,從零到有產出整份經過處理的簡報。
Drive:化被動儲存為主動的知識檢索中樞
雲端硬碟長久以來都只是一個數位的倉庫,我們把檔案丟進去,然後在需要時透過檔名進行搜尋。這次更新將 Google Drive 徹底轉變為一個活躍的知識圖譜。
- 搜尋結果頂部的「AI Overview」:當你使用日常的自然語言在 Drive 中搜尋時,Gemini 會在搜尋結果的頂端提供一個 AI 總覽。這個總覽會從你相關的檔案中萃取並摘要出最重要的資訊,並且附上清晰的引用來源,你甚至不需要點開任何一份文件,就能直接獲得你需要的答案。
- 跨應用程式的理解(Ask Gemini):這項全新的功能允許使用者跨越文件、電子郵件、日曆與網路,提出極度複雜的問題。舉例來說,在報稅季來臨時,你可以選取所有與稅務相關的檔案,並詢問:「在今年申報所得稅之前,我應該問我的稅務顧問哪些問題?」Gemini 會基於你實際的財務資料、去年的報稅紀錄以及近期的檔案,給出具體且量身打造的建議,甚至幫你比較不同方案的成本差異與關鍵條款。

New ways to create faster with Gemini in Docs, Sheets, Slides and Drive
底層架構的典範轉移:Gemini Embedding 2
如果說 Workspace 的更新是讓使用者驚豔的終端介面,那麼在同一天於推出的「Gemini Embedding 2」模型,就是支撐起這一切、並準備讓全球開發者使用的強大基礎設施。
什麼是 Embedding?為何它是 AI 時代的基礎設施?
在深入介紹之前,先來簡單解釋「嵌入(Embedding)」的概念。電腦無法直接理解文字的意義或圖片的美感,電腦只懂數字。Embedding 技術的本質,就是將真實世界中的資訊(一個單字、一句話、一張圖)轉換為一組高維度的數字向量(Vector)。在這個高維度的數學空間中,語義相近的內容,它們的座標位置就會互相靠近。
這項技術是目前所有檢索增強生成(Retrieval-Augmented Generation, RAG)、語義搜尋、情感分析與資料分群的主要技術之一。當你在龐大的資料庫中搜尋某個概念時,系統其實是在這個向量空間中尋找距離最近的座標點。
原生多模態 (Natively Multimodal) 的技術突破
過去的 Embedding 模型大多數是純文字的。如果我們要處理圖片或聲音,傳統的做法是「管線化處理(Pipelined)」:先用另一個 AI 把語音轉成逐字稿,或者把圖片生成一段描述文字,然後再把這些文字轉換為向量。這種做法會流失大量的資訊,例如講話時的語氣、背景的環境音、圖片中難以用文字精確描述的細微光影與空間關係。
Gemini Embedding 2 的重大突破在於,它是 Google 首款基於 Gemini 架構打造的「原生多模態」嵌入模型。它能夠將不同格式的媒體,映射到同一個統一的向量空間中。
- 強大的規格支援:
- 文字:支援高達 8192 個輸入 Token 的上下文範圍。
- 圖像:每次請求最高可處理 6 張圖片,支援 PNG 與 JPEG 格式。
- 影片:支援長達 120 秒的 MP4 與 MOV 格式影片輸入。
- 音訊:模型可以直接攝取並嵌入音訊資料,完全不需要依賴中間的文字轉錄過程。
- 文件:可以直接嵌入長達 6 頁的 PDF 文件。
- 交錯輸入 (Interleaved Input) 的理解能力:真實世界的資料很少是單一格式的,一份教學文件可能包含一段文字描述搭配一張圖解。Gemini Embedding 2 能夠原生理解這種交錯的輸入,允許開發者在單一請求中同時傳遞多種模態(例如:圖片加上文字)。這讓模型能夠精準捕捉不同媒體類型之間複雜且微妙的關聯性,帶來更準確的真實世界資料理解。這項技術也使得該模型在文字、圖像、影片任務上超越了領先的競爭模型,並引入了強大的語音處理能力。
Matryoshka 表徵學習 (MRL) 的工程與經濟效益
儲存與搜尋高維度向量是極度消耗運算資源與記憶體成本的,Gemini Embedding 2 延續了前代模型的優勢,內建了「Matryoshka 表徵學習(Matryoshka Representation Learning, MRL)」技術。
MRL 的概念如同俄羅斯套娃(Matryoshka dolls),它將最重要的語義資訊「嵌套」在向量最前面的幾個維度中,細節資訊則依序排列在後面的維度。這賦予了開發者極大的彈性,可以動態縮放輸出的維度。
雖然模型預設輸出 3072 維度,但開發者可以根據應用場景的效能與儲存成本考量,自由將維度縮減至 1536 或 768(這三個維度是官方建議以維持最高品質的選項)。這意味著開發者可以在不大幅犧牲搜尋準確度的情況下,有效降低向量資料庫的維護成本,在效能與儲存開銷之間取得完美的平衡。目前,這項強大的模型已經可以透過 Gemini API 與 Vertex AI 進行存取,並且與 LangChain、LlamaIndex 等主流框架完成整合。
TN科技筆記的觀點
純粹的「推理能力(Reasoning)」最終將會走向商品化,各家大廠的基礎模型能力遲早會趨於一致或是讓一般使用者難以分辨高下。所以未來的護城河反而是「資料」,不在於你的模型智商有多高,而在於你的模型「離使用者的真實資料有多近」。當使用者的電子郵件、行程表、合約文件與過往的簡報都儲存在 Google 生態系中,Gemini 就能夠提供其他獨立 AI 工具絕對無法企及的「脈絡精準度」。這種「資料引力 (Data Gravity)」會產生強大的用戶黏著度。同時,透過釋出 Gemini Embedding 2,Google 也在告訴企業端開發者:你們可以利用這套原生的多模態基礎設施,在你們自己專屬的內部資料庫上,建立起跟 Google Drive 一樣聰明的私有知識中樞。
當 AI 模型能夠輕易處理數千個 Token 的文字、長達兩分鐘的影片以及多頁 PDF,並且能自動在後台進行向量檢索時,使用者的核心任務不再是「告訴 AI 怎麼做」,而是「提供正確的上下文給 AI」。未來的生產力專家,將會是那些懂得如何良好整理、標籤化自身數位資產的人。只要資料庫整理得當,AI 自然能從中提取出最精華的洞見。
儘管 Google 示範的案例令人興奮,但我們必須正視技術的局限性,如果發生了目前仍難以避免的「幻覺(Hallucination)」,特別是在多模態的情境下,如果 AI 是從一段影片或是一段未經轉錄的原始錄音中提取結論,人類要進行事後查核(Fact-check)的難度將會成倍增加。我們很難像核對文字那樣,快速掃視聲音或影像的原始出處。這將是企業在導入此類功能時,必須建立嚴格審核機制的關鍵點。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)





















