Gemini 應用程式的個人化故事書創作:背後技術大解密

更新 發佈閱讀 4 分鐘

Google 的 Gemini 應用程式近期 (8/5號) 推出了一項引人入勝的新功能:「個人化插圖故事書」(Storybook, https://gemini.google.com/gem/storybook),讓使用者能透過簡單的文字指令,在短短幾分鐘內生成一本圖文並茂、附有語音朗讀的 10 頁數位故事書。這項功能的實現,仰賴於 Google 多項先進的人工智慧技術整合應用。

vocus|新世代的創作平台

其核心技術主要涵蓋以下三個層面:

1. 強大的大型語言模型 (LLM) - Gemini:

故事的創作核心始於 Gemini 模型本身。使用者輸入的故事情節、角色設定、場景描述,甚至是希望傳達的寓意,都由 Gemini 的大型語言模型進行理解與創作。Gemini 不僅能生成連貫、富有創意的故事文本,更能進一步生成用於圖像生成的提示詞 (prompt)。這意味著 Gemini 不僅是故事的作者,也是指導插畫風格和內容的「導演」。使用者也可以上傳照片或文件,讓 Gemini 從中汲取靈感,創作出更具個人色彩的內容。

2. 先進的圖像生成模型:

當故事文本和圖像提示詞準備就緒後,Gemini 會調用其先進的文生圖模型來繪製插圖。雖然 Google 官方並未明確指出故事書功能使用了哪一款特定的圖像生成模型,但外界普遍推測其背後可能整合了 Google 最新的 Imagen 3 或是專為快速、多模態輸出設計的 Gemini 2.0 Flash 等模型。這些模型能夠根據 Gemini 生成的詳細提示詞,創作出風格多樣的插畫,從像素藝術、漫畫、黏土動畫、鉤針編織到著色本風格,使用者可以自由選擇,為故事書增添獨特的視覺魅力。

3. 自然流暢的文字轉語音 (Text-to-Speech, TTS) 技術:

為了讓故事書更具吸引力,Gemini 還整合了 Google 的文字轉語音技術,為生成的故事提供語音朗讀功能。這項技術能將書面文字轉換為自然、流暢的人聲,讓使用者可以「聽」故事,特別適合親子共讀的場景。使用者甚至可以選擇不同的語音聲調,增添聆聽的樂趣。

整合運作流程:

整個個人化插圖故事書的創建流程可以簡化為以下幾個步驟:

  1. 使用者輸入指令: 使用者在 Gemini 應用程式中,以自然語言描述想要創作的故事主題、角色、情節等。
  2. Gemini 生成文本與圖像提示: Gemini 的大型語言模型根據使用者指令,創作出 10 頁的故事文本,並為每一頁生成對應的圖像生成提示。
  3. 圖像模型繪製插圖: 圖像生成模型接收到提示後,為每一頁故事繪製出符合風格與內容的插圖。
  4. TTS 產生語音: 文字轉語音模型將故事文本轉換為語音檔案。
  5. 整合呈現: Gemini 應用程式將生成的文本、插圖和語音整合在一起,以一本完整的數位故事書形式呈現給使用者。

總而言之,Gemini 的個人化插圖故事書功能,是 Google 在生成式 AI 領域技術實力的一次綜合展現。它巧妙地將大型語言模型、文生圖模型以及文字轉語音技術無縫結合,為使用者提供了一個既簡單又富有創意的工具,將天馬行空的想法轉化為獨一無二的數位藝術品。

留言
avatar-img
Hank吳的沙龍
17會員
161內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/08/06
來深入解析一下「真實世界程式設計基準測試 SWE-bench」。 簡單來說,SWE-bench 是一個專門用來評估大型語言模型(LLM)解決真實世界軟體工程問題能力的黃金標準。它跳脫了傳統上讓 AI 解答單一、封閉的程式挑戰(例如「寫一個排序函數」),而是直接將 AI 丟入一個模擬真實軟體工程師工
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
梅花易數與《周易》使用相同的六十四個卦象,這些卦象是由八個基本卦(經卦)兩兩相疊而成。每個卦象都由一個「上卦」(或稱外卦)和一個「下卦」(或稱內卦)組成,其組合變化揭示了宇宙萬物運行發展的規律。 以下是梅花易數所使用的六十四卦及其卦象結構,依照《周易》的通行順序排列
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
2025/07/31
你是不是覺得,現在的AI工具雖然厲害,但還是要你一步步下指令呢?🤔 沒關係,有個超酷的新夥伴出現了,那就是『AI Agent』。 簡單來說,AI Agent 就像是你的「智慧代理人」,你只要給它一個大目標,它就能自己去規劃、執行、甚至找工具來完成任務,整個過程完全不用你操心。
看更多
你可能也想看
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
Thumbnail
讓「Gamma」幫你做簡報,還可以幫你整理簡報大綱,簡報排版美化!靈感激盪跟簡報製作就靠它了!
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
Gamma是可以使用AI在幾秒鐘內創建精美的文件,簡報和網頁。他可以快速幫你針對主題生成簡報大綱並且幫你快速產生排版美麗的簡報。
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
Google 提供了免費的雲端服務 Google Apps Script (GAS) ,我們可以撰寫一些簡易的程式APP,串接其他 Google 雲端服務 如 Google Docs ,Sheets …,就能夠幫助我們利用雲端硬碟做日常工作
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
Gemini Pro 1.0 和 Gemini Pro 1.5 都是強大的工具,但它們適用於不同的需求並提供不同的功能。以下是它們的主要區別: 模態性 Gemini Pro 1.0 主要基於文字,對圖片和視頻的支持有限(1.0-pro-vision)。 Gemini Pro 1.5 真正的多模
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
近日,Google Chrome 發佈最新版本,新版瀏覽器多了「與 Gemini 對話」,在網址列輸入「@」可以選擇與 Gemini 對話,接著輸入對話指令即可傳送至 Gemini 聊天服務並獲得回覆。
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
Thumbnail
你有幾個 Google 帳號?Google 提供許多免費的應用程式,包括大家最常使用的地圖、YouTube、 email、日曆、Meet、Gemini、雲端硬碟、翻譯、文件、Google表單…等,如果你還沒有申請過 Google 帳號,請 抽空到此申請,免費體驗各種功能豐富的應用程式。 下圖右邊都
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News