🎬 Gemini 2.5:让视频“开口说话”的 AI 魔法

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台

TL;DR(重点摘要)

  • 视频理解新突破:Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。
  • 多模态融合:首次实现了原生多模态模型能够将音视频信息与代码等其他数据格式无缝结合。
  • 互动应用生成:能够将视频内容转化为互动式应用程序,如教育工具和动画演示。
  • 长视频处理能力:在低媒体分辨率设置下,Gemini 2.5 Pro 可处理长达 6 小时的视频内容,具备 200 万 token 的上下文窗口。
  • 可用性:Gemini 2.5 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。

🧠 Gemini 2.5 的视频理解能力

Gemini 2.5 Pro 在多个视频理解基准测试中取得了最先进的表现,超越了 GPT-4.1 等近期模型。此外,它在多个挑战性基准测试中表现出色,甚至与专门微调的模型相媲美。

该模型能够无缝地将音频、视觉和代码等多种数据格式结合,首次实现了原生多模态模型的融合能力。

vocus|新世代的創作平台



🧩 视频转化为互动应用

Gemini 2.5 Pro 解锁了将视频转化为互动应用的新可能性。例如,Google AI Studio 的 Video To Learning App 使用 Gemini 2.5 分析视频内容,并生成强化视频关键概念的学习应用程序。

该模型首先接收一个 YouTube 视频链接和一个文本提示,分析视频并创建详细的应用程序规格说明。然后,将规格说明发送回 Gemini 2.5 Pro,生成应用程序的代码。



🎨 使用 p5.js 从视频创建动画

Gemini 2.5 Pro 还支持从视频生成动态动画,开启了自动内容生成和视频摘要的新途径。例如,输入一个关于 Project Astra 的视频和提示“使用 p5.js 创建一个涵盖视频中不同地标的动画”,Gemini 2.5 Pro 会分析视频并生成相应的 p5.js 动画,按视频中的时间顺序可视化地标。


🔍 视频片段检索与描述

Gemini 2.5 Pro 擅长使用音视频线索识别视频中的特定片段,其准确率显著高于以往的视频处理系统。例如,在一段 10 分钟的 Google Cloud Next '25 开幕主题演讲视频中,它准确识别出 16 个与产品演示相关的独特片段。


🕒 时间推理能力

借助先进的片段检索能力,Gemini 2.5 Pro 还能够解决复杂的时间推理问题,如计数。例如,在 Project Astra 视频中,Gemini 成功地计算出主角使用手机的 17 次独立事件。


🛠️ 构建基于 Gemini 2.5 的视频应用

Gemini 2.5 Flash 和 Pro 的视频理解功能已在 Google AI Studio、Gemini API 和 Vertex AI 中上线。通过 Gemini API 和 Google AI Studio,支持处理 YouTube 视频,使开发者能够构建访问数十亿视频的应用程序。

Gemini API 现在提供了一个“低”媒体分辨率参数,使 Gemini 2.5 Pro 能够在 200 万 token 的上下文窗口下处理约 6 小时的视频内容。这为许多长视频理解用例提供了更具成本效益的设置,同时保持了竞争力的视频理解性能(例如,在 VideoMME 上的准确率为 84.7%,而标准设置为 85.2%)。


原文链接:Advancing the frontier of video understanding with Gemini 2.5

留言
avatar-img
Lai Chee Hong的沙龍
0會員
7內容數
Lai Chee Hong的沙龍的其他內容
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/08
探討AI藝術的起源、藝術家角色與技術融合,以及AI圖像是否構成藝術的定義,並展望AI技術在藝術創作中的未來發展。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/07
TikTok因違反歐盟數據隱私法規,被愛爾蘭數據保護委員會(DPC)處以5.3億歐元(約合6億美元)的罰款。主要違規行為包括未能確保將歐洲用戶數據傳輸至中國時的安全性,以及中國員工可遠程訪問歐洲用戶數據等。TikTok已表示將對此決定提出上訴,並強調已採取措施加強數據安全。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
2025/05/06
阿里巴巴推出Qwen 3系列AI模型,具有混合推理能力,支持119種語言,並以開源方式發布,將加劇中美AI競爭。
Thumbnail
看更多
你可能也想看
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
使用 Gemini AI 聊天服務時,點擊「設定>擴充功能」啟用「YouTube」功能,即可在對話中利用 @YouTube 指令尋找 YouTube 影片和詢問內容。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
Haiper AI 是一款免費的影片生成工具,是由 Google DeepMind 研究人員開發,只只需要輸入文字提示詞,就能生成各種場景的高質量的影片。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
基於大型語言模型的 AI 聊天服務可以協助完成多項工作,為了提升 AI 聊天的互動便利性,許多開發者打造了不同性質的擴充功能,Ask Screenshot for Gemini 就是一款能快速將網頁文字與截圖傳送至 Gemini 對話框的實用工具。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News