AI說書 - 從0開始 - 541 | VideotoText 之 Meta TimeSformer 實現 (影片下載)

更新 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Meta TimeSformer 是一種基於 Transformer 的架構,專為視頻數據設計,它首先將視頻的每一幀轉換為特徵序列,這些特徵序列能夠捕捉畫面中的空間訊息,接著,這些特徵被傳遞到解碼器堆疊,通過模型的多層結構來建模幀與幀之間的時序關係,最後,模型輸出的是原始的 Logits,即對不同標籤的信心分數,這些分數可以通過 Softmax 等技術轉化為具體的分類標籤。TimeSformer 的這種處理方法特別適合用於分析視頻中的動作和場景,其結合空間和時間特徵的能力使其在視頻分類、動作識別等任務中表現出色。


TimeSformer 使用 PyAv 庫將視頻解碼為 NumPy 陣列,此 NumPy 陣列以視頻播放順序保存每一幀的數據,取樣率和內容長度決定了解碼出的幀數,TimeSformer 依據這些取樣幀的序列進行預測。接下來,我們將使用 TimeSformer 模型的輸出作為輸入,結合 Stability AI 的 Stable Diffusion 進行「標籤到圖像」任務,目標是探索如何利用擴散模型來增強標籤預測或完成其他相關任務。


首先安裝相關配件包:

!pip install transformers
!pip install av
from IPython.display import HTML
from base64 import b64encode
from huggingface_hub import hf_hub_download


接著從 HuggingFace 下載影片,並讀取:

file_path = hf_hub_download(repo_id = "nielsr/video-demo", filename = "eating_spaghetti.mp4", repo_type = "dataset")
with open(file_path, 'rb') as f:
video_data = f.read()

HTML("""
""".format(b64encode(video_data).decode()))
留言
avatar-img
Learn AI 不 BI
248會員
1.2K內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2025/10/31
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: p = pipeline('text-to-video-synthesis', 'da
2025/10/31
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: p = pipeline('text-to-video-synthesis', 'da
2025/10/30
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: !pip install modelscope == 1.4.2 !pip inst
2025/10/30
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: !pip install modelscope == 1.4.2 !pip inst
2025/10/29
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們現在定義動畫的開始圖像和結束圖像的文本: animation_prompts = {0: "a photo of a fantastic spaceship",
Thumbnail
2025/10/29
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們現在定義動畫的開始圖像和結束圖像的文本: animation_prompts = {0: "a photo of a fantastic spaceship",
Thumbnail
看更多
你可能也想看
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
這場講座將帶領你逐步入門生成式AI,從認識AI到實際應用,包含五大提問技巧、圖像生成實戰、工作流應用案例、真實經驗分享以及講師自身的轉變經驗,讓你輕鬆學會使用AI提升生活和工作效率。
Thumbnail
這場講座將帶領你逐步入門生成式AI,從認識AI到實際應用,包含五大提問技巧、圖像生成實戰、工作流應用案例、真實經驗分享以及講師自身的轉變經驗,讓你輕鬆學會使用AI提升生活和工作效率。
Thumbnail
善用SCENE模型,提升AI回覆的創意和專業度!SCENE模型包含五個元素:Story(場景設定)、Context(背景資訊)、Expert(專業角色)、Need(具體需求)、Emotion(情感元素)。透過設定這些元素,讓AI更瞭解你的需求,產生更貼近你預期的結果。
Thumbnail
善用SCENE模型,提升AI回覆的創意和專業度!SCENE模型包含五個元素:Story(場景設定)、Context(背景資訊)、Expert(專業角色)、Need(具體需求)、Emotion(情感元素)。透過設定這些元素,讓AI更瞭解你的需求,產生更貼近你預期的結果。
Thumbnail
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
你是否覺得與 AI 對話總是辭不達意?本文將分享一套「科技通靈」的實踐儀式,拆解四個關鍵步驟,教你如何超越單純的提示詞詠唱。這不只是一篇教學,而是一場心態的轉變,引導你從操作者蛻變為能與 AI 共同創造、真正「賦靈」的數位鍊金術士。
Thumbnail
你是否覺得與 AI 對話總是辭不達意?本文將分享一套「科技通靈」的實踐儀式,拆解四個關鍵步驟,教你如何超越單純的提示詞詠唱。這不只是一篇教學,而是一場心態的轉變,引導你從操作者蛻變為能與 AI 共同創造、真正「賦靈」的數位鍊金術士。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
利用 Stable Diffusion 每日免費的十個 Credits 練習 AI 繪圖詠唱 (Prompt Engineering)
Thumbnail
利用 Stable Diffusion 每日免費的十個 Credits 練習 AI 繪圖詠唱 (Prompt Engineering)
Thumbnail
這篇文章整理了數個實用的Prompt資源網站,幫助讀者更有效率地與AI溝通,並提升AI工具的使用效率。文章內容包含Prompt庫的使用優點、網站介紹及功能特色,以及如何善用Prompt資源網站提升思考能力。
Thumbnail
這篇文章整理了數個實用的Prompt資源網站,幫助讀者更有效率地與AI溝通,並提升AI工具的使用效率。文章內容包含Prompt庫的使用優點、網站介紹及功能特色,以及如何善用Prompt資源網站提升思考能力。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
這份 AI 學習路線圖,從 Prompt Engineering 到全自動 AI 應用開發,循序漸進,適合各個背景的人學習。
Thumbnail
這份 AI 學習路線圖,從 Prompt Engineering 到全自動 AI 應用開發,循序漸進,適合各個背景的人學習。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News