【資料處理神器區 - Pytube系列】 蒐集情報讓數據會說話

更新 發佈
vocus|新世代的創作平台

這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資訊再來決策下一步…。

而針對youtube影音平台的情境底下, 「pytube」就是偵查隊的最佳武器, 它不僅能夠蒐集基本資訊(長度、熱度、頻道數量、評分…), 也能夠抓取影片或者音訊, 非常的方便好用。

那我們今天就來表演一下這套神器的使用方式, 預計抓取的資訊有音檔長度、發布日期、評分、多少人看過,這些資訊背後都隱藏著驚人的秘密...。

安裝


!pip install pytube


引入套件庫並設定目標連結

ℹ️ 這裡的 ${影片網址} 請貼上目標的影片連結。

這個步驟是基本使用上的第一步, 提供網址讓「pytube」去自動抓取相關資訊, 這一步並沒有實際進行下載, 因此網路傳輸的耗費並不大, 主要用來蒐集情資使用。


from pytube import YouTube

yt = YouTube('${影片網址}')


哪些資訊可以偵查?


# 標題
print(f'標題: {yt.title}')

# 作者
print(f'作者: {yt.author}')

# 頻道識別碼
print(f'頻道識別碼: {yt.channel_id}')

# 影片的描述
print(f'影片的描述: {yt.description}')

# 影片的關鍵字
print(f'影片的關鍵字: {yt.keywords}')

# 影片的長度()
print(f'影片的長度: {yt.length} 秒')

# 發布日期
print(f'發布日期: {yt.publish_date}')

# 評分
print(f'評分: {yt.rating}')

# 多少個人瀏覽過
print(f'多少人看過: {yt.views}')py
vocus|新世代的創作平台


有了這些資訊我們可以做什麼? 就讓我列出幾個可能的方向供您思考:

  • 長度介於多少範圍的影音檔分析。
  • 瀏覽數量分析。
  • 評分高低分析。
  • 日期區間分析。

P.S 年份較舊的影片可能缺少關鍵字、評分...等資訊, 畢竟早期也還沒規劃大數據的應用...。

可以怎麼統計分析?

我們可以藉由另一套神器pandas來進行..., 底下提供幾個學習資源包, 可以建立基本概念後配合動手實作加深印象:

上面的教學讀完了嗎? 接下來會教您如何結合pytube + pandas來構建屬於自己的影音分析系統、高品質語料庫爬蟲系統..., 這些實戰我們也會放在會員專屬文章區, 歡迎支持一下付費專欄, 讓我們更有動力分享關於軟體科技的武功心法:

🔥 阿Han的軟體心法實戰營

今天的範例都在這裡「📦 pytube_quickstart.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花?」。

結語

初步認識到pytube的功能之後, 我們就可以統計分析決定目標群, 甚至打造屬於AI訓練的爬蟲系統, 或者結合推薦系統建立個人 + 商業化的影音推播系統..., 非常的靈活, 重點在於我們會不會使用工具, 如何讓工具變成武器, 因此有個領路人可以讓您少走點彎路, 不妨花個銅板費購買一下實戰專欄, 讓您創造出各種創新的應用, 甚至能夠成立公司開發產品。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入?

歡迎加入一起練習寫作,賺取知識

留言
avatar-img
阿Han的沙龍
161會員
332內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/01/29
🤔 簡單且靜態就足夠了? 相信我們在開發Python應用程式的過程中, 常常會借用Enum來定義我們可能的選項, 就像顏色紅、綠、黃會有這樣的結構: class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel
Thumbnail
2025/01/29
🤔 簡單且靜態就足夠了? 相信我們在開發Python應用程式的過程中, 常常會借用Enum來定義我們可能的選項, 就像顏色紅、綠、黃會有這樣的結構: class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel
Thumbnail
2025/01/08
當我們的系統發展到一定程度時, 難免會面臨到正式上線的問題, 要如何讓維運更加簡易呢? 尤其隨著複雜的客製化配置的出現時, 我們應該如何有效的管理, 甚至驗證配置是否如預期資料型態、格式…, 而正好 pydantic 可以滿足這樣的需求, 就讓我們來看看怎麼使用吧! 需安裝的套件 pip i
Thumbnail
2025/01/08
當我們的系統發展到一定程度時, 難免會面臨到正式上線的問題, 要如何讓維運更加簡易呢? 尤其隨著複雜的客製化配置的出現時, 我們應該如何有效的管理, 甚至驗證配置是否如預期資料型態、格式…, 而正好 pydantic 可以滿足這樣的需求, 就讓我們來看看怎麼使用吧! 需安裝的套件 pip i
Thumbnail
2025/01/02
要如何使用unicorn啟動多個FastAPI服務, 歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。 當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期
Thumbnail
2025/01/02
要如何使用unicorn啟動多個FastAPI服務, 歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。 當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期
Thumbnail
看更多
你可能也想看
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
Thumbnail
【你只要懂資料,資料就會幫你】 EP01:穀倉效應、資料管理與治理 3/21 晚上八點半,Allen的共學計畫準時開播!
Thumbnail
【你只要懂資料,資料就會幫你】 EP01:穀倉效應、資料管理與治理 3/21 晚上八點半,Allen的共學計畫準時開播!
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
這是我看完「TPG 週刊 Issue 44 - 為了收集第一方數據跑去做電視機」這篇文章(有興趣的朋友請前往)的心得。
Thumbnail
這是我看完「TPG 週刊 Issue 44 - 為了收集第一方數據跑去做電視機」這篇文章(有興趣的朋友請前往)的心得。
Thumbnail
這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資
Thumbnail
這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News