透過Python分析線上學習討論區文本-找出熱門文章

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台

大家好,今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,其實最繁瑣的功夫都下在了資料的預處理上,剩下的部分都是找演算法,交給電腦放肆奔跑的過程了。

這次採用資料集是鏗鏗老師的學會學課程,抓取了2017~2021中課程各章節的討論區資料,保留了2021其中一個學期的資料做為Validation set,先給各位看一下目前的資料狀態。

vocus|新世代的創作平台

發現message中的資料長得很醜,裡面有很多透過爬蟲取得的html標籤,待會會將文本進行處理,我們先將是否為熱門文章的標籤新增上去。

vocus|新世代的創作平台

經過簡單計算發現瀏覽數的平均數為34,標準差44;留言數平均數則是0.4,標準差為0.99,我選擇了大於平均值兩倍標準差做為熱門文章的根據,插入[hit]欄位並根據上述方式訂下標籤內容。

vocus|新世代的創作平台

透過上述程式碼可以輕鬆的移除html標籤,也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。

vocus|新世代的創作平台

上面的程式碼不只有斷詞,一開始還有進行除去停止詞的動作,可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案,並在檔案內用分行的方式新增停止詞如:我、妳、他、在、不、Youtube等等,在迴圈中會自動將這些字詞移除,透過上述資料處理的過程,我們得出最後的資料型態如下

vocus|新世代的創作平台

接著透過TF-IDF將文本內容轉換為字頻數值,並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。

vocus|新世代的創作平台
vocus|新世代的創作平台

結論,發現兩種演算法預測準確度都超過90%(灑花),但其實仔細查看資料會發現,絕大部的資料都是不會成為熱門文章的,即使電腦全都預測成非熱門文章,也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度,又遇到了資料不平衡的問題,而關於文本的oversampling也有許多辦法,未來文章也會提及相關作法。

喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!





留言
avatar-img
炯男孩的沙龍
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
炯男孩的沙龍的其他內容
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
這陣子除了偶爾的即時精選成為日常外,某些文章也成功達到流量爆發、被選入編輯嚴選、被媒體轉載等等成就,通通舉出來分析分析。 流量第一名的文章 是這篇:有氧運動減肥的弊端以及練腹肌的有效思路
Thumbnail
這陣子除了偶爾的即時精選成為日常外,某些文章也成功達到流量爆發、被選入編輯嚴選、被媒體轉載等等成就,通通舉出來分析分析。 流量第一名的文章 是這篇:有氧運動減肥的弊端以及練腹肌的有效思路
Thumbnail
這不是「大家來找碴」遊戲。 看到這種內容,我當下腦中的警報就嗡嗡作響。 為了怕我的金魚腦在3分鐘後,就會把這麼重要的事情給忘掉,我只好當場就請作者來詢問幾個問題…
Thumbnail
這不是「大家來找碴」遊戲。 看到這種內容,我當下腦中的警報就嗡嗡作響。 為了怕我的金魚腦在3分鐘後,就會把這麼重要的事情給忘掉,我只好當場就請作者來詢問幾個問題…
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。
Thumbnail
本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
我們都知道大數據、演算法非常厲害,懂得掌握跟運用數據的人可以說是這個時代的狠角色。數據不僅可以用來分析我們的喜好,沒想到它竟然也可以找出名作家隱藏在作品中的小習慣,以及挖掘出暢銷書的不敗公式!⠀
Thumbnail
我們都知道大數據、演算法非常厲害,懂得掌握跟運用數據的人可以說是這個時代的狠角色。數據不僅可以用來分析我們的喜好,沒想到它竟然也可以找出名作家隱藏在作品中的小習慣,以及挖掘出暢銷書的不敗公式!⠀
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,透過文本探勘預測哪些文本會成為熱門文章。
Thumbnail
今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,透過文本探勘預測哪些文本會成為熱門文章。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News