「文字與資料探勘」(TDM)是什麼?

更新 發佈閱讀 3 分鐘

文字與資料探勘(Text and Data Mining,TDM)是指自動化分析大量的資料,以識別出其中的模式或規律,以萃取出有價值的資訊。TDM 結合了自然語言處理(NLP)、機器學習(ML)、統計分析等技術,能夠處理和分析大量的非結構化數據,以發現隱藏的趨勢、模式和關聯性。從學術研究到商業情報,從公共政策分析到市場趨勢預測,TDM 的應用範圍廣泛,其重要性不言而喻。

vocus|新世代的創作平台

Image: DALL·E

然而,在資料探勘的執行過程中,往往需要處理和分析受著作權保護的內容。依照大部分國家的著作權法,未經著作權人同意,重製或散佈受著作權保護的內容是違法的。而資料探勘過程中常需要將著作權人的創作在電腦中建立臨時的副本,甚至會自動產生新的衍生內容,這些步驟都可能被視為侵犯著作權。

為了確保此種資料探勘不會侵犯著作權,一些國家在著作權法中引入 TDM 例外條款。例如歐盟在 2019 年通過的《數位單一市場著作權指令》,允許研究機構等非營利組織為了資料探勘的目的而重製受保護的作品,然而若資料探勘是為了商業活動,則著作權人可以拒絕作品被使用。相較之下,日本的 TDM 例外條款就更為全面,只要不利用原作者的表達方式,允許研究者可以以任何目的進行 TDM,甚至直接複製有著作權的作品並擷取其中的知識。1

美國則較為不同,是以合理使用(Fair Use)原則來保護 TDM,也運作得還算良好。例如 Google 在 Google Book Search (GBS)計畫中,將合作圖書館的上百萬本紙本書籍進行掃描及數位化,供學術研究尋找資料之用。而作為交換,圖書館則可以獲得這些書籍的數位檔案。這雖然是明顯的複製了有著作權的內容,但被法官認為是對社會有益的合理使用。

然而,即使有例外條款,在實際運作 TDM 時仍有許多障礙,例如:

  • 作品可能被數位版權管理(Digital Rights Management)技術所保護
  • 仍有可能侵犯資料庫(database)的特別權(sui generis)
  • 必須遵守個人隱私或是資安的相關法規

隨著人工智慧和大數據分析的重要性不斷提升,文字與資料探勘將在更多領域發揮舉足輕重的作用。若能營造一個有利技術發展的法律框架,才可讓新興技術發揮潛力,創造更多有價值的貢獻。

留言
avatar-img
IP聊天室
9會員
180內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/03/13
攝影著作權有著曲折而漫長的歷史。從最初被視為無法受到保護,到現今獲得與其他藝術作品相同的法律地位,攝影著作權的發展過程反映了社會對攝影的認知演變,以及立法者因應新興技術所做出的回應。 攝影誕生之初:被視為機械複製品 1826 年,法國發明家尼埃普斯(Nicéphore Niépce)在錫板上製作
Thumbnail
2024/03/13
攝影著作權有著曲折而漫長的歷史。從最初被視為無法受到保護,到現今獲得與其他藝術作品相同的法律地位,攝影著作權的發展過程反映了社會對攝影的認知演變,以及立法者因應新興技術所做出的回應。 攝影誕生之初:被視為機械複製品 1826 年,法國發明家尼埃普斯(Nicéphore Niépce)在錫板上製作
Thumbnail
2024/03/08
音樂網站「MP3.com」是音樂產業在網路泡沫時期的重大事件之一。創辦人 Michael Robertson 和 Greg Flores 原本只是想利用 MP3.com 這個網域名稱,為自己的檔案搜索網站 filez.com 吸引更多流量1。但 MP3.com 在 1997 年上線後,意外吸引了大量
Thumbnail
2024/03/08
音樂網站「MP3.com」是音樂產業在網路泡沫時期的重大事件之一。創辦人 Michael Robertson 和 Greg Flores 原本只是想利用 MP3.com 這個網域名稱,為自己的檔案搜索網站 filez.com 吸引更多流量1。但 MP3.com 在 1997 年上線後,意外吸引了大量
Thumbnail
2024/03/08
著作權法旨在保護文學、藝術和科學作品,而原創性(originality)是著作權保護的核心概念之一,指的是作品必須源於作者的創意,而非抄襲他人的成果。 Photo credit: Hgantunez (wikimedia) 在不同的法律體系和文化背景下,著作權的保護標準有所不同。國家間則透過
Thumbnail
2024/03/08
著作權法旨在保護文學、藝術和科學作品,而原創性(originality)是著作權保護的核心概念之一,指的是作品必須源於作者的創意,而非抄襲他人的成果。 Photo credit: Hgantunez (wikimedia) 在不同的法律體系和文化背景下,著作權的保護標準有所不同。國家間則透過
Thumbnail
看更多
你可能也想看
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News