如何「禁止 AI 模型」爬取您網站的內容進行 AI 訓練?

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台

如果你想要「禁止 AI 模型」爬取您網站的內容進行 AI 訓練


那就可以參考 threads 的 robots.txt 檔案


robots.txt 是一個放在網站根目錄的檔案


大多數的合法爬蟲,都會尊重網站所寫的規定


可以看到,threads 平台禁止了多數 AI 模型的專用爬蟲,


因為對 threads 來說,創作者們的內容,就是平台的最大資產,


threads 不擋搜尋引擎爬蟲,但擋了 AI 模型訓練爬蟲,


這兩種爬蟲是分開的。


因為搜尋引擎可以帶來流量,模型訓練爬蟲則沒什麼益處


以下介紹圖中各個「爬蟲名稱」的意思:


(1) Applebot-Extended


用於訓練 Apple 的基礎 LLM 模型,為 Apple 產品(包括 Apple Intelligence、服務和開發人員工具)的生成式 AI 功能提供支援。


(2) ClaudeBot


是 Anthropic 公司開發的語言模型 Claude,此項爬蟲可能會用於從網絡中獲取數據進行模型訓練。


(3) Google-Extended


是 Google 的爬蟲之一,專門為 AI 模型和機器學習的額外數據收集目的設計。這與傳統的 Googlebot 不同,它專用於訓練 AI 模型。


谷歌在一篇部落格文章中表示:


「今天我們宣布推出 Google-Extended,這是一種新的控制方式,網路出版商透過使用 Google-Extended 來控制爬蟲對網站內容的訪問,來管理其網站是否願意助於改進 Bard 和 Vertex AI 生成API,包括這些產品的未來幾代模型。Google-Extended 不會影響網站在 Google 搜尋中的收錄或排名。」


所以你可以阻擋 Google-Extended,但千萬別阻擋 Googlebot


擋了 Googlebot 你的內容就不會再被 Google 索引了。


(4) GPTBot


是 OpenAI 的爬蟲,專門用於為 GPT 模型(如 GPT-4)收集數據。OpenAI 承認 GPTBot 會爬取公開的網頁以幫助改進其語言模型。


(5) PetalBot


是由華為(Huawei)的搜索引擎 Petal Search 使用的爬蟲。它與全球搜索引擎類似,爬取網站用於搜索引擎索引,但同樣可能用於 AI 數據集構建。


(6) Viberbot


是 Viber(通訊應用)的爬蟲,可能用於與其聊天機器人、智能搜索和其他服務相關的數據采集。


(7) Yandex


是俄羅斯最大的搜索引擎。它的爬蟲類似於 Googlebot,負責爬取網頁以進行搜索引擎索引,同時也可能用於 Yandex 的 AI 和數據分析相關項目。


歡迎追蹤,一起累積行銷知識 #創業學行銷

留言
avatar-img
極致數位行銷的沙龍
6會員
129內容數
與您分享台灣行銷代理商的真實日常&行銷知識 - 「用心服務每位客戶,滿足客戶所有客製化行銷需求,我們的服務理念。」 業界17年專業數位行銷公司,有別於市面行銷公司,我們不做外包廠商,要做「專屬於您品牌」的兼職行銷團隊! 專營「品牌知名塑造、數位廣告操盤、社群內容經營、數據分析追蹤、Martech科技行銷」
2025/04/02
在做數據分析時,基本的原則是 「將好的流量放大,不好的流量減少」 這個觀念很多人都懂 但操作時,很多人會犯下一個錯誤 就是 「短期行銷」和「長期行銷」,沒有分開規劃 短期行銷,例如「廣告行銷」 長期行銷,例如「內容行銷」 例如,很多人常看到「廣告行銷」的成效比較好
2025/04/02
在做數據分析時,基本的原則是 「將好的流量放大,不好的流量減少」 這個觀念很多人都懂 但操作時,很多人會犯下一個錯誤 就是 「短期行銷」和「長期行銷」,沒有分開規劃 短期行銷,例如「廣告行銷」 長期行銷,例如「內容行銷」 例如,很多人常看到「廣告行銷」的成效比較好
2025/03/26
新手學習 SEO 優化,一定要均衡發展 因為過去遇過太多新人,學了一些偏方, 發現有效後,就全部文章 All-In 例如: 塞關鍵字、CSS隱藏、購買外鏈、內容抄襲換字、AI生成 機器人點擊操縱、頻繁更新日期、內容拼湊、複製網站 .... 這些偏方,有沒有效? 當然有效,很多我
2025/03/26
新手學習 SEO 優化,一定要均衡發展 因為過去遇過太多新人,學了一些偏方, 發現有效後,就全部文章 All-In 例如: 塞關鍵字、CSS隱藏、購買外鏈、內容抄襲換字、AI生成 機器人點擊操縱、頻繁更新日期、內容拼湊、複製網站 .... 這些偏方,有沒有效? 當然有效,很多我
2025/03/19
FB廣告知識 廣泛投放,其實有兩種 🔰 (1)「高效速成受眾」下的廣投 🔰 (2)「原始受眾選項」下的廣投 所謂的廣投,指的是,完全不設定受眾細節 直接交給演算法,自動尋找受眾 以上兩種,都屬於廣投,差別在哪呢? 差別再於「既有受眾訊號」利用程度不同 如果
2025/03/19
FB廣告知識 廣泛投放,其實有兩種 🔰 (1)「高效速成受眾」下的廣投 🔰 (2)「原始受眾選項」下的廣投 所謂的廣投,指的是,完全不設定受眾細節 直接交給演算法,自動尋找受眾 以上兩種,都屬於廣投,差別在哪呢? 差別再於「既有受眾訊號」利用程度不同 如果
看更多
你可能也想看
Thumbnail
大家好! 在使用人工智能的時候,他們總是有許多使用條款,包含蒐集信息,蒐集資料,資料不確定性,當然還有這次的主角,審查內容。 照理來說,與一個人工智能客戶端進行對話是沒有甚麼法律限制的,因為他是一個機器,我並不會因為對它說什麼而被起訴,或是因為在與他的對話中提到貶低某某人的負面內容而被起訴
Thumbnail
大家好! 在使用人工智能的時候,他們總是有許多使用條款,包含蒐集信息,蒐集資料,資料不確定性,當然還有這次的主角,審查內容。 照理來說,與一個人工智能客戶端進行對話是沒有甚麼法律限制的,因為他是一個機器,我並不會因為對它說什麼而被起訴,或是因為在與他的對話中提到貶低某某人的負面內容而被起訴
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
Browse AI 是一個能自動爬取、擷錄指定網站內容的 NoCode AI 工具!可以建立多個爬蟲機器人,在指定網站擷取特定資料並定期更新,還能自動彙整至 Google Sheets 或 Airtable 等資料庫中,省下手動複製、整理網站資訊的作業時間!不寫 Code 也能輕鬆建立爬蟲機器人!
Thumbnail
Browse AI 是一個能自動爬取、擷錄指定網站內容的 NoCode AI 工具!可以建立多個爬蟲機器人,在指定網站擷取特定資料並定期更新,還能自動彙整至 Google Sheets 或 Airtable 等資料庫中,省下手動複製、整理網站資訊的作業時間!不寫 Code 也能輕鬆建立爬蟲機器人!
Thumbnail
人工智慧的出現協助企業創造下一波的成長紅利,但是也導致資安上的諸多挑戰,本篇整理 Best Practices for Securely Deploying AI on Google Cloud 和相關參考資料,希望藉由各種解決方案和最佳實踐,在使用人工智慧的同時也減少其帶來的安全性風險。
Thumbnail
人工智慧的出現協助企業創造下一波的成長紅利,但是也導致資安上的諸多挑戰,本篇整理 Best Practices for Securely Deploying AI on Google Cloud 和相關參考資料,希望藉由各種解決方案和最佳實踐,在使用人工智慧的同時也減少其帶來的安全性風險。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
《紐約時報》控告微軟, 大量使用他們的報導文章去訓練AI, 他們宣稱這是侵權的非法行為。
Thumbnail
《紐約時報》控告微軟, 大量使用他們的報導文章去訓練AI, 他們宣稱這是侵權的非法行為。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
最近在一封公開信中包括伊隆·馬斯克在內的多名科技界領袖和研究人員警告,要求各人工智慧實驗室暫停AI的開發。為什麼呢? 其實多數人並不瞭解AI,甚至許多研究者本身,對AI的瞭解都不夠透徹。AI是以模擬生物腦為出發點所開發出來的系統,從ChatGPT最近的應用中,已經明顯的展現其不可控的部份,並且…
Thumbnail
最近在一封公開信中包括伊隆·馬斯克在內的多名科技界領袖和研究人員警告,要求各人工智慧實驗室暫停AI的開發。為什麼呢? 其實多數人並不瞭解AI,甚至許多研究者本身,對AI的瞭解都不夠透徹。AI是以模擬生物腦為出發點所開發出來的系統,從ChatGPT最近的應用中,已經明顯的展現其不可控的部份,並且…
Thumbnail
相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。 那你有想過每天在網路上發佈的資料,到底會被誰偷偷看到,甚至拿去做AI模型的深度訓練嗎?!
Thumbnail
相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。 那你有想過每天在網路上發佈的資料,到底會被誰偷偷看到,甚至拿去做AI模型的深度訓練嗎?!
Thumbnail
AI Text Classifier是被開發來用於偵測AI文本的工具。為了避免被偵測出用過ChatGPT,本文將測試五種不同的改寫工具,結果發現其中三種不同的免費網路工具,可以簡單改寫ChatGPT內容,並且改寫後的內容將不易被AI Text Classifier判定為AI文本。
Thumbnail
AI Text Classifier是被開發來用於偵測AI文本的工具。為了避免被偵測出用過ChatGPT,本文將測試五種不同的改寫工具,結果發現其中三種不同的免費網路工具,可以簡單改寫ChatGPT內容,並且改寫後的內容將不易被AI Text Classifier判定為AI文本。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News