跳至內容

是否需要屏蔽AI Bot 來抓取自己網站的數據

更新時間
快连VPN:速度和安全性最佳的VPN服务
快连VPN:速度和安全性最佳的VPN服务

大家應該都知道,生成式AI是通過對大量數據進行學習和訓練,從而具備內容生成能力(包括文字,圖片,音頻和視頻)的機器學習模型,而這裏的“大量數據”就包括我們的網站上的內容。

而隨着各大公司推出自家的生成式AI後,很多站長可能會考慮的一個問題是:是否需要屏蔽AI Bot 來抓取自己網站的數據?

在回答這個問題之前,我們先來看一組數據(截止至2023年9月22日),網絡上Top 1000 網站是如何應對這個問題的:

  •  Top 1000 站點中,25.9%的網站屏蔽了 GPTBot
  •  其中非常知名的站點有 Pinterest,Amazon,Quora & Indeed
  • 大部分的大型媒體/新聞站點都屏蔽了GPTBot,包括:NYTimes, TheGuardian, CNN, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC, ESPN

而如下圖是從2023.8月份至今,Top 1000 站點中屏蔽了 AI Bot 的網站數量,總體呈上升趨勢。

數據來源:Originality.ai

Top 1000 網站列表:https://dataforseo.com/free-seo-stats/top-1000-websites

我的網站是否應該屏蔽 AI Bot?

NO!至少對於絕大多數的品牌站和個人站來說,沒必要!

那你可能會問,爲什麼這麼多的大型網站要屏蔽AI Bot呢?我們認爲,主要有三個原因:

1、屏蔽AI Bot 的這些大型網站多是屬於大型資訊站或知識類站點,從網站屬性的角度考慮,他們希望用戶進入到自己的網站來瀏覽內容,而不是被生成式AI的生成內容搶走流量

2、這些大型網站並未從產商處獲取到實際的利益

3、不想爲各大廠商提供免費的數據來訓練AI模型

爲什麼品牌站和個人站沒必要屏蔽AI Bot?

對於品牌站和個人站而言,我們的目標是獲取有效流量,最終促成轉化。

隨着各種生成式AI工具的功能迭代,以及其產商也必須考慮如何激勵網站產出更多高質量的內容爲其所用,因此很多生成式AI工具都會在其結果中標註或推薦內容來源頁面,以便用戶可以進入該頁面做更進一步的調研,同時爲這些來源頁面背書。

比如Google Bard

比如ChatGPT

比如 Bing Chat

比如Google SGE

從本質上來講,生成式AI能夠成爲我們的網站獲取更多流量的新渠道。

所以,我們需要研究的是,如何能夠讓自己的內容更有可能出現在生成式AI結果中,被其引用。

與其恐懼變化,不如擁抱變化!

而且,隨着生成式AI的越來越成熟,一定會有越來越多的工具會應用這些流行的機器學習模型,甚至直接調用它們的接口,應用在不同的垂直領域而大放異彩。

同時,這也意味着,不屏蔽AI Bot抓取網站,能讓我們的內容有更大的可能出現在更多的陣地上!

如何屏蔽 AI Bot

當然,如果出於一些特別的考慮,你還是決定在自己的網站上屏蔽 AI Bot,也是有解決辦法的。

由於AI Bot是會遵循網站 Robots.txt文件中的指令,來確定是否抓取網站中的數據,所以我們通過在Robots.txt文件中增加相應的 Disallow 命令來屏蔽AI Bot代理。

目前比較流行的AI Bot主要爲 ChatGPT,Google Bard和 Claude,所以我們在此僅對如上三個AI Bot來示例如何屏蔽抓取。屏蔽ChatGPT的抓取

User-agent: GPTBot

Disallow: /

User-agent: ChatGPT-User

Disallow: /屏蔽 Google Bard的抓取

User-agent: Google-Extended

Disallow: /
Note: 如上指令會同時屏蔽 Google Bard 和 Vertex AI的抓取,Vertex AI 是Google 的機器學習平臺,用於構建和部署基於人工智能的生成式搜索和聊天應用程序。

另外,屏蔽Google-Extended 這個代理並不包括Google SGE,因爲Google SGE是Google Search的一部分,想要屏蔽Google SGE的話,必須得把 Googlebot 這個代理屏蔽掉(強烈建議不要屏蔽,這會導致整個網站不被Google抓取)。屏蔽 Claude的抓取

User-agent: Claude-Web

Disallow: /

當然,如果你想同時屏蔽如上三個AI Bot 的話,把上述代碼全部粘貼至網站Robots.txt文件中即可

更新時間

發表留言

請注意,留言須先通過審核才能發佈。