隨著生成式人工智慧(AI)改變內容呈現、抓取、摘要及營收化的方式,媒體行業中每天都有新的術語出現。這些新的詞彙在策略簡報、版權談判、研究報告和閉門會議中頻繁出現,讓出版商們在“零點擊流量”、“RAG代理”和 “模型內容協議” 等術語的洪流中艱困地摸索前進。

本文將深入解析 AI 媒體經濟學中的新興術語,說明這些術語的含義以及為何在當下如此重要。

按爬取付費(Pay-per-crawl)

聽起來像什麼: 一堂給幼兒準備的健身課程

實際意義: 一種正在興起的想法(也是一個談判策略),AI 公司會在每次機器人抓取出版商網站以攝取內容時支付出版商費用。這與版權授權合同中的一次性付款不同,而是針對每一數位位元收費。因此,每當大型語言模型抓取或重新抓取站點時,它都需要向出版商支付預先商定的金額。目前還不確定這種模式是否能大規模實施。

按查詢付費(Pay-per-query)

聽起來像什麼: 一種非常昂貴的 Google 習慣

實際意義: 這似乎是目前某些人最喜愛的 AI 收費概念。它是一種提出的模式,出版商在其內容驅動了 AI 生成的回答時獲得報酬。因此,並不是在抓取時獲得報酬,而是在使用時獲得。這的論點是一次抓取可以提供多次查詢結果,但出版商不會因此獲得報酬。

AI 代理人(AI agent)

聽起來像什麼: 一個擁有自己議程的機器助手

實際意義: 今年的熱門術語之一,這些機器人使用生成式 AI 技術,代表用戶完成任務。它們可以像虛擬助手一樣工作,是一種更為先進的 AI 機器人(有時可互換使用,但“機器人”通常完成較簡單的對話格式任務,通常是對提示進行腳本化的回應),能夠獨立行動。它們可以在用戶的要求下購買雜貨和預訂餐廳。

AI 使用者代理(AI user agent)

聽起來像什麼: 虛擬世界中的一個化身

實際意義: 此術語通常與“AI 代理人”互換使用,但 AI 使用者代理專指代表用戶與線上內容互動。舉例來說,一名用戶可以要求 AI 系統,“什麼是 Google Zero?”然後系統會讓 AI 使用者代理去獲取這些資訊,爬取類似 Digiday 的網站取得信息,然後 AI 系統將根據這些資訊生成一個回應給用戶。

RAG 代理人(RAG agent)

聽起來像什麼: 一個兼職事實核查員的間諜

實際意義: 網絡上有許多不同類型的機器人正在進行信息爬取,RAG 代理人是其中之一。RAG 是檢索增強生成的縮寫——這是一種技術流程,把從內容中提取的信息提供給大型語言模型(LLM),以提高其輸出的質量。

訓練數據爬蟲(Training data crawler)

聽起來像什麼: 一個永遠不睡覺的內容飢渴機器人。

實際意義: 與 RAG 代理人不同,此類型的 AI 機器人是為訓練 LLM,例如 Meta 的 Llama 或 OpenAI 的 GPT 而收集數據。這些機器人會在網路上爬取並下載內容,以建立大型數據集來教會 LLM 如何生成問題的回應。

一些科技公司會將用來訓練 AI 模型的網絡爬蟲與抓取即時資訊的機器人分開,這樣出版商就可以封鎖這些機器人。但有些公司,例如 Google,則不會這樣做。

例如,Google-Extended 是 Google 用來爬行互聯網以訓練 AI 模型的機器人。這可以透過 robots.txt 來封鎖。與此同時,Googlebot 則會抓取網站進行搜尋索引,並用以驅動其 AI 聊天機器人 Gemini 的即時結果,以及其搜索結果中的 AI 簡介。這對於出版商來說是一個真正的難題,他們無法阻止機器人並保護自己的內容不被用於訓練 Google 的 AI 產品,否則就得退出搜索結果。

RAG 機器人抓取活動在今年超越了訓練機器人的抓取活動,這是根據 TollBit 的一份報告說明的。TollBit 是一個為出版商和 AI 公司提供的數據市場。

TollBit 聯合創始人兼 CEO Toshit Panigrahi 表示:“隨著 AI 代理人繼續增長,RAG 抓取的頻率會遠遠多於訓練抓取,訓練抓取的頻次會遠少但可能更有價值。為訓練而進行的內容定價較難,而 RAG 使用能夠更輕鬆定價,且能因為持續、重複的存取而具有動態性。”

模型內容協議(Model Context Protocol)

聽起來像什麼: 一個科幻規則手冊

實際意義: 由 AI 公司 Anthropic 創建的這項框架,是一種索引內容並將其插入 LLM 的方法,讓 LLM 可以直接從數據集提取信息。若 RAG 就像 AI 系統與在線內容之間的橋樑,那麼 MCP 就像直接將 AI 系統插入內容的插座中。

一位使用者可以將他們的所有新聞訂閱插件插入客服聊天機器人,以便在該界面中可以訪問所有的新聞內容,而不是去出版商的網站獲取資訊,這是西北大學計算新聞學教授 Nicholas Diakopoulos 所描述的情況。

對於那些已經看到訪問量下降的出版商來說,這可能聽起來很可怕。但這可能是另一種內容發行平台,甚至是營收化的方式,Diakopoulos 認為。

“作為最終用戶……我可以以我想要的任何介面獲取我訂閱的內容的所有價值。我覺得這種以用戶為導向的想法可能具有一定的價值,”他表示,“目前是否存在這樣的市場?據我所知, 暫時還沒有,但可能會有,我認為新聞機構可能會在創造這個市場的最前沿。”

機器人指令文件(Robots.txt)

聽起來像什麼: 給乖巧機器的指令

實際意義: 這個簡單的文本文件告訴機器人網站中哪些部分可以抓取。理論上來說,它像是供 AI 刮取工具的「禁止入內」標示。但實際上,大多數 LLM 要麼忽略,要麼誤讀,要麼完全不遵守。有些甚至會在其原始的爬蟲被告知停止抓取後創建一個新名字的爬蟲。出版商的夢魔。

Google Zero

聽起來像什麼: 一部沒有勝者的未來反烏托邦電影

實際意義: 當 Google 不再是互聯網的入口,成為 AI 驅動的回答引擎。這個新時代理由 AI 概覽推動。這將結束對出版商的一個關鍵流量渠道的依賴。

爬-轉介紹比率(Crawl-to-referral ratio)

聽起來像什麼: 奇怪的數學課

實際意義:指的是每個平台的網頁爬取與網頁轉介紹的比率。Cloudflare 跟蹤了這一數據,結果顯示 AI 公司的爬-轉介紹比率相比 Google 巨大得多。(例如,2025 年 6 月 Google 平均進行 14 次抓取才會有一次轉介紹,而 OpenAI 的爬-轉介紹比率則是 1,700:1)換句話說,機器人對出版商網站進行的爬取比提供給真實用戶的轉介紹要多得多。

AI 瀏覽器(AI browser)

聽起來像什麼: 比你最好的朋友更了解你的瀏覽器

實際意義: 瀏覽器自從原始的 Internet Explorer 以來已經走了很漫長的路。這些由 AI 技術驅動的新平台不僅顯示指向網站的鏈接,還提供網絡入口。它們可以執行任務、理解自然語言、發送電子郵件、生成簡報和預定會議。值得注意的 AI 瀏覽器包括:來自紐約瀏覽器公司的 Dia,Perplexity 的 Comet,以及據報導即將推出的 OpenAI 瀏覽器。

LLM內容攝取API(LLM Content Ingest API)

聽起來像什麼: 機器人的冰沙

實際意義: IAB 技術實驗室的倡議,以創建一個市場標準,允許在出版社同意下進行的機器人抓取,實現對出版商的屬性和補償。支持按爬取和按查詢付費。

紅色按鈕(Red button)

聽起來像什麼: 間諜電影中的一個按鈕

實際意義: Cloudflare 的紅色按鈕(於 7 月 1 日啟動)基本上是一個讓出版商可以封鎖 AI 爬蟲的緊急開關。出版商們親切地稱它為紅色按鈕。

NLWeb

聽起來像什麼: 外星人打造的未來網絡

實際意義: 微軟推出的自然語言網絡協議於五月亮相。NLWeb 專案的目標是讓網站所有者更容易地在其網站上添加“會話介面”(例如聊天機器人)。它也有助於讓支持 MCP 的 AI 代理更容易訪問網站。微軟認為這將是 HTML 的新版本。它可能成為更多機器人流量收入化模式的框架。

A2A

聽起來像什麼: 一種電池

實際意義: Google 的名為 Agent2Agent 的協議於四月宣布,旨在創建一種通用語言,以幫助建於不同框架的 AI 代理“彼此溝通”,並創造更具互操作性的系統。就像 NLWeb,它也支持 MCP。六月,它被捐贈給非營利 Linux 基金會。