【引】有人迷戀使用大模型生成各種有趣的內(nèi)容, 有人沉醉于大模型相關(guān)技術(shù)的探索,沒有對(duì)錯(cuò),只在于你的樂趣所在。 一項(xiàng)名為 llms.txt 的新提案標(biāo)志了一些非同尋常的東西的出現(xiàn): 一個(gè)Web網(wǎng)站不僅為人類讀者服務(wù),而且為人工智能提供服務(wù)。這不僅僅是一種新的技術(shù)標(biāo)準(zhǔn),而是我們對(duì)數(shù)字基礎(chǔ)設(shè)施的看法發(fā)生根本性轉(zhuǎn)變的開始。 robots.txt 和 sitemap.xml 是為搜索引擎設(shè)計(jì)的,而 LLMs.txt 是面向推理引擎優(yōu)化,它以 LLM 可以輕松理解的格式向 LLM 提供有關(guān)網(wǎng)站的信息。那么,LLMs.txt 能否從W3C的提案變成行業(yè)趨勢(shì)的呢? 今年11月14日,Mintlify 公司將 LLMs.txt 支持添加到了他們的文檔平臺(tái)上,使數(shù)以千計(jì)的開發(fā)工具的文檔對(duì) LLM 友好,如 Anthroic 和 Cursor。Anthroic 和其他公司很快在 X 上發(fā)布了他們對(duì) LLMs.txt 的支持。這一勢(shì)頭激發(fā)了新的社區(qū)網(wǎng)站和工具。@ ifox 創(chuàng)建 directory.llmstxt.cloud 來索引 LLM 友好的技術(shù)文檔。@ screen fluent 很快又添加了 llmstxt.directory。Mot 為 dotenvx 站點(diǎn)構(gòu)建可 docs 并共享了一個(gè)開源生成器工具。Firecrawl 的 Eric Ciarla 也創(chuàng)建了一個(gè)工具,可以幫助網(wǎng)站創(chuàng)建文件LLMs.txt。 1. LLMs.txt的誕生Answer.AI的聯(lián)合創(chuàng)始人 Jeremy Howard 率先提出了 LLMs.txt,來解決網(wǎng)站與大模型應(yīng)用關(guān)系的技術(shù)挑戰(zhàn)。人工智能系統(tǒng)只能處理有限的上下文窗口,因此很難理解大型文檔站點(diǎn)。傳統(tǒng)的 SEO 技術(shù)是針對(duì)搜索爬蟲而非推理引擎進(jìn)行優(yōu)化的,因此無法解決這一局限性。 當(dāng)人工智能系統(tǒng)試圖直接處理 HTML 頁(yè)面時(shí),它們會(huì)陷入導(dǎo)航元素、 JavaScript、 CSS 和其他非必要信息的泥潭,這些非必要信息會(huì)減少實(shí)際內(nèi)容的可用空間。LLMs.txt 解決了這個(gè)問題,它以一種人工智能能夠理解的格式提供人工智能所需要的確切信息。 Jeremy Howard 提出的 llms.txt 標(biāo)準(zhǔn)是一個(gè)復(fù)雜問題的優(yōu)雅解決方案: 我們?nèi)绾螏椭斯ぶ悄艽碛行У靥幚砭W(wǎng)頁(yè)內(nèi)容,同時(shí)保持人類的可讀性?該標(biāo)準(zhǔn)提出了一種簡(jiǎn)單但強(qiáng)大的方法ーー在網(wǎng)絡(luò)服務(wù)器的根目錄上建立一個(gè)降價(jià)文件,提供人工智能友好的關(guān)鍵內(nèi)容版本。 2. 什么是 LLMs.txtLLMs.txt是一個(gè)具有特定結(jié)構(gòu)的markdown文件, 由兩類文件構(gòu)成:
llms.txt該文件必須以 H1項(xiàng)目名稱開始,后面跟著一個(gè)描述摘要塊。真正的創(chuàng)新在于如何處理內(nèi)容組織。在初始摘要之后,文件可以包含由 H2標(biāo)頭描述的多個(gè)部分。每個(gè)部分都包含一個(gè)標(biāo)記超鏈接列表,可以選擇后跟描述性說明。這種結(jié)構(gòu)同時(shí)考慮了分層組織和平面的可訪問性ーー人工智能代理可以處理整個(gè)文檔或快速定位感興趣的特定部分。 也許最巧妙的是,llms.txt還包括一個(gè)可選的“可選”部分。這個(gè)特性允許內(nèi)容提供者指出哪些信息是補(bǔ)充信息,幫助 AI 代理在其上下文限制范圍內(nèi)對(duì)內(nèi)容處理做出智能決策。
llms.txt 文件提供了網(wǎng)站的導(dǎo)航和結(jié)構(gòu),而/llms-full.txt 則在 markdown 中包含了完整的文檔內(nèi)容。下面的代碼示例來自 Cursor 的/llms-full.txt 文件。
另外,llms.txt 還建議將.md附加 到 URL, 進(jìn)而創(chuàng)建了一個(gè)平行的內(nèi)容結(jié)構(gòu),既為AI消費(fèi)網(wǎng)站的數(shù)據(jù)內(nèi)容進(jìn)行了優(yōu)化,又保持了所有網(wǎng)站中豐富的格式,同時(shí)繼承了傳統(tǒng)網(wǎng)頁(yè)的人機(jī)互動(dòng)。 2.1 LLMs.txt 的特點(diǎn)llms.txt 代表的不僅僅是一種新的文件格式ーー它讓我們得以一窺網(wǎng)絡(luò)架構(gòu)是如何演變的,以適應(yīng)作為一等公民的人工智能代理。傳統(tǒng)的 Web 體系結(jié)構(gòu)將人類消費(fèi)作為主要用例,事后再考慮機(jī)器可讀性。新興的體系結(jié)構(gòu)將人類和人工智能的消費(fèi)同等重要,從而導(dǎo)致了我們?nèi)绾螛?gòu)建和服務(wù)內(nèi)容的新模式。 LLMs.txt 的主要特點(diǎn)如下:
2.2 LLMs.txt 與搜索引擎的關(guān)系與 sitemap.xml 和 robots.txt 等現(xiàn)有 Web 標(biāo)準(zhǔn)相比,LLMs.txt 的用途完全不同。 sitemap.xml 列出了所有可索引的頁(yè)面,但對(duì)內(nèi)容處理沒有幫助。人工智能系統(tǒng)仍然需要解析復(fù)雜的 HTML 并處理額外的信息,把上下文窗口弄得亂七八糟。 robots.txt 面向搜索引擎的爬蟲訪問,但也不能幫助理解內(nèi)容。 我們可以把llms.txt 想象成 robots.txt 的下一個(gè)進(jìn)化,它不是指導(dǎo)傳統(tǒng)的搜索引擎,而是指導(dǎo)人工智能驅(qū)動(dòng)的爬蟲。這個(gè)簡(jiǎn)單的文件確保我們可以控制先進(jìn)的 AI 工具如何與網(wǎng)站的數(shù)據(jù)交互,促進(jìn)更好的內(nèi)容理解并改進(jìn)的搜索結(jié)果。llms.txt 在嘗試解決人工智能相關(guān)的挑戰(zhàn),有助于克服上下文窗口的限制,刪除非必要的標(biāo)記和腳本,并面向 AI 處理來優(yōu)化網(wǎng)站結(jié)構(gòu)的顯示內(nèi)容。 LLMs.txt 確保了大模型能夠掌握站點(diǎn)的結(jié)構(gòu)和訪問規(guī)則,這將導(dǎo)致更準(zhǔn)確、上下文豐富的結(jié)果。通過構(gòu)建數(shù)據(jù)以獲得最佳人工智能解釋,可以提高在下一波人工智能驅(qū)動(dòng)的搜索界面中出現(xiàn)顯著位置的可能性。網(wǎng)站的數(shù)據(jù)是有價(jià)值的,llms.txt 可以幫助保護(hù)內(nèi)容,確保它只按照網(wǎng)站所有的意愿使用AI。 但是,與搜索引擎主動(dòng)抓取web的內(nèi)容不同,當(dāng)前的 LLM 尚不會(huì)直接自動(dòng)發(fā)現(xiàn)和索引 LLMs.txt 文件,還需要手動(dòng)向 AI 系統(tǒng)提供文件內(nèi)容。這可以通過粘貼鏈接,復(fù)制文件內(nèi)容直接作為提示語(yǔ),或使用 AI 工具的文件上傳功能。 3. 如何生成 LLMs.txt 文件由于使用了 LLMs.txt 生成器,開始工作非常簡(jiǎn)單。幾分鐘之內(nèi),您就可以創(chuàng)建一個(gè)定制的 LLMs.txt 文件,以滿足您網(wǎng)站的需要。目前,有幾種不同的工具可以用來創(chuàng)建LLMs.txt:
LLMs.txt 代表了向文檔的AI-first 轉(zhuǎn)變。和SEO 類似,具有AI可讀的內(nèi)容將成為至關(guān)重要的開發(fā)工具和文檔。隨著越來越多的網(wǎng)站采用這個(gè)文件,我們可能會(huì)看到新的工具和最佳實(shí)踐出現(xiàn),使內(nèi)容可訪問的網(wǎng)站成為人工智能助手。 目前,LLMs.txt 提供了一個(gè)實(shí)用的解決方案來幫助 AI 系統(tǒng)更好地理解和利用 Web 內(nèi)容,特別是技術(shù)文檔和 API。 4. 一句話小結(jié)LLMs.txt 是一種標(biāo)準(zhǔn)化的文件格式,旨在幫助大模型(LLM)如何訪問和使用網(wǎng)站的內(nèi)容。在一個(gè)由越來越復(fù)雜的 AI 驅(qū)動(dòng)服務(wù)的世界里,LLMs.txt 生成器可以成為一個(gè)重要的工具,幫助網(wǎng)站保持優(yōu)化、相關(guān)性和易于發(fā)現(xiàn)。 |
|