午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

WEB語(yǔ)義化的新探索:淺析LLMs.txt

 DuerOS布道師 2024-12-15 發(fā)布于北京

【引】有人迷戀使用大模型生成各種有趣的內(nèi)容, 有人沉醉于大模型相關(guān)技術(shù)的探索,沒有對(duì)錯(cuò),只在于你的樂趣所在。

一項(xiàng)名為 llms.txt 的新提案標(biāo)志了一些非同尋常的東西的出現(xiàn): 一個(gè)Web網(wǎng)站不僅為人類讀者服務(wù),而且為人工智能提供服務(wù)。這不僅僅是一種新的技術(shù)標(biāo)準(zhǔn),而是我們對(duì)數(shù)字基礎(chǔ)設(shè)施的看法發(fā)生根本性轉(zhuǎn)變的開始。

robots.txt 和 sitemap.xml 是為搜索引擎設(shè)計(jì)的,而 LLMs.txt 是面向推理引擎優(yōu)化,它以 LLM 可以輕松理解的格式向 LLM 提供有關(guān)網(wǎng)站的信息。那么,LLMs.txt 能否從W3C的提案變成行業(yè)趨勢(shì)的呢?

今年11月14日,Mintlify 公司將 LLMs.txt 支持添加到了他們的文檔平臺(tái)上,使數(shù)以千計(jì)的開發(fā)工具的文檔對(duì) LLM 友好,如 Anthroic 和 Cursor。Anthroic 和其他公司很快在 X 上發(fā)布了他們對(duì) LLMs.txt 的支持。這一勢(shì)頭激發(fā)了新的社區(qū)網(wǎng)站和工具。@ ifox 創(chuàng)建 directory.llmstxt.cloud 來索引 LLM 友好的技術(shù)文檔。@ screen fluent 很快又添加了 llmstxt.directory。Mot 為 dotenvx 站點(diǎn)構(gòu)建可 docs 并共享了一個(gè)開源生成器工具。Firecrawl 的 Eric Ciarla 也創(chuàng)建了一個(gè)工具,可以幫助網(wǎng)站創(chuàng)建文件LLMs.txt。

1. LLMs.txt的誕生

Answer.AI的聯(lián)合創(chuàng)始人 Jeremy Howard 率先提出了 LLMs.txt,來解決網(wǎng)站與大模型應(yīng)用關(guān)系的技術(shù)挑戰(zhàn)。人工智能系統(tǒng)只能處理有限的上下文窗口,因此很難理解大型文檔站點(diǎn)。傳統(tǒng)的 SEO 技術(shù)是針對(duì)搜索爬蟲而非推理引擎進(jìn)行優(yōu)化的,因此無法解決這一局限性。

當(dāng)人工智能系統(tǒng)試圖直接處理 HTML 頁(yè)面時(shí),它們會(huì)陷入導(dǎo)航元素、 JavaScript、 CSS 和其他非必要信息的泥潭,這些非必要信息會(huì)減少實(shí)際內(nèi)容的可用空間。LLMs.txt 解決了這個(gè)問題,它以一種人工智能能夠理解的格式提供人工智能所需要的確切信息。

Jeremy Howard 提出的 llms.txt 標(biāo)準(zhǔn)是一個(gè)復(fù)雜問題的優(yōu)雅解決方案: 我們?nèi)绾螏椭斯ぶ悄艽碛行У靥幚砭W(wǎng)頁(yè)內(nèi)容,同時(shí)保持人類的可讀性?該標(biāo)準(zhǔn)提出了一種簡(jiǎn)單但強(qiáng)大的方法ーー在網(wǎng)絡(luò)服務(wù)器的根目錄上建立一個(gè)降價(jià)文件,提供人工智能友好的關(guān)鍵內(nèi)容版本。

2. 什么是 LLMs.txt

LLMs.txt是一個(gè)具有特定結(jié)構(gòu)的markdown文件, 由兩類文件構(gòu)成:

  • /llms.txt: 簡(jiǎn)化的文檔導(dǎo)航視圖,幫助 AI 系統(tǒng)快速理解站點(diǎn)的結(jié)構(gòu)

  • /llms-full. txt: 在一個(gè)包含所有文檔的綜合文件

llms.txt該文件必須以 H1項(xiàng)目名稱開始,后面跟著一個(gè)描述摘要塊。真正的創(chuàng)新在于如何處理內(nèi)容組織。在初始摘要之后,文件可以包含由 H2標(biāo)頭描述的多個(gè)部分。每個(gè)部分都包含一個(gè)標(biāo)記超鏈接列表,可以選擇后跟描述性說明。這種結(jié)構(gòu)同時(shí)考慮了分層組織和平面的可訪問性ーー人工智能代理可以處理整個(gè)文檔或快速定位感興趣的特定部分。

也許最巧妙的是,llms.txt還包括一個(gè)可選的“可選”部分。這個(gè)特性允許內(nèi)容提供者指出哪些信息是補(bǔ)充信息,幫助 AI 代理在其上下文限制范圍內(nèi)對(duì)內(nèi)容處理做出智能決策。


一個(gè)簡(jiǎn)單示例如 llmtxt.org 自己的 LLM.txt所示:


# Project Name
> Brief project summary

Additional context and important notes

## Core Documentation
- [Quick Start](url): Description of the resource
- [API Reference](url): API documentation details

## Optional
- [Additional Resources](url): Supplementary information

llms.txt 文件提供了網(wǎng)站的導(dǎo)航和結(jié)構(gòu),而/llms-full.txt 則在 markdown 中包含了完整的文檔內(nèi)容。下面的代碼示例來自 Cursor 的/llms-full.txt 文件。

# AI Review (Beta)

AI Review is a feature that allows you to review your recent changes in your codebase to catch any potential bugs.

<Frame>
<img src="https://mintlify.s3-us-west-1./cursor/images/advanced/review.png" alt="AI Review" />
</Frame>

You can click into individual review items to see the full context in the editor, and chat with the AI to get more information.

### Custom Review Instructions

In order for AI Review to work in your favor, you can provide custom instructions for the AI to focus on. For example,
if you want the AI to focus on performance-related issues, you could put:

####
focus on the performance of my code
####

This way, AI Review will focus on the performance of your code when scanning through your changes.

### Review Options

Currently, you have a several options to choose from to review:

* `Review Working State`
* This will review your uncommitted changes.
* `Review Diff with Main Branch`
* This will review the diff between your current working state and the main branch.
* `Review Last Commit`
* This will review the last commit you made.

另外,llms.txt 還建議將.md附加 到 URL, 進(jìn)而創(chuàng)建了一個(gè)平行的內(nèi)容結(jié)構(gòu),既為AI消費(fèi)網(wǎng)站的數(shù)據(jù)內(nèi)容進(jìn)行了優(yōu)化,又保持了所有網(wǎng)站中豐富的格式,同時(shí)繼承了傳統(tǒng)網(wǎng)頁(yè)的人機(jī)互動(dòng)。

2.1 LLMs.txt 的特點(diǎn)

llms.txt 代表的不僅僅是一種新的文件格式ーー它讓我們得以一窺網(wǎng)絡(luò)架構(gòu)是如何演變的,以適應(yīng)作為一等公民的人工智能代理。傳統(tǒng)的 Web 體系結(jié)構(gòu)將人類消費(fèi)作為主要用例,事后再考慮機(jī)器可讀性。新興的體系結(jié)構(gòu)將人類和人工智能的消費(fèi)同等重要,從而導(dǎo)致了我們?nèi)绾螛?gòu)建和服務(wù)內(nèi)容的新模式。

LLMs.txt 的主要特點(diǎn)如下:

  • 結(jié)構(gòu)化權(quán)限: 像一個(gè)AI訪問行為的藍(lán)圖,LLMs.txt 清楚地說明了站點(diǎn)的哪些部分對(duì)人工智能索引開放,哪些部分應(yīng)該保持禁止。

  • 透明度: 通過提供清晰的指令,可以建立人工智能系統(tǒng)和人類訪問者的信任和清晰度。

  • 面向未來: 隨著人工智能驅(qū)動(dòng)的搜索成為常態(tài),實(shí)現(xiàn) LLMs.txt 文件可以使網(wǎng)站的內(nèi)容與最新技術(shù)保持一致。

2.2 LLMs.txt 與搜索引擎的關(guān)系

與 sitemap.xml 和 robots.txt 等現(xiàn)有 Web 標(biāo)準(zhǔn)相比,LLMs.txt 的用途完全不同。

sitemap.xml 列出了所有可索引的頁(yè)面,但對(duì)內(nèi)容處理沒有幫助。人工智能系統(tǒng)仍然需要解析復(fù)雜的 HTML 并處理額外的信息,把上下文窗口弄得亂七八糟。

robots.txt 面向搜索引擎的爬蟲訪問,但也不能幫助理解內(nèi)容。

我們可以把llms.txt 想象成 robots.txt 的下一個(gè)進(jìn)化,它不是指導(dǎo)傳統(tǒng)的搜索引擎,而是指導(dǎo)人工智能驅(qū)動(dòng)的爬蟲。這個(gè)簡(jiǎn)單的文件確保我們可以控制先進(jìn)的 AI 工具如何與網(wǎng)站的數(shù)據(jù)交互,促進(jìn)更好的內(nèi)容理解并改進(jìn)的搜索結(jié)果。llms.txt 在嘗試解決人工智能相關(guān)的挑戰(zhàn),有助于克服上下文窗口的限制,刪除非必要的標(biāo)記和腳本,并面向 AI 處理來優(yōu)化網(wǎng)站結(jié)構(gòu)的顯示內(nèi)容。

LLMs.txt 確保了大模型能夠掌握站點(diǎn)的結(jié)構(gòu)和訪問規(guī)則,這將導(dǎo)致更準(zhǔn)確、上下文豐富的結(jié)果。通過構(gòu)建數(shù)據(jù)以獲得最佳人工智能解釋,可以提高在下一波人工智能驅(qū)動(dòng)的搜索界面中出現(xiàn)顯著位置的可能性。網(wǎng)站的數(shù)據(jù)是有價(jià)值的,llms.txt 可以幫助保護(hù)內(nèi)容,確保它只按照網(wǎng)站所有的意愿使用AI。

但是,與搜索引擎主動(dòng)抓取web的內(nèi)容不同,當(dāng)前的 LLM 尚不會(huì)直接自動(dòng)發(fā)現(xiàn)和索引 LLMs.txt 文件,還需要手動(dòng)向 AI 系統(tǒng)提供文件內(nèi)容。這可以通過粘貼鏈接,復(fù)制文件內(nèi)容直接作為提示語(yǔ),或使用 AI 工具的文件上傳功能。

3. 如何生成 LLMs.txt 文件

由于使用了 LLMs.txt 生成器,開始工作非常簡(jiǎn)單。幾分鐘之內(nèi),您就可以創(chuàng)建一個(gè)定制的 LLMs.txt 文件,以滿足您網(wǎng)站的需要。目前,有幾種不同的工具可以用來創(chuàng)建LLMs.txt:

  • Mintlify: 為托管文檔自動(dòng)生成/llms.txt 和/llms-full.txt

  • Dotenv 的 llmstxt: 使用站點(diǎn)的 sitemap.xml 生成 llms.txt 的工具。

  • Firecrawl 的 llmstxt: Firecrawl 來生成 llms.txt 文件。

LLMs.txt 代表了向文檔的AI-first 轉(zhuǎn)變。和SEO 類似,具有AI可讀的內(nèi)容將成為至關(guān)重要的開發(fā)工具和文檔。隨著越來越多的網(wǎng)站采用這個(gè)文件,我們可能會(huì)看到新的工具和最佳實(shí)踐出現(xiàn),使內(nèi)容可訪問的網(wǎng)站成為人工智能助手。

目前,LLMs.txt 提供了一個(gè)實(shí)用的解決方案來幫助 AI 系統(tǒng)更好地理解和利用 Web 內(nèi)容,特別是技術(shù)文檔和 API。

4. 一句話小結(jié)

LLMs.txt 是一種標(biāo)準(zhǔn)化的文件格式,旨在幫助大模型(LLM)如何訪問和使用網(wǎng)站的內(nèi)容。在一個(gè)由越來越復(fù)雜的 AI 驅(qū)動(dòng)服務(wù)的世界里,LLMs.txt 生成器可以成為一個(gè)重要的工具,幫助網(wǎng)站保持優(yōu)化、相關(guān)性和易于發(fā)現(xiàn)。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多