ChatGPT等の生成系AI(LLM)にサイトのデータ収集方法を規定するllms.txtをワードプレスに設置する方法について解説いたします。

llms.txtとは?

llms.txtはサーバーに設置する生成AIにサイトのコンテンツの学習について規定するRobots.txtの生成AIバージョンです。
下記のようなURLでアクセス可能となっている必要がございます。

https://ワードプレスサイトのドメイン/llms.txt

llms.txtはChatGPT や Claude、Gemini などの 大規模言語モデル(LLM) がウェブからデータを収集・学習するケースが増えるにつれ、「AIがこのサイトのコンテンツを学習に使っていいかどうか」を制御したいというニーズに対応するもので、まだ規格等は明確には定まっていないものの、All in one SEO等のプラグインではすでにこのファイルを生成する機能が提供されています。

llms.txtの設定例

テキストエディタで下記のようなテキストファイルを作成の上、サーバーに設置します。
(書式はマークダウン方式になります)

※書き換える必要のある個所は太字になっています
※不要な個所は削ってください。また、生成AIですので自然言語を理解しますので、複雑でない概念は自由に追加できるものと思われます。但し生成AIは英語ので句集されている物が多く、内容は英語で記載いただいた方が無難かもしれません。

# サイト名

> サイトの内容の簡単な説明文

Language: jp
License: © 企業名, All rights reserved.

## Documentation & Policies
– [Site Policy](https://サイトの利用規約のURL): General terms of use and copyright information
– [AI Use Policy](https://サイトのAI学習データ利用規約のURL): Guidelines on automated data collection and AI reuse
– [Contact](https://お問合せページのURL): For inquiries about data access or content usage

## Content Overview
– [About our company](https://企業情報等へのリンク): Information about the operating company
– [Features](https://サイトの主要なコンテンツ(カテゴリー等)へのリンク): Main Content of the Site

## APIs & Data Access
– [Public API](https://ワードプレスRSSへのリンク): RSS and JSON feeds (requires approval)
– [Data Reuse Policy](https://上記RSSデータ利用規約へのリンク): Rules for redistribution and automated crawling

## Optional
– [Authors](https://著者情報ページへのリンク): Contributors and their expertise
– [Sitemap](https://サイトマップへのリンク): Full site structure and archives

## Policy for LLMs and AI Crawlers

> AIのサイトの情報の利用に関する規約を自然言語で記載します(上記AI Use Policyの内容と同じでいいかと思います)

### AI Crawler Access Control
“`txt
User-Agent: *
Disallow: /

※“`txt はコードブロックを意味します。おまじない的にとらえてください。

最後の行の

User-Agent: *
Disallow: /

は生成AIに関してはすべてのコンテンツの利用(クロール)を禁止するという意味になります。
下記のように書くとすべての生成AIに関してnewsというURL以下のコンテンツの利用(クロール)を許可するが、その他はすべて禁止するという事になります。

User-Agent: *
Disallow: /
Allow: /news/

ご参考になりましたら幸いです。

WordPress ワードプレスサイトのカスタマイズや修正・セキュリティー対策等のご依頼・ご相談はWPドクターまでお気軽にお送りください