Поисковые боты OpenAI
Поисковые боты OpenAI
Назначение бота GPTBot
GPTBot используется, чтобы сделать базовые модели генеративного ИИ более полезными и безопасными. Он используется для сканирования контента, который может быть использован при обучении базовых моделей генеративного ИИ. Запрет на использование GPTBot означает, что контент сайта не следует использовать при обучении базовых моделей генеративного ИИ.
OpenAI рассказала в своём блоге, что сторонние веб-разработчики могут явно запретить боту GPTBot посещать сайт. Таким образом, OpenAI не сможет использовать контент на сайте для обучения своих моделей.
Но в моем случае - просто гиганская нагрузка на "дохлинький" сервер, на котором размещался блог.
Настройка robots.txt
У меня у данного робота UserAgent был:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Версия меняется, в документации указывается 1.1, но сейчас уже работает 1.2.
Полностью заблокировать робота можно очень просто, нужно прописать в robots.txt
:
User-agent: GPTBot
Disallow: /
А если надо просто ограничить, то просто вписывайте в него нужные директивы, например:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Ну и на закуску - бот судя по всему игнорирует директиву Crawl-delay. Так как у меня стоит ограничение 1 запрос в минуту, а запросов от GPTBot было более 50к за сутки.
В принципе его можно заблокировать, как AmazonBot. Нужно прописать в .htaccess:
#Блокировка User-Agent "Chat"
SetEnvIfNoCase User-Agent "GPTBot" bad_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
IP адреса:
{
"creationTime": "2023-11-30T11:51:00.000000",
"prefixes": [
{ "ipv4Prefix": "52.230.152.0/24" },
{ "ipv4Prefix": "52.233.106.0/24" },
{ "ipv4Prefix": "20.171.206.0/24" }
]
}
Бот ChatGPT-User
Это тоже бот, только у него другое назначение.
ChatGPT-User предназначен для действий пользователя в ChatGPT и пользовательских GPT. Когда пользователи задают ChatGPT или CustomGPT вопрос, они могут посетить веб-страницу, чтобы помочь ответить, и включить ссылку на источник в свой ответ. Пользователи ChatGPT также могут взаимодействовать с внешними приложениями с помощью действий GPT. ChatGPT-User определяет, на какие сайты могут быть отправлены эти пользовательские запросы.
Он не используется ни для автоматического сканирования Интернета, ни для сканирования контента для генеративного обучения ИИ.
UserAgent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
IP диапазоны можно взять тут:
{
"creationTime": "2024-07-25T10:44:00.000000",
"prefixes": [
{ "ipv4Prefix": "23.98.142.176/28" },
{ "ipv4Prefix": "40.84.180.224/28" },
{ "ipv4Prefix": "13.65.240.240/28" },
{ "ipv4Prefix": "20.97.189.96/28" },
{ "ipv4Prefix": "20.161.75.208/28" },
{ "ipv4Prefix": "52.225.75.208/28" },
{ "ipv4Prefix": "52.156.77.144/28" },
{ "ipv4Prefix": "40.84.221.208/28" },
{ "ipv4Prefix": "40.84.221.224/28" },
{ "ipv4Prefix": "40.84.180.64/28" }
]
}
Бот OAI-SearchBot
Ещё один бот OAI-SearchBot предназначен для поиска.
OAI-SearchBot используется для создания ссылок на веб-сайты и их отображения в результатах поиска в прототипе SearchGPT, а также в функциях поиска OpenAI.
UserAgent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot
Данный бот не используется для сканирования контента для обучения базовых моделей генеративного искусственного интеллекта OpenAI. Чтобы ваш сайт появлялся в результатах поиска, OpenAI рекомендует разрешить OAI-Searchbot в файле robots.txt вашего сайта и разрешить запросы из опубликованных диапазонов IP-адресов.
{
"creationTime": "2024-09-19T20:15:00.000000",
"prefixes": [
{ "ipv4Prefix": "20.42.10.176/28" },
{ "ipv4Prefix": "172.203.190.128/28" },
{ "ipv4Prefix": "51.8.102.0/24" }
]
}