robots.txt

robots.txt — текстовый файл, в котором указаны правила индексации сайта. С его помощью можно регулировать частоту обращений поисковых роботов, запретить индексирование отдельных страниц или всего сайта.

Разместите файл с именем robots.txt в корневой директории вашего сайта и наполните его правилами. Рассмотрим основные.

User-agent

В первой строке укажите директиву User-agent. Она определяет имена роботов, для которых составлены правила. Например:

User-agent: Yandex

только для ботов Яндекса;

User-agent: *

для всех существующих ботов.

Список имен поисковых роботов есть в документации Яндекса и Google.

Disallow, Allow

Директивы Disallow и Allow ограничивают доступ роботов к определенным страницам. С их помощью вы можете закрыть от индексирования административную часть и другие разделы сайта.

Disallow запрещает индексацию, Allow разрешает индексировать отдельные ссылки внутри запрещенных. Например:

Allow: /public
Disallow: /

Правило запрещает индексировать все, кроме страниц вида domain.ru/public

Директивы работают со специальными символами «*» и «$». Символ «*» задает последовательность из неограниченного количества символов (0 и более):

Disallow: /catalog/*.html

Правило запрещает доступ роботам ко всем страницам из раздела catalog с расширением .html.

При этом идентичными будут правила:

Disallow: /catalog/*
Disallow: /catalog/

Символ «$» жестко указывает на конец правила:

Disallow: /catalog/boxs$

Такое правило запрещает индексирование страницы domain.ru/catalog/boxs, в то же время доступ к domain.ru/catalog/boxs.html роботы получить смогут.

Crawl-delay

Директива Crawl-delay определяет максимальное число запросов к сайту от робота. Она помогает избежать повышенного потребления ресурсов из-за активности поисковых ботов.

Достаточно направлять один запрос в 7 секунд:

Crawl-delay: 7

Не все роботы следуют этому правилу. Для Яндекса и Google скорость обхода указывается в кабинете вебмастера.

Clean-param

Порой в ссылках содержатся параметры (идентификаторы сессий, пользователей), которые не влияют на содержимое страницы.

Например, на странице domain.ru/catalog есть каталог товаров, которые можно отфильтровать. После применения фильтра получится следующий набор ссылок:

domain.ru/catalog
domain.ru/catalog?=1
domain.ru/catalog?product=2

Первый URL включает в себя весь каталог продуктов, индексация этой же страницы с параметрами не нужна. Используйте Clean-param, чтобы убрать лишние ссылки из поисковой выдачи:

Clean-param: product /catalog

Указать несколько параметров можно через символ «&»: Clean-param: product&price /catalog

Clean-param ускоряет обход сайта поисковыми роботами и снижает нагрузку на сервер.

Host

Если ваш сайт имеет несколько доменов (алиасов), укажите основное имя с помощью директивы Host:

Host: domain.ru

Sitemap

Sitemap указывает роботу расположение карты сайта:

Sitemap: http://domain.ru/sitemap.xml

Как отключить индексацию

Если вы не хотите, чтобы сайт индексировался, укажите правило:

User-agent: *
Disallow: /

При составлении файла robots.txt рекомендуем ознакомиться со справочной информацией поисковиков: некоторые правила могут не поддерживаться или игнорироваться роботами.

Теги