robots.txt — текстовый файл, в котором указаны правила индексации сайта. С его помощью можно регулировать частоту обращений поисковых роботов, запретить индексирование отдельных страниц или всего сайта.
Разместите файл c именем robots.txt в корневой директории вашего сайта и наполните его правилами. Рассмотрим основные.
User-agent
В первой строке укажите директиву User-agent. Она определяет имена роботов, для которых составлены правила. Например: User-agent: Yandex
только для ботов Яндекса; User-agent: *
для всех существующих ботов.
Список имен поисковых роботов есть в документации Яндекса и Google.
Disallow, Allow
Директивы Disallow и Allow ограничивают доступ роботов к определенным страницам. С их помощью вы можете закрыть от индексирования административную часть и другие разделы сайта.
Disallow запрещает индексацию, Allow разрешает индексировать отдельные ссылки внутри запрещенных. Например: Allow: /public
Правило запрещает индексировать все, кроме страниц вида domain.ru/public
Disallow: /
Директивы работают со специальными символами «*» и «$». Символ «*» задает последовательность из неограниченного количества символов (0 и более): Disallow: /catalog/*.html
Правило запрещает доступ роботам ко всем страницам из раздела catalog с расширением .html.
При этом идентичными будут правила:Disallow: /catalog/*
Disallow: /catalog/
Символ «$» жестко указывает на конец правила: Disallow: /catalog/boxs$
Такое правило запрещает индексирование страницы domain.ru/catalog/boxs , в то же время доступ к domain.ru/catalog/boxs.html роботы получить смогут.
Crawl-delay
Директива Crawl-delay определяет максимальное число запросов к сайту от робота. Она помогает избежать повышенного потребления ресурсов из-за активности поисковых ботов.
Достаточно направлять один запрос в 7 секунд: Crawl-delay: 7
Не все роботы следуют этому правилу. Для Яндекса и Google скорость обхода указывается в кабинете вебмастера.
Clean-param
Порой в ссылках содержатся параметры (идентификаторы сессий, пользователей), которые не влияют на содержимое страницы.
Например, на странице domain.ru/catalog есть каталог товаров, которые можно отфильтровать. После применения фильтра получится следующий набор ссылок:domain.ru/catalog
domain.ru/catalog? =1domain.ru/catalog?product=2
Первый URL включает в себя весь каталог продуктов, индексация этой же страницы с параметрами не нужна. Используйте Clean-param, чтобы убрать лишние ссылки из поисковой выдачи: Clean-param: product /catalog
Указать несколько параметров можно через символ «&»: Clean-param: product&price /catalog
Clean-param ускоряет обход сайта поисковыми роботами и снижает нагрузку на сервер.
Host
Если ваш сайт имеет несколько доменов (алиасов), укажите основное имя с помощью директивы Host: Host: domain.ru
Sitemap
Sitemap указывает роботу расположение карты сайта: Sitemap: http://domain.ru/sitemap.xml
Как отключить индексацию
Если вы не хотите, чтобы сайт индексировался, укажите правило:User-agent: *
Disallow: /
При составлении файла robots.txt рекомендуем ознакомиться со справочной информацией поисковиков: некоторые правила могут не поддерживаться или игнорироваться роботами.