Искать в Базе знаний

robots.txt

robots.txt — текстовый файл, в котором указаны правила индексации сайта. С его помощью можно регулировать частоту обращений поисковых роботов, запретить индексирование отдельных страниц или всего сайта.
Разместите файл с именем robots.txt в корневой директории вашего сайта и наполните его правилами. Рассмотрим основные.

User-agent

В первой строке укажите директиву User-agent. Она определяет имена роботов, для которых составлены правила. Например:
User-agent: Yandex
только для ботов Яндекса;
User-agent: *
для всех существующих ботов.
Список имен поисковых роботов есть в документации Яндекса и Google.

Disallow, Allow

Директивы Disallow и Allow ограничивают доступ роботов к определенным страницам. С их помощью вы можете закрыть от индексирования административную часть и другие разделы сайта.
Disallow запрещает индексацию, Allow разрешает индексировать отдельные ссылки внутри запрещенных. Например:
Allow: /public
Disallow: /
Правило запрещает индексировать все, кроме страниц вида domain.ru/public
Директивы работают со специальными символами «*» и «$». Символ «*» задает последовательность из неограниченного количества символов (0 и более):
Disallow: /catalog/*.html
Правило запрещает доступ роботам ко всем страницам из раздела catalog с расширением .html.
При этом идентичными будут правила:
Disallow: /catalog/*
Disallow: /catalog/
Символ «$» жестко указывает на конец правила:
Disallow: /catalog/boxs$
Такое правило запрещает индексирование страницы domain.ru/catalog/boxs, в то же время доступ к domain.ru/catalog/boxs.html роботы получить смогут.

Crawl-delay

Директива Crawl-delay определяет максимальное число запросов к сайту от робота. Она помогает избежать повышенного потребления ресурсов из-за активности поисковых ботов.
Достаточно направлять один запрос в 7 секунд:
Crawl-delay: 7
Не все роботы следуют этому правилу. Для Яндекса и Google скорость обхода указывается в кабинете вебмастера.

Clean-param

Порой в ссылках содержатся параметры (идентификаторы сессий, пользователей), которые не влияют на содержимое страницы.
Например, на странице domain.ru/catalog есть каталог товаров, которые можно отфильтровать. После применения фильтра получится следующий набор ссылок:
domain.ru/catalog
domain.ru/catalog?=1
domain.ru/catalog?product=2
Первый URL включает в себя весь каталог продуктов, индексация этой же страницы с параметрами не нужна. Используйте Clean-param, чтобы убрать лишние ссылки из поисковой выдачи:
Clean-param: product /catalog
Указать несколько параметров можно через символ «&»: Clean-param: product&price /catalog
Clean-param ускоряет обход сайта поисковыми роботами и снижает нагрузку на сервер.

Host

Если ваш сайт имеет несколько доменов (алиасов), укажите основное имя с помощью директивы Host:
Host: domain.ru

Sitemap

Sitemap указывает роботу расположение карты сайта:
Sitemap: http://domain.ru/sitemap.xml

Как отключить индексацию

Если вы не хотите, чтобы сайт индексировался, укажите правило:
User-agent: *
Disallow: /
При составлении файла robots.txt рекомендуем ознакомиться со справочной информацией поисковиков: некоторые правила могут не поддерживаться или игнорироваться роботами.