Файл robots.txt для WordPress

Эту статью я решил написать под впечатлением от прочитанного на западных блогах. Достаточно долгое время в сети существовал стереотип о правильной методике настройки файла robots.txt для WordPress. При котором старались максимально закрыть все дубли и другие не имеющие отношения к контенту страницы элементы.

На данный момент, у англоязычных блогеров набирает обороты совершенно противоположный тренд. Известный веб-мастер и SEO-специалист Yoast, автор популярного плагина для WordPress Yoast SEO, советует вовсе отказаться от использования robots.txt для запрета индексации контента.

Примера файл robots.txt, который использует Yoast на своем сайте:

User-Agent: *
Disallow: /out/

Как видите, для индексации закрыт всего лишь один раздел сайта. Со слов Yoast’а, это вынужденная мера, поскольку в разделе /out/ находится каталог партнерских ссылок. При желании вы можете ознакомится с его статьей по этому поводу.

Но не стоит вдаваться в крайности. Зачем беспечно полагаться на эвристические алгоритмы Google, если скрыть дубли в WordPress можно самостоятельно с помощью файла robots.txt. Таким образом, правильный robots.txt, является одним из механизмов для внутренней оптимизации сайта. И как по мне, глупо его не использовать.

Я склоняюсь к тому, что в файле robots.txt необходимо закрывать только те разделы сайта, которые действительно могут навредить правильной индексации сайта.

Директивы robots.txt

Формат файла достаточно прост в освоении. Чтобы указать, на кого будут действовать правила, необходимо в robots.txt добавить директиву User-Agent с названием поискового робота. Мы можем задать различные правила для определенной поисковой системы. Для этого в директиве User-Agent, нужно указать имя робота. Но в большинстве случаев, будет достаточно использовать звездочку *, чтобы использовать общие правила для всех поисковых систем.

Далее идут директивы Allow или Disallow, которые указывают поисковой системе что можно индексировать, а к каким разделам доступ закрыт. Можно использовать регулярные выражения в названиях и именах файлов. Пример файла robots.txt:

User-Agent: *
Disallow: /*?
Disallow: /wp-admin/
Allow: /wp-content/uploads/

В примере выше, для всех роботов мы запрещаем индексацию результатов поиска и страницу авторизации панели управления WordPress. И разрешаем доступ поисковых систем к каталогу для загрузки изображений.

Для того чтобы указать ссылку на адрес файла XML-карты сайта, необходимо использовать директиву Sitemap как в примере ниже:

Sitemap: http://www.example.com/post-sitemap.xml

Исчерпывающую информацию по различным параметрам настройки robots.txt можно прочитать в руководстве от Google и Яндекс.

Файл robots.txt для WordPress

В рекомендациях специалисты Google советует как можно меньше ограничивать доступ поисковых роботов к содержимому сайта. В примере ниже файл robots.txt, который я использую на своем блоге:

User-agent: *
Disallow: /*?
Disallow: /20*
Disallow: /author/
Disallow: /wp-admin/
Sitemap: https://codebeer.ru/sitemap.xml

Чтобы убрать дубли, я запретил индексацию страниц поиска и архива. Дополнительно указал адрес к XML-карты сайта.

Можно добавить данные правила в robots.txt в корне сайта, либо использовать специальную функцию для WordPress. Для этого необходимо добавить в файл functions.php код из примера ниже:

add_filter('robots_txt', 'add_robotstxt');
function add_robotstxt($output){
    $output .= "Disallow: /*?n";
    $output .= "Disallow: /20*n";
    $output .= "Disallow: /author/n";
    $output .= "Disallow: /wp-admin/n";
    $output .= "Sitemap: https://codebeer.ru/sitemap.xmln";

return $output;
}