Эту статью я решил написать под впечатлением от прочитанного на западных блогах. Достаточно долгое время в сети существовал стереотип о правильной методике настройки файла robots.txt
для WordPress. При котором старались максимально закрыть все дубли и другие не имеющие отношения к контенту страницы элементы.
На данный момент, у англоязычных блогеров набирает обороты совершенно противоположный тренд. Известный веб-мастер и SEO-специалист Yoast, автор популярного плагина для WordPress Yoast SEO, советует вовсе отказаться от использования robots.txt
для запрета индексации контента.
Примера файл robots.txt
, который использует Yoast на своем сайте:
User-Agent: * Disallow: /out/
Как видите, для индексации закрыт всего лишь один раздел сайта. Со слов Yoast’а, это вынужденная мера, поскольку в разделе /out/
находится каталог партнерских ссылок. При желании вы можете ознакомится с его статьей по этому поводу.
Но не стоит вдаваться в крайности. Зачем беспечно полагаться на эвристические алгоритмы Google, если скрыть дубли в WordPress можно самостоятельно с помощью файла robots.txt
. Таким образом, правильный robots.txt
, является одним из механизмов для внутренней оптимизации сайта. И как по мне, глупо его не использовать.
Я склоняюсь к тому, что в файле robots.txt
необходимо закрывать только те разделы сайта, которые действительно могут навредить правильной индексации сайта.
Директивы robots.txt
Формат файла достаточно прост в освоении. Чтобы указать, на кого будут действовать правила, необходимо в robots.txt
добавить директиву User-Agent
с названием поискового робота. Мы можем задать различные правила для определенной поисковой системы. Для этого в директиве User-Agent
, нужно указать имя робота. Но в большинстве случаев, будет достаточно использовать звездочку *
, чтобы использовать общие правила для всех поисковых систем.
Далее идут директивы Allow
или Disallow
, которые указывают поисковой системе что можно индексировать, а к каким разделам доступ закрыт. Можно использовать регулярные выражения в названиях и именах файлов. Пример файла robots.txt:
User-Agent: * Disallow: /*? Disallow: /wp-admin/ Allow: /wp-content/uploads/
В примере выше, для всех роботов мы запрещаем индексацию результатов поиска и страницу авторизации панели управления WordPress. И разрешаем доступ поисковых систем к каталогу для загрузки изображений.
Для того чтобы указать ссылку на адрес файла XML-карты сайта, необходимо использовать директиву Sitemap
как в примере ниже:
Sitemap: http://www.example.com/post-sitemap.xml
Исчерпывающую информацию по различным параметрам настройки robots.txt можно прочитать в руководстве от Google и Яндекс.
Файл robots.txt для WordPress
В рекомендациях специалисты Google советует как можно меньше ограничивать доступ поисковых роботов к содержимому сайта. В примере ниже файл robots.txt
, который я использую на своем блоге:
User-agent: * Disallow: /*? Disallow: /20* Disallow: /author/ Disallow: /wp-admin/ Sitemap: https://codebeer.ru/sitemap.xml
Чтобы убрать дубли, я запретил индексацию страниц поиска и архива. Дополнительно указал адрес к XML-карты сайта.
Можно добавить данные правила в robots.txt в корне сайта, либо использовать специальную функцию для WordPress. Для этого необходимо добавить в файл functions.php
код из примера ниже:
add_filter('robots_txt', 'add_robotstxt'); function add_robotstxt($output){ $output .= "Disallow: /*?n"; $output .= "Disallow: /20*n"; $output .= "Disallow: /author/n"; $output .= "Disallow: /wp-admin/n"; $output .= "Sitemap: https://codebeer.ru/sitemap.xmln"; return $output; }