Файл robots.txt для сайта на WordPress: создание, настройка, рекомендации

Не все пользователи знают, что из себя представляют, и где находятся robots.txt для сайта на WordPress. Это инструмент, представляющий собой текстовый файл. Он обеспечивает защиту от роботов, которые несут потенциальную опасность для любого ресурса.

Для чего нужен файл robots.txt?

До того как ресурс не будет проиндексирован, данные, размещенные на нем, не будут отражаться в поисковых системах. Эта информация совсем не радует особенно в тех случаях, когда стоит цель привлечения органического трафика.

При внедрении простых в применении ресурсов зачастую используются интуитивные системы управления контентом (аббревиатура названия на английском языке CMS). Некоторые страницы не попадают в выдачу. Среди них:

временные файлы, создающие разные типы программных решений (tmp);
данные, взятые из профилей посетителей, относящиеся к личной информации (private);
админ-панели;
определяющие успешность веб-проекта, результаты поиска.

Чтобы избежать случайного попадания важной информации, которую владелец ресурса хочет скрыть, в результаты поиска, ее рекомендуют скрывать от сканирования. Для чего применяют файл robots.txt для WordPress: под ним понимают свод правил, который используются для распознавания страниц, подходящих и неподходящих для индексации. По сути это инструмент, указывающий: какие файлы нужно сканировать, а какие – нет.

Где находится файл robots.txt на WordPress?

Он находится в основном (корневом) каталоге на веб-сервисе, где хранятся все файлы, отображаемые на ресурсе. Чтобы отыскать robots.txt, нужно ввести: https://www.адрес-сайта/robots.txt

Правила индексации откроются только в том случае, если текстовый файл существует. Чтобы внести редактирование, нужно искать robots.txt на хостинге. Для этого изучают корневую папку площадки.

Как создать стандартный файл robots.txt для WordPress?

При отсутствии файла его создают вручную. Также можно воспользоваться плагинами, которые позволяют не заниматься созданием, а загрузить готовое решение.

Первый метод только кажется простым без вникания в суть вопроса. Он предполагает не только создание базового объекта, но и наполнение его командами. Такая настройка невозможна без определенных знаний поисковой оптимизации.

Вручную

Пошаговая инструкция настройки robots.txt для WordPress:

использовать программу «Блокнот»;
выбрать опцию сохранить как (возможен выбор сочетания клавиш Ctrl, Shift, S);
указать название robots.txt и сохранить;
загрузить готовый файл в корневую папку.

После размещения пустого объекта можно вносить в него изменения прямо в панели сервиса. При этом нужно помнить, что они вступают в силу далеко не сразу. После их внесения может пройти от недели до месяца. В некоторых случаях более 60 дней.

С помощью плагина

С готовыми решениями создание объекта происходит в разы проще. Пошаговая инструкция:

открыть панель управления WordPress;
добавить новый плагин;
справа появится строка поиска, в которую нужно написать всемирно известный плагин Yoast SEO и подтвердить свой выбор;
активировать данные;
в настройках плагина выбрать инструменты и редактор;
сохранить добавленные изменения.

Количество команд у созданного объекта будет минимальным, но он готов к применению после выполнения перечисленных выше действий.

Настройка robots.txt WordPress

Чтобы получить правильный robots.txt для WordPress, нужно детально изучить особенности его структуры. В основу объекта входят:

одна или несколько групп объединенных команд (директив);
в каждой группе прописаны правила, определяющие для какого конкретно робота они предназначены;
также указывается: к каким объектам есть доступ, а к каким нет;
команды читаются ботами сверху вниз;
чувствительность к регистру символов;
пропуски строк не допустимы;
чтобы прокомментировать, нужно ставить # перед тем, как начать новую строку.

Команды задаются через постановку двоеточия. К примеру: User-agent: Yandexbot

Расшифровка:

название директивы: User-agent;
робот – Yandexbot.

Основные директивы и их значения

Если нужно указать, на каких ботов будут распространяться правила, прописанные в текстовом файле, применяется Пользовательский агент (UA).

В зависимости от поисковой системы используется ее название вместе с веб-краулер: UA: Mai.ru, UA: Googlebot или UA: Yandex.

Символ* используется, как правило, в конце строки и применяется для всех без исключения User-Agent.

При этом нужно иметь в виду, что у многих поисковых систем созданы свои роботы. Каждый из них используется для индексации разных составляющих ресурсов. Например:

GoogleBot – для части поисковой выдачи, результат которой находится в прямой зависимости от используемых алгоритмов;
GoogleDirect – для таргетированной рекламы, используемой на самых разных цифровых платформах для отображения контента, который отображается в браузере;
GoogleNews – для интернет-изданий, предназначенных для выдачи новостей как общетематических, так и объединенных одной темой.

Чтобы решить ряд специфичных задач разработчики настраивают команды под определенных роботов.

Обращая внимание на перевод с английского языка директивы Disallow, которая буквально означает «Запрет». Она указывает на то, какие конкретно страницы должны быть закрыты от индексации.

На практике можно найти большое количество вариантов, какие конкретно объекты должны быть закрыты. Их выбор зависит от конкретных задач, поставленных перед разработчиком. Каждое значение должно быть заранее обдумано. По случайной ошибке можно не прописать страницы, содержащие важный контент. Это ухудшит поисковую позицию сайта.

При этом если в командах не прописаны параметры, то они будут учтены так:

Учет данных, если директивы не содержат параметры

Нестандартные Директивы

Принято выделять несколько нестандартных директив.

Allow

Одна из них Allow, которая в отличие от Disallow указывает на то, какие конкретно разделы и страницы ресурса могут быть проиндексированы роботами.

Clean-param

Команда нужна для описания динамических параметров на площадке. Clean-param помогает избегать загрузки (как случайной, так и намеренной) повторяющихся данных и упрощает функционирование сервера в целом.

Crawl-delay (устарела)

Определяет время, нужное для обязательной выдержки перед загрузкой конкретной страницы. Это помогает предотвратить появления повышенных нагрузок на http-хостинг, возникающих в результате частой загрузки.

Host (устарела)

Команда, которая сообщает поисковому роботу о том, какая точная копия ресурса должна быть засчитана как основная. Эта команда прописана только для Yandex.

Пример robots.txt

При разработке ресурса можно использовать стандартный пример robots.txt. Нужно заменить домен и убрать комментарии, расположенные справа:

Как редактировать robots.txt на WordPress?

Для внесения изменений нужно использовать панель управления хостингом. Полезным будет плагин Yoast SEO, который предназначен для редактирования. При помощи него можно улучшить качество SEO наполнения WordPress. В результате будет создана оптимизированная версия сайта.

Проверка работы файла robots.txt

Для обнаружения ошибок можно применять сервис Яндекса, разработанный специально для Вебмастеров. Для этого нужно открыть страницу и перейти в инструменты, позволяющие сделать анализ. Содержимое файла будет автоматически обновлено. Для этого следует применить опцию «Проверить».

При обнаружении в структуре ошибок поисковая система укажет на строчки, в которых выявлена проблема. Разработчики получат рекомендации по их исправлению.

Рекомендации

Чтобы не тратить впустую время, используйте рекомендации опытных веб-мастеров. Однако и среди них есть те, на которые не стоит обращать внимание.

Ошибочные рекомендации

Не стоит заниматься частым прописыванием Sitemap. Одного раза будет вполне достаточно: robots.txt.
К устаревшим требованиям относят закрытие папок, таких как: wp-content, cache, themes, wp-includes. К примеру, при использовании хостинга Яндекса и Гугл их лучше не закрывать вообще.
Также не стоит закрывать страницы категорий и тегов. При условии, что контент на них дублируется, то закрытие их будет выглядеть вполне разумно. Но чаще всего продвижение сайтов происходит за счет этих страниц. Тогда при их закрытии часть трафика будет утеряна.
Одно из популярных правил среди разработчиков связано с прописанием Crawl-Delay. Но его следует использовать только в случае обязательного ограничения посещения сайта роботами. Если они не создают угрозы и не составляют нагрузку на сервер, то делать этого не нужно.

Спорные рекомендации

Не рекомендуется скрывать от индексации /page/, которые были созданы для разбивки товаров или услуг на несколько страниц. Для таких ресурсов нужно настроить тег rel=»canonical». Они посещаются роботом, и при этом особое расположение товаров/ услуг/ статей будет учтено.

К примеру, открытие папки только для определенных роботов, не всегда уместен. Для ранжирования страниц нужна полная информация о том, что на них размещено.

Нельзя закрывать /wp-admin/admin-ajax.php

Анализу подвергается как структура ресурса, так и запросы. На практике контент admin-ajax.php может использоваться плагинами. Поэтому роботы должны иметь доступ к его индексации.

Нельзя закрывать /wp-includes/

C началом применения Panda 4, Google распознает сайты так же как это делают CSS и JavaScript.

На сайтах они используются для блокировки индексации /wp-includes/. А тут хранятся файлы стилей и скриптов:

Они нужны для бесперебойного функционирования площадки, где применяются robots.txt для сайта на WordPress. Поэтому для Гугла они должны иметь такой же вид, как и для посетителей.

**Не закрывайте фиды: */feed**

Открытые фиды нужны для такой площадки, как, например, Яндекс Дзен. Особенно это важно, когда возникает необходимость подключения сайта к каналу. Фид обрабатывается не как HTML страница за счет особого формата в заголовках ответа. Учитывая их, поисковики различают их как особые элементы.

Зачем нужен robots.txt для сайта на WordPress и как его правильно настраивать?