//$currenturl = get_permalink(); $currenturl = 'https://'.$_SERVER['HTTP_HOST'].$_SERVER['REQUEST_URI'];;?>

отвечаем
в мессенджерах:

Гайд по robots.txt для начинающих SEO-специалистов

14 мин.

Абсолютно все сеошники сталкиваются с разработкой и настройкой robots.txt. Грамотно составленный документ позволяет быстрее индексировать страницы и занимать высокие позиции в выдаче по релевантным запросам. Мы написали простую инструкцию для начинающих SEO-специалистов: о том, что из себя представляет индексный файл и как его правильно настраивать.

Для чего нужен индексный файл?

Файл robots.txt — текстовый документ в кодировке UTF-8, ограничивающий краулерам доступ к контенту (разделам, страницам) вебсайта. Действует по протоколам URL (http, https и FTP).

В основном он нужен, чтобы:

От индексации обычно закрывают панель администратора, результаты поиска по сайту, страницы регистрации и авторизации, фиды, пустые или разрабатываемые страницы и т.д.

Краулинговый бюджет — предел страниц для сканирования поисковыми роботами за интервал времени. Расчёт производится с учетом пользовательского спроса и доступности сервера.

Иногда вместо индексного файла применяют noindex в мета-теге robots. Например, чтобы передать ссылочный вес страницы, убираемой из индекса. Добавляем в <head> мета-тег <meta name=”robots” content=”noindex, follow”>. 

Важно: директивы robots.txt и инструкция noindex в robots выступают как рекомендации и могут быть проигнорированы роботами.

Инструкция по работе с robots.txt

Перед тем, как приступать к созданию файла, необходимо убедиться в отсутствии robots.txt на сайте. Самый простой способ узнать о наличии такого файла — поместить URL-адрес сайта в браузер с добавлением /robots.txt. В результате произойдет одно из трёх событий:

  1. Найдете прописанный (пусть и не очень глубоко) файл
  2. Обнаружите практически пустой, но настроенный роботс
  3. Получите сообщение об ошибке 404, так как страницы не существует

Краткое руководство по созданию:

Необходимо ознакомиться с инструкциями по наполнению, директивами и синтаксисом файла.

Общие требования

Обращаем внимание, что для вебсайтов с поддоменами для каждого в корне указываются отдельные robots.txt.

Используемые директивы и синтаксис

Директивы прописывают инструкции для поисковых роботов. Каждая указывается с новой строки. Рассмотрим их назначение и особенности:

1. Обязательная директива User-agent. С ее помощью задаем правила для каждого робота:

image1

Поисковики выбирают специфичные (подходящие для них) правила и могут проигнорировать инструкции в *. Поэтому рекомендуется прописывать несколько агентов для каждого, разделяя наборы разрывом строки.

2-3. Allow и Disallow регулируют доступ к контенту для индексирования. Первая директива открывает, вторая — закрывает. Использование слэша (/) —  останавливает краулеров от сканирования содержимого сайта: Disallow: /

Однако  Disallow с пустой секцией равнозначен Allow.

Рассмотрим частный случай:

image2

В таком сочетании роботы просматривают только определенный пост блога, остальной контент для них недоступен.

4. Sitemap — прописывает положение карты сайта в xml формате. Такая навигация содержит URL страниц, обязательных к индексации. После каждого обхода роботом получим обновление информации о сайте в поиске с учетом всех изменений в файле.

Пример: Sitemap: https://site.com//sitemap.xml. 

5. Clean-param применяется дополнительно и действует для Яндекса.

Исключает динамические (UTM-метки) и get-параметры. Такие данные не влияют на содержимое страницы, следовательно, недопустимы к индексации.

Через «&» указываются параметры, после — префикс пути всех или отдельных страниц, к которым применяется правило:

Clean-param: parm1&parm2&parm3/            

Clean-param: parm1&parm2&parm3/page.html   

При наличии нескольких страниц с дублирующейся информацией целесообразнее свести их адреса к одному:

Clean-param: ref /some_dir/get_products.pl — содержит адреса страниц:

www.robot.com/some_dir/get_products.pl?products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_1&products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_2&products_id=123

www.robot.com/some_dir/get_products.pl?ref=site_3&products_id=123

Параметр ref используем, чтобы отследить ресурс, с которого поступил запрос.

6. Craw-delay определяет время для обхода страниц.

Пример: Crawl-delay: 2 — интервал в 2 секунды.

7. Через Host указываем главное зеркало сайта, чтобы избежать дублей в выдаче. При наличии нескольких значений учитывается только первое, остальные игнорируются.

Краулеры по-разному интерпретируют директивы. Яндекс соблюдает правила, описанные в файле. Google руководствуется собственными принципами. Поэтому при работе с ним рекомендуется закрывать страницы через мета-тег robots.

Спецсимволы «/, *, $, #»

Звездочка (*) учитывает последовательность символов. Символ $ сообщает об окончании строки и нейтрализует звездочку (*).

image3

После решетки «#» размещаем комментарии в той же строке. Их содержание игнорируется при сканировании.

Слэш «/» скрывает контент. Один слэш в Disallow не допускает к индексации весь сайт. Два знака «//» применяются для запрета на сканирование отдельной директории.

image4

Собираем данные, определяем нужные и «мусорные» страницы. С их учётом наполняем документ, не забывая про требования и инструкции. В итоге получаем готовый robots.txt вида:

image5

Открываем доступ к стилям и скриптам для корректного проведения рендеринга. В противном случае не удастся правильно проиндексировать содержимое, что отрицательно отразится на позиции сайта.

Внедряем Clean-param при наличии динамических ссылок или передаче параметров в URL. Использование Craw-Delay также необязательно и вступает в силу в случае нагрузки на ресурс.

Обратите внимание

Полное ограничение доступа краулерамсамая большая ошибка в использовании индексного файла. Поисковые системы перестанут сканировать ресурс, что может отрицательно отразиться на органическом трафике. Рекомендуем только дополнять и обновлять файл после тестирования каждого внесенного правила для своевременного исправления ошибок. При создании и внесении изменений в robots.txt применяем золотое правило: меньше строк, больше смысла.

В случае отказа от внедрения индексного файла краулеры будут сканировать ресурс без ограничений. При этом отсутствие такого файла не критично для малых сайтов. В противном случае, следует учитывать краулинговый бюджет и внедрять документ robots.

Важно: robots.txt — общедоступный файл. Пока существует вероятность индексации закрытого контента необходимо убедиться, что страницы с конфиденциальной информацией используют пароли и noindex.

комментарий специалиста для статьи пагинация

Павел Лапаревич, SEO-специалист GUSAROV:

Гугл уже давно воспринимает robots.txt как рекомендацию и спокойно индексирует страницы с параметрами и служебные страницы сайта (страницы регистрации, авторизации, корзины и т.д.). Смысла от прописывания директив и траты времени на него становится всё меньше. Более действенный способ настройки: вывод <meta name=»robots» content=»noindex»>. Страницы с таким мета тегом в robots.txt не закрываются. Но все же есть преимущество этого файла над noindex. Краулеры перестают переобходить страницы, закрытые в robots.txt, а, следовательно, экономится краулинговый бюджет. Поэтому для больших сайтов лучше использовать robots.txt и постоянно следить за индексом, закрывая страницы, которые поисковики продолжают индексировать с помощью noindex.

15.11.2019