Сегодняшняя статья будет посвящена служебному файлу нашего сайта, который служит путеводной звездой для поисковых роботов. Это файл Robots.txt, для блога на WordPress он является обязательным, так как данная CMS склонна к созданию большого числа страниц и файлов, которые не нужны ни поисковикам ни пользователям.
Неопытные вебмастера нередко пренебрегают данным элементом внутренней оптимизации блога (кто-то о нем не знает, кто-то забывает, а кто-то составляет неправильно). Результатом может стать медленная индексация, постоянные мигания страниц в индексе, но еще хуже — это выпадение нужные документов сайта из выдачи.
Размещается robots.txt в корневой папке сайта, там же где и основной index.php, например, в каталоге public_html. В роботсе прописываются инструкции, по которым происходит индексация сайта поисковыми роботами. С помощью специальных команд (директив) мы запрещаем или разрешаем ботам читать те или иные страницы, прописываем главное зеркало сайта и даем путь к xml карте сайта (Sitemap.xml).
Польза Robots.txt заключается в том, что он запрещает индексировать поисковикам служебные разделы сайта и показывает на те разделы, которые должны попасть в индекс.
Правильный Роботс помогает ускорить индексацию сайта., так как боты не тратят время на чтение ненужных документов. Если данный файл будет составлен некорректно, то поисковики, наоборот, могут выкинуть из индекса нужные страницы, поэтому стоит подойти к его составлению ответственно.
Как создать файл Robots.txt?
Создается Robots.txt любым текстовым редактором, включая блокнот (разрешите порекомендовать вам Notepad++, либо Akelpad, которые имеют некоторые фишки, отсутствующие в блокноте). В файле по порядку прописываются команды общие для всех поисковых систем или индивидуальные для каждого типа робота. Далее файлик размещается в корень сайта на вашем хостинге (папка «/public_html»). Для поисковых роботов данный файл является самым первым, он начинает чтение сайта с него.
Как настроить Роботс.txt?
Формирование правильного файла осуществляется с помощью 3-х основных команд (их понимают все роботы).
1. User-agent
Эта комнада обращается по имени к роботам и указывает какая поисковая система должна воспринимать следующий ниже блок команд.
Например:
User-agent: Yandex
С помощью знака «*», можем указать, что данный блок для всех входящих роботов. Выглядит так:
User-agent: *
2. Команда Disallow
Disallow — это директива, которая служит сторожем для запретных разделов. Все что идет после нее восприниматься поисковиками не должно. Такая структура полностью запрещает индексацию сайта:
User-agent: * Disallow: /
Данный вариант, наоборот, разрешает роботам вытаскивать в поиск все документы, найденные на сайте:
User-agent: * Disallow:
3. Разрешение индексации Allow
Все, что идет после этой команды рекомендовано к попаданию в поиск.
User-agent: * Allow: /
Что открывать, а что закрывать в Robots.txt?
Неверное использование директив может привести к печальным последствиям, о них я уже говорил выше. поэтому, отнеситесь внимательно к написанному ниже. Страницы, которые создают дублированный контент и скапливают мусор, должны быть исключены из поиска, также необходимо закрывать все, что не должно попадать в поисковую выдачу. Служебные, технические и системные файлы WordPress стоят первыми в очереди на запрет. А конкретнее:
Папки:
Disallow: /wp-admin #админка сайта в поиске никчему Disallow: /wp-content Disallow: /wp-includes Disallow: /wp-comments
Файлы:
Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php
Для того, чтобы не пришлось перечислять каждую папку в дереве папок сайта, можно использовать взаимоисключающие директивы. Например, папка «wp-content» содержит вложенный каталог «uploads», в котором хранятся все изображения статей. Мы хотим получать переходы на сайт не только с текстового поиска, но и с поиска по картинкам, поэтому «uploads» нужно открыть, а «wp-content» закрыть. Для этого используем запрещающую команду для папки верхнего уровня и разрешающую для папки нижнего уровня. В результате в папке «wp-content» запрещенными останутся все разделы, кроме «uploads». Выглядеть будет вот так:
Disallow: /wp-content #вход поисковикам запрещен Allow: /wp-content/uploads/ #папка с картинками будет индексироваться
WordPress часто выдает одинаковый текст по разным URL, от появления дублей мы должны избавиться:
В ленте RSS:
Disallow: */feed
В Трэкбэках:
Disallow: */trackback
Для комментариев:
Disallow: */comments
Для результатов поиска:
Disallow: /*?
Для архивов:
Disallow: */20
Пример файла Robots.txt для WordPress
Если у вас есть желание поэкспериментировать в самостоятельным составлением файла, то вы можете это сделать. Это не так сложно, но вы можете не тратить время и взять готовый пример файла robots.txt для WordPress, который уже сделан мной. Он учитывает все важные моменты и даст поисковикам правильные подсказки.
User-agent: * Disallow: /wp-admin Disallow: /wp-content Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-login.php #запрещаем доступ в админку Disallow: /wp-register.php Disallow: */trackback Disallow: /xmlrpc.php Disallow: */feed Disallow: */author #запрещаем страницы авторов Allow: /wp-content/uploads/ #файлы изображений в постах Allow: /wp-content/themes/orange_green/ #доступ к файлам темы Allow: /wp-content/plugins/ #скрипты плагинов Allow: /wp-includes/js/ #скрипты wordpress host: dmitriyzhilin.ru Sitemap: https://dmitriyzhilin.ru/sitemap.xml
Не забудьте вместо адреса моего блога, поставить свой.
Дальше, с помощью ФТП клиента filezilla, закиньте созданный файл в корень сайта, в моем случае это «/public_html». Имя и местоположение файла стандартизировано, поэтому поисковые роботы его сразу там найдут. Правда, все правила, которые мы прописали начнут действовать не сразу, а спустя какое-то время.
User-agent: *
Allow: /wp-content/themes/frontend
Disallow: /wp-includes
Disallow: /wp-feed
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: http://filwebs.ru
Sitemap: http://filwebs.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
Здравствуй, вот мой роботс и все норм. Админка итак не индексируется. А путь к теме открыл ко всей. Google рекомендует.
По поводу рекомендаций от Гугл я согласен, стоит открыть доступ к файлам темы и скриптам. Я сам открыл их недавно (уже после того как писал этот пост) — эффект пока неизвестен, видимых движений в выдаче не заметил, но раз поисковик просит, почему бы не дать ему доступ.
Сейчас в тексте статьи дополнение внесу.
Дубли страниц — вреднейшая для продвижения сайта вещь — и их нужно не закрывать от индексации, а удалять физически, а лучше всего правильно настраивать платформу и использовать спец. плагины. Все остальное должно быть открыто в роботс. Имея постоянно дело с сайтами заказиков, сделал статистически важный вывод — в роботс должно быть открыто все. Все сайты разного качества и часто с невнятными внутренними связями и структурой, закрытие чего-то часто приводит к выпаданию контентно важных страниц…
В идеале я с вами согласен, только идеальными сами CMS бывают не всегда и физическое удаление дублей не всегда возможно. Хотя, наиболее распространенные варианты, типа страниц авторов, месячные архивы и т.п. убрать можно и нужно.
А вот как обосновать открытие служебных разделов я не очень понимаю. Теоретически поисковик может отправить в выдачу любой документ, найденный на сайте — и зачем там страница входа в админку?
Поисковик в наше время видит все и вещи типа noindex nofollow или роботс — не преграда. Через эти атрибуты или ограничения мы лишь высказываем поисковику свои пожелания, а его алгоритмы системно решают….
С этим никто не спорит. Сами поисковики пишут, что robots — это рекомендательный файл. Директивы в нем говорят роботам — что нужно включать в поиск, а что нет, но, как правило, поисковые системы к этим советам прислушиваются (по крайней мере в моем опыте это всегда было так).
Сейчас к различным запрещениям нужно подходить осторожнее, вначале посмотреть рекомендации гугла, а уже потом запрещать. wp-includes запрещать не стоит.
Я для эксперимента 2 месяца назад открыл все файлы и папки, которые просил гугл — никаких движений в поиске от этого не произошло. Также не произошло ничего с индексацией ресурса.
Возможно, какую-то роль просьбы гугла и играют, но явно не значительную. Так что я бы тут сказал — пусть каждый сам решает что открыть, что закрыть.
В статье же я старался оговаривать те моменты, которые важны на 100%.
Вот в этой статье dampi.ru/pravilnyiy-robots-txt-dlya-sayta-na-wordpress автор утверждает о том, что если открыть uploads для всех ботов, то в индексе появляются загруженные PDF и прочие текстовые файлы. А в яндекс вебмастере, в отчете «Исключенные страницы» появляются сообщения об ошибке при индексировании картинок, мол содержимое не поддерживается. Вот и не знаю кому верить…
Вы сами решаете что показывать. Яндекс и Гугл хотят видеть картинки. Если нужно запретить pdf или другие типы файлов, то сделайте это отдельной директивой.