Файл Robots.txt для блога на WordPress. Пример

Сегодняшняя статья будет посвящена служебному файлу нашего сайта, который служит путеводной звездой для поисковых роботов. Это файл Robots.txt, для блога на WordPress он является обязательным, так как данная CMS склонна к созданию большого числа страниц и файлов, которые не нужны ни поисковикам ни пользователям.

Пример файла Robots.txt для WordPress

Неопытные вебмастера нередко пренебрегают данным элементом внутренней оптимизации блога (кто-то о нем не знает, кто-то забывает, а кто-то составляет неправильно). Результатом может стать медленная индексация, постоянные мигания страниц в индексе, но еще хуже — это выпадение нужные документов сайта из выдачи.

Размещается robots.txt в корневой папке сайта, там же где и основной index.php, например, в каталоге public_html. В роботсе прописываются инструкции, по которым происходит индексация сайта поисковыми роботами. С помощью специальных команд (директив) мы запрещаем или разрешаем ботам читать те или иные страницы, прописываем главное зеркало сайта и даем путь к xml карте сайта (Sitemap.xml).

Польза Robots.txt заключается в том, что он запрещает индексировать поисковикам служебные разделы сайта и показывает на те разделы, которые должны попасть в индекс.

Правильный Роботс помогает ускорить индексацию сайта., так как боты не тратят время на чтение ненужных документов. Если данный файл будет составлен некорректно, то поисковики, наоборот, могут выкинуть из индекса нужные страницы, поэтому стоит подойти к его составлению ответственно.

Как создать файл Robots.txt?

Создается Robots.txt любым текстовым редактором, включая блокнот (разрешите порекомендовать вам Notepad++, либо Akelpad, которые имеют некоторые фишки, отсутствующие в блокноте). В файле по порядку прописываются команды общие для всех поисковых систем или индивидуальные для каждого типа робота. Далее файлик размещается в корень сайта на вашем хостинге (папка «/public_html»). Для поисковых роботов данный файл является самым первым, он начинает чтение сайта с него.

Как настроить Роботс.txt?

Формирование правильного файла осуществляется с помощью 3-х основных команд (их понимают все роботы).

1. User-agent

Эта комнада обращается по имени к роботам и указывает какая поисковая система должна воспринимать следующий ниже блок команд.
Например:

С помощью знака «*», можем указать, что данный блок для всех входящих роботов. Выглядит так:

2. Команда Disallow

Disallow — это директива, которая служит сторожем для запретных разделов. Все что идет после нее восприниматься поисковиками не должно. Такая структура полностью запрещает индексацию сайта:

Данный вариант, наоборот, разрешает роботам вытаскивать в поиск все документы, найденные на сайте:

3. Разрешение индексации Allow

Все, что идет после этой команды рекомендовано к попаданию в поиск.

Что открывать, а что закрывать в Robots.txt?

Неверное использование директив может привести к печальным последствиям, о них я уже говорил выше. поэтому, отнеситесь внимательно к написанному ниже. Страницы, которые создают дублированный контент и скапливают мусор, должны быть исключены из поиска, также необходимо закрывать все, что не должно попадать в поисковую выдачу. Служебные, технические и системные файлы WordPress стоят первыми в очереди на запрет. А конкретнее:

Папки:

Файлы:

Для того, чтобы не пришлось перечислять каждую папку в дереве папок сайта, можно использовать взаимоисключающие директивы. Например, папка «wp-content» содержит вложенный каталог «uploads», в котором хранятся все изображения статей. Мы хотим получать переходы на сайт не только с текстового поиска, но и с поиска по картинкам, поэтому «uploads» нужно открыть, а «wp-content» закрыть. Для этого используем запрещающую команду для папки верхнего уровня и разрешающую для папки нижнего уровня. В результате в папке «wp-content» запрещенными останутся все разделы, кроме «uploads». Выглядеть будет вот так:

WordPress часто выдает одинаковый текст по разным URL, от появления дублей мы должны избавиться:

В ленте RSS:

В Трэкбэках:

Для комментариев:

Для результатов поиска:

Для архивов:

Пример файла Robots.txt для WordPress

Если у вас есть желание поэкспериментировать в самостоятельным составлением файла, то вы можете это сделать. Это не так сложно, но вы можете не тратить время и взять готовый пример файла robots.txt для WordPress, который уже сделан мной. Он учитывает все важные моменты и даст поисковикам правильные подсказки.

Не забудьте вместо адреса моего блога, поставить свой.

Дальше, с помощью ФТП клиента filezilla, закиньте созданный файл в корень сайта, в моем случае это «/public_html». Имя и местоположение файла стандартизировано, поэтому поисковые роботы его сразу там найдут. Правда, все правила, которые мы прописали начнут действовать не сразу, а спустя какое-то время.

Файл Robots.txt для блога на WordPress. Пример: 8 комментариев

  1. User-agent: *
    Allow: /wp-content/themes/frontend
    Disallow: /wp-includes
    Disallow: /wp-feed
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Host: http://filwebs.ru
    Sitemap: http://filwebs.ru/sitemap.xml

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/

    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Здравствуй, вот мой роботс и все норм. Админка итак не индексируется. А путь к теме открыл ко всей. Google рекомендует.

    Ответить
  2. По поводу рекомендаций от Гугл я согласен, стоит открыть доступ к файлам темы и скриптам. Я сам открыл их недавно (уже после того как писал этот пост) — эффект пока неизвестен, видимых движений в выдаче не заметил, но раз поисковик просит, почему бы не дать ему доступ.
    Сейчас в тексте статьи дополнение внесу.

    Ответить
  3. Дубли страниц — вреднейшая для продвижения сайта вещь — и их нужно не закрывать от индексации, а удалять физически, а лучше всего правильно настраивать платформу и использовать спец. плагины. Все остальное должно быть открыто в роботс. Имея постоянно дело с сайтами заказиков, сделал статистически важный вывод — в роботс должно быть открыто все. Все сайты разного качества и часто с невнятными внутренними связями и структурой, закрытие чего-то часто приводит к выпаданию контентно важных страниц…

    Ответить
  4. В идеале я с вами согласен, только идеальными сами CMS бывают не всегда и физическое удаление дублей не всегда возможно. Хотя, наиболее распространенные варианты, типа страниц авторов, месячные архивы и т.п. убрать можно и нужно.

    А вот как обосновать открытие служебных разделов я не очень понимаю. Теоретически поисковик может отправить в выдачу любой документ, найденный на сайте — и зачем там страница входа в админку?

    Ответить
  5. Поисковик в наше время видит все и вещи типа noindex nofollow или роботс — не преграда. Через эти атрибуты или ограничения мы лишь высказываем поисковику свои пожелания, а его алгоритмы системно решают….

    Ответить
  6. С этим никто не спорит. Сами поисковики пишут, что robots — это рекомендательный файл. Директивы в нем говорят роботам — что нужно включать в поиск, а что нет, но, как правило, поисковые системы к этим советам прислушиваются (по крайней мере в моем опыте это всегда было так).

    Ответить
  7. Сейчас к различным запрещениям нужно подходить осторожнее, вначале посмотреть рекомендации гугла, а уже потом запрещать. wp-includes запрещать не стоит.

    Ответить
    1. Я для эксперимента 2 месяца назад открыл все файлы и папки, которые просил гугл — никаких движений в поиске от этого не произошло. Также не произошло ничего с индексацией ресурса.
      Возможно, какую-то роль просьбы гугла и играют, но явно не значительную. Так что я бы тут сказал — пусть каждый сам решает что открыть, что закрыть.
      В статье же я старался оговаривать те моменты, которые важны на 100%.

      Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *