Как создать файл robots.txt для WordPress
Содержание
Для успешной индексации сайтов существует масса критериев. Файл robots.txt как раз относится к числу таковых. Если его не будет, то результат может оказаться очень печальным, и… Исправить ситуацию окажется очень сложно.
От правильной настройки этого сайта напрямую зависит попадание в поисковую выдачу по конкретным запросам. Поэтому мы и решили поднять данную тему, рассказав о ней в представленном ниже материале.
Зачем нужен файл robots.txt?
Прежде чем начинать создавать сайт и наполнять файл robots.txt, нужно разобраться с тем, какую функцию он выполняет.
Ваш ресурс представляет собой набор файлов и папок. На некоторые из них следует установить защиту от чтения сторонними глазами. В данном случае речь идет про поисковых роботов, которые зашли ознакомиться с вашим контентом и запомнить его с целью дальнейшего помещения в поисковую выдачу.
Функции поискового робота
Например, вы создали сайт, и на него решил заглянуть поисковый робот. Чем он займется прежде всего? На первом этапе он начнет искать уникальный контент для внесения в свою базу данных.
Если файл robots.txt не был внедрен на сайт, то робот поисковика начнет чтение другой информации. Прежде всего это будут файлы, расположенные в корне сайта. Такой расклад нам точно не нужен. Ведь там расположена не только нужная роботу информация, но и данные настроек. А мы их создавали для себя.
Чтобы этого не произошло, и нужен упомянутый выше файл. Он указывает поисковым роботам путь, по которому им стоит пройти, ограничивая доступ туда, куда заходить не следует.
Создаём и закидываем файл robots.txt на сайт WordPress
Несмотря на сложность темы при первоначальном восприятии, на практике все оказывается гораздо проще. Нам понадобится прибегнуть к помощи стандартного блокнота. В нем указываются подходящие команды для поисковиков.
После успешного ввода, следует сохранить файл в формате txt. Назвать его нужно «robots». Это заключительный этап создания. Но какие же команды необходимо использовать? Об этом мы и поговорим ниже.
Место для размещения файла
Все элементарно, и наш файл нужно размещать на хостинге. Но куда именно? Здесь также нет ничего сложного. Его располагают в корневую папку, куда был перенесен наш сайт. В таком случае робот поисковой системы перед изучением сайта сначала поинтересуется, куда ему стоит заходить, а куда не нужно.
Внимание! Размещая документ в подкаталоги, роботы увы не найдут данный файл.
При посещении вашего ресурс робот знакомится с предназначенной для него инструкцией, изучая её во всех деталях. После завершения этого процесса он проследует по указанному для него пути индексации. А те директории, папки и URL на которые стоит запрет, он просто пропустит.
Что входит в файл robots.txt?
Файл состоит из информации для роботов поисковых систем. В него входят следующие команды.
- User-agent. Показывает на имя потенциального робота пользователя. Синтаксис “User-agent: *” свидетельствует о том, что эти команды обязаны выполнять все роботы. Существуют и исключения, но… Сейчас про них говорить мы не будем, т.к. это стоит отдельной статьи. Ввиду сказанного, для примера мы используем всего 2 варианта: для всех роботов и конкретно для Yandex.
- Disallow. Данная команда указывает путь, по которому не нужно ходить. По сути это запрет на чтение отмеченных вами адресов и файлов.
- Allow. Эта указывает рекомендованный «путь» на индексирование конкретного адреса либо файла.
- Host. Эта команда позволяет роботу понять, какой вариант ресурса будет основным его «зеркалом».
- Sitemap. Указывает, где находится XML-карта вашего сайта. По ней робот обязательно пройдется, просмотрев ту часть, ради которой и оказался на сайте.
Правила выбора robots для ресурса на Ворд Пресс
Правильная настройка файла подразумевает прохождение нескольких этапов. Изначально нужно понять, что интересует роботов при посещении вашего сайта.
А интересует их прежде всего контент вашего сайта. Им не важны другие, конфигурационные данные портала. Ведь прежде всего они им не интересны. И если они начнут их изучать, то в скором времени точно покинут сайт? Почему?
Да потому, что не найдут для себя полезной информации. Еще и в добавок к этому выведут запрещенные данные на всеобщее обозрение. Оно вам надо? Думаем что нет.
Если обратиться к необходимым директориям размещения в «роботс», то нам понадобится сначала иметь дело с корневой папкой портала. В ней содержится очень много стандартных файлов и папок. Поисковым роботам они также будут не интересны. Ведь там для них также нет ничего полезного. Поэтому, рекомендуется установить запрет на их посещение.
Сначала подумайте о том, чем к примеру, может обернуться индексация wp-config.php? А все просто. Робот просто представит вводные данные к вашим базам данных пользователям. Это для вас окажется крайне плохим знаком.
Сейчас мы представим вам готовый вариант. После поговорим отдельно обо все строчках. Итак, ваш файл robots.txt должен иметь следующий вид.
А сейчас вы увидите, как нам удалось сделать содержание файла настолько коротким. Ведь ниже для примера мы добавляем изображение с расширенной версией файла. При этом, постепенно удаляя повторы.
В данном случае будет стоять блокировка на индексацию всех ненужных для поисковой оптимизации файлов и ссылок. Мы указываем роботам лишь путь к тому контенту, который они должны проиндексировать.
Но для примера получилось очень много информации. Сейчас мы постараемся все упростить, чтобы вам было легче понять о чем идет речь. Изначально поработаем с файлами и папками, имеющими префикс “wp-“. Ведь их можно объединить в единый «организм».
Уменьшение оказалось достаточно внушительным, но… На этом останавливаться мы не будем. Ведь можно провести еще более масштабное сокращение. К тому же, нам доступна и установка внутренних настроек.
Все заключается в том, что в данном примере файла, Гугл в любом случае будет заносить запрещенные вами странички в индекс. Однако, они будут иметь немного другой вид.
Это не несет такой опасности, как к примеру открытые дубли, но… Рекомендуется избавиться от этого. Чтобы ситуация стала такой, как нам нужно, следует применить сразу несколько способов.
Описание метода
Мы расскажем о менее затратном и элементарном в выполнении варианте.
Им станет запрет на индекс страниц при помощи Google Webmasters Tools “Параметры URL”. К слову, в рекомендациях для yandex будет лучше оставить параметр «feed» в приведенном примере.
Убрали feed при помощи Гугл. Сейчас для альтернативы ставим запрет на индексацию пагинации с использованием плагина. Он, вероятнее всего уже применяется вами.
Если же ситуация обратна, то можно использовать один из существующих альтернативных вариантов. К примеру, All in One SEO и его настройки тегов “robots” и “canonical”.
Для установки запрета на индексацию не нужным нам страниц поисковыми системами (к примеру, главная, рубрики и метки) не понадобится многого. Следует лишь установить отметки в требуемых места.
Сперва активируем канонически ссылки на основные странички. Это позволит избежать их дублирования.
Что сейчас произошло? Да все, что нам и требовалось. Нами была указан на страницах дублирующих наш контент ссылку на главную страничку. Это даст роботу понять, что именно она должна быть просканирована и является основным контентом. А сейчас можем добавлять и мета тег в «роботс».
Внеся необходимые настройки нам приходится вновь обратиться к нашему варианту файла. А именно, необходимо ознакомиться с тем, что у нас вышло.
Что касается рубрик и методов, то мы сталкиваемся со спорным вопросам. Ведь можно провести оптимизацию рубрик. А это даст результат, при котором странички ваших категорий будут безвредными, и наоборот, станут нести пользу в виде дополнительного трафика. Метки же в свою очередь вы можете подогнать под поисковые системы ровно так же, как и рубрики.
Если установленная тема задействует картинки, то в таком случае их также рекомендуется открыть для индексации:
Allow: /wp-content/themes/название вашей темы/images
Если этот шаг будет проигнорирован, то можно столкнуться с проблемами поисковых систем. Ведь им не нравится, когда владельцы сайтов пытаются скрыть от них важные данные.
Пример может расширяться очень долго. К примеру, путем внедрения запрета на индексацию конкретных ссылок на странички. Чаще всего это страницы, дублирование которых негативно сказываются на процессе оптимизации.
Чаще всего в документе не обозначают конкретно для всех роботов поисковых систем по отдельности. Лучше отдать предпочтение двум наборам команд. Первый предназначен для всех, а второй как мы упоминали в начале статьи для Yandex.
Host следует указать в обязательном порядке. Если решите этим пренебречь, то произойдет дублирование индексации страничек между www.site.ru и site.ru. Результат — рассеивание трафика. А это негативно повлияет на ваш портал.
Вывод
Если вы не знаете, как создавать XML-карту сайта, то обратитесь к нашим урокам по работе с платформой WordPress. Мы обязательно поможем вам!
А на этой ноте статья подошла к логическому завершению. Используйте все рекомендации и примеры из неё. Ведь это приведет к правильной индексации ваших страниц. В итоге сайт будет продвигаться, что принесет пользу как вам, так и вашим посетителям. Удачи!
Насколько публикация полезна?
Нажмите на звезду, чтобы оценить!
Средняя оценка 0 / 5. Количество оценок: 0
Оценок пока нет. Поставьте оценку первым.
или использовать другой более современный.