Правильный robots.txt для Joomla

Правильный robots.txt для JoomlaЗдравствуйте уважаемые читатели блога Lessons-Joomla.ru. В этой статье поговорим как составить правильный файл robots.txt для Joomla. Он играет важнейшую роль для правильной, быстрой индексации вашего проекта, и если robots.txt составлен не верно, то некоторые страницы вашего сайта вообще могут быть исключены поисковиками, а дублированные и мусорные попадут в индекс, что естественно отрицательно скажется на поисковой выдаче и ваши усилия по оптимизации сайта пойдут прахом.

И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.

Давайте рассмотрим основные директивы и правила этого файла.

Директивы и правила написания файла robots.txt.

Файл начинается с наиболее важной директивы -User-agent – она содержит название поискового робота. Для всех поисковых роботов - User-agent: *, а для Яндекса добавляем в User-agent название Yandex - User-agent: Yandex.

Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.

Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.

Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.

Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.

Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).

И последняя важная директива - Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.

Правильный robots.txt для Joomla

Правильный файл robots.txt для Joomla которую использую я на этом сайте, выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Sitemap: http://путь к вашей карте XML формата

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://путь к вашей карте XML формата

Кстати, если вы хотите просмотреть роботс любой интернет-площадки, то достаточно дописать в командной строке браузера к url /robots.txt, допустим http://lessons-joomla.ru/robots.txt.

Да и необходимо знать, что у поисковых систем Google и Яндекс по мимо основных имеются специальные роботы для индексации новостей, изображений и т.д., так что не забудьте открыть для индексации изображения с вашего сайта. По умолчанию в robots.txt Joomla стоит Disallow: /images/. Удалите эту директиву.

Удачи!

Добавить комментарий


Защитный код
Обновить