Правильный robots.txt для Joomla
Здравствуйте уважаемые читатели блога Lessons-Joomla.ru. В этой статье поговорим как составить правильный файл robots.txt для Joomla. Он играет важнейшую роль для правильной, быстрой индексации вашего проекта, и если robots.txt составлен не верно, то некоторые страницы вашего сайта вообще могут быть исключены поисковиками, а дублированные и мусорные попадут в индекс, что естественно отрицательно скажется на поисковой выдаче и ваши усилия по оптимизации сайта пойдут прахом.
И так, файл robots.txt, это текстовый файл, который находиться в корне вашего сайта и говорит поисковым роботам как именно индексировать ваш проект. На какие страницы не стоит обращать внимание, а каким уделить особое внимание.
Если в файле robots.txt не правильно определить правила для поисковых роботов, то они проиндексируют много мусорных страниц, и может произойти многократное дублирование информации вашего сайта, то есть одна и та же статья будет доступна по разным ссылкам а это не есть хорошо.
Давайте рассмотрим основные директивы и правила этого файла.
Директивы и правила написания файла robots.txt.
Файл начинается с наиболее важной директивы -User-agent – она содержит название поискового робота. Для всех поисковых роботов - User-agent: *, а для Яндекса добавляем в User-agent название Yandex - User-agent: Yandex.
Следущие это Allow и Disallow. Первая разрешает, а вторая запрещает индексацию поисковым роботам.
Ваш правильный файл robots.txt должен содержать как минимум одну директиву «Disallow» соответственно после каждой записи «User-agent». А вот если вы оставите совсем пустой файл robots.txt, то поисковые машины будут индексировать ваш ресурс полностью, и в индекс попадет много мусорных и дублированных страниц.
Также необходима директива Host – которую понимает только поисковая система Яндекс, она служит, для определения главного зеркала вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим с www и без, что для поисковых систем это является двумя разными сайтами.
Так как директиву Host понимает только Яндекс, то для этого нужно использовать отдельно User-agent: Yandex, а для указания действий к индексации другим поисковым роботам использовать директиву User-agent.
Да и при составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение).
И последняя важная директива - Sitemap. Она показывает поисковикам где у вас на блоге расположена карта сайта в формате .xml.
Правильный robots.txt для Joomla
Правильный файл robots.txt для Joomla которую использую я на этом сайте, выглядит так:
Кстати, если вы хотите просмотреть роботс любой интернет-площадки, то достаточно дописать в командной строке браузера к url /robots.txt, допустим http://lessons-joomla.ru/robots.txt.
Да и необходимо знать, что у поисковых систем Google и Яндекс по мимо основных имеются специальные роботы для индексации новостей, изображений и т.д., так что не забудьте открыть для индексации изображения с вашего сайта. По умолчанию в robots.txt Joomla стоит Disallow: /images/. Удалите эту директиву.
Удачи!