Пожалуй, все знают, что такое robots.txt и зачем он нужен на вашем сайте, но не многие знают как правильно оформить его, и еще меньшее количество людей знает обо всех возможностях этого инструмента вебмастера и оптимизатора. Зная всю полноту возможностей, которые открываются при должном использовании файла robots.txt можно в несколько раз упростить работу сайта, ускорить его индексацию и пр.
Советы по заполнению
Далее мы попытаемся составить подробные и наглядные рекомендации о том как заполнять файл robots.txt. Часть из них будет полезна любому человеку, который регулярно работает с сайтами. Другая же часть может быть применима в более редких и исключительных случаях.
- Прописываем главное зеркало сайта в robots.txt.
Главное зеркало сайта прописывается с помощью директивы host. Этот параметр работает в первую очередь для Яндекса, так что для остальных поисковых систем нет смысла заполнять его. Оформляется это следующим образом — Host: www.вашсайт.ru, где последнее – главное зеркало сайта (может быть с www или без); после двоеточия обязательно идет пробел. - Указываем путь к карте сайта.
Путь к карте указывается с помощью директивы sitemap. Для этого заранее необходимо разместить созданную карту сайта на хостинге в главной директории сайта. Путь записываем следующим образом – Sitemap: http://вашсайт.ru/sitemap.xml - Запрещаем индексацию страниц сайта и каталогов.
Чтобы запретить от индексации страницы сайта или каталоги используем директиву Disallow. Например запретить страницу index.html можно следующим образом – Disallow: http://вашсайт.ru/index.html или Disallow: /index.html.
Если же вам нужно запретить от индексации какой-либо раздел сайта или каталог (все страницы в нем), то это можно записать следующим образом — Disallow: /catalog1/* или Disallow: /catalog1/. Символ * говорит обо всех страницах, находящихся в данном каталоге.
Disallow: /post — закрывает от индексации все страницы, начинающиеся с фразы post.
Если подытожить первые три пункта, то мы имеем вид стандартного файла robots.txt для вашего сайта:
User-agent: Yandex Disallow: /index.html Host: www.вашсайт.ru
Sitemap: http://www.вашсайт.ru/sitemap.xml
User-agent: * Disallow: /index.html
Sitemap: http://www.вашсайт.ru/sitemap.xml