
Наверняка вы неоднократно сталкивались с понятием robotx.txt и уже знаете, как его правильно использовать. Однако если вы ещё не в курсе, то robots.txt — это специальный текстовый файл, который содержит инструкцию для роботов поисковых систем. С помощью использования данного файла можно запретить индексацию отдельных страниц или разделов сайта, правильно указать зеркало домена и прописать путь к sitemap.xml. Конечно, существует ещё множество параметров, но мы рассмотрим только команды для конкретной платформы WordPress, поскольку на сегодняшний день она является самой популярной в рунете.
Составление правильного файла robots.txt должно осуществляться уже на первых этапах создания сайта либо его продвижения. Если вы не уверены, что справитесь с этой операцией, тогда лучше воспользоваться услугами специалиста, потому что малейшие ошибки в содержании robots.txt могут привести к серьёзным проблемам индексации сайта. Его грамотное использование поможет вам слегка ускорить процесс продвижения позиций и с огромной вероятностью избежать наложения различных санкций.
Если у вас обычный сайт, то rss feeds в файле robots.txt желательно закрывать от индексации, а если блог – оставлять открытыми, поскольку некоторые роботы поисковых систем ходят исключительно по ним. Рубрики, архивы и теги тоже лучше исключать, чтобы избежать дублирования контента на сайте, которое в дальнейшем может привести к наложению санкций со стороны поисковых систем.
Основные команды, необходимые при составлении правильного файла robots.txt для WordPress:
User-Agent
Указывает имя робота поисковой системы, для которого предназначены правила файла robots.txt.
Allow и Disallow
Разрешает и запрещает доступ роботам поисковых систем к отдельным разделам на сайте.
Host
Обозначает главное зеркало сайта, которое предназначается для поисковой системы Яндекс.
Sitemap
Назначает наличие и путь для роботов поисковых систем карты записей сайта в формате xml.
Мой вариант файла robots.txt для WordPress, который используется на данном блоге:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /archive
Disallow: /author
Disallow: /tag
Disallow: /?s=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Более подробно об использовании robots.txt: http://help.yandex.ru/webmaster/?id=996567


Команду Allow понимают не все поисковые системы, поэтому лучше её ставить в конце файла robots.txt
для яшки отдельно бы написать
Спасибо за подробную информацию. Кстати ещё прикалываются и пишут законы робототехники в robots :)