Создание правильного файла robots.txt

6 октября 2011 3 комментария

Всех ботов можно разделить на два типа – «невежливые» и «вежливые». К первому типу относятся все роботы, которые ведут себя на сайте так, как им заблагорассудится. Это, в первую очередь, различные парсеры контента, спамеры и прочая нечисть. «Вежливыми» роботами условно называют тех, которые свое посещение сайта начинают с файла robots.txt. Это, как правило, роботы поисковых систем.

Итак, файл robots.txt — это небольшая памятка для поисковиков, которая объясняет, что можно им делать на сайте, а что нельзя. Файл robots.txt должен находиться в корне каждого сайта. С его помощью можно закрыть от индексации отдельные файлы или целые директории на ресурсе, указать роботу на правильное «зеркалирование» домена, установить интервал между скачиваниями файлов.

Сам Яндекс в своей документации рекомендует всем веб-мастерам создавать robots.txt для качественного сайта и указывать в нем инструкции для ботов.

Как создать robots.txt

Создать robots.txt не сложно. Для этого потребуется любой текстовый редактор (например, стандартный блокнот или более «продвинутый» Notepad++). В первой строке нужно указать, для какого робота предназначены указания.

Например:

User-agent: * — такая надпись означает, что указания распространяются на всех роботов.
User-agent: googlebot – только для Гугла.
User-agent: Yandex – только для Яндекса.
User-agent: Slurp — только для Yahoo!

Далее нужно указать для роботов список инструкций. Каждая инструкция – с новой строки.
Disallow: — запрещает индексацию документа или целой директории.

Например:

Disallow: /contacts.html – запрет индексации страницы contacts.html.
Disallow: /cgi-bin/ — запрет индексации каталога /cgi-bin/.

Обратите внимание, что для запрета индексации нужно указывать относительный url. Запись типа «Disallow: http://site.ru/contacts.html» будет не верной!

Crawl-delay: — устанавливает временной промежуток, который робот должен выдерживать между загрузками страниц. Сейчас эта директива практически не применяется, так как поисковики по умолчанию используют задержку в 1-2 секунды.

Например:

Crawl-delay: 10 – пауза между скачиванием страниц равняется 10 сек.

Allow: — разрешает доступ к конкретному документу или директории. Эту директиву удобно использовать, чтобы разрешить индексировать несколько файлов из каталога, который в целом к индексации запрещен.

Вот такая конструкция запретит индексировать все файлы директории users, кроме marina.html:

Allow: /users/marina.html
Disallow: /users/

Host: — указывает Яндексу на главное зеркало домена.

Например:

Host: site.ru – главное зеркало домена без www.

Создание robots.txt займет несколько минут, зато поможет роботам правильно индексировать ваш сайт. Чтобы проверить, корректно ли составлен файл, можно воспользоваться специальными сервисами от Яндекса или от Гугла. Узнать подробнее о файле robots.txt для Яндекса и найти все инструкции можно тут.

Далее, я покажу примеры robots.txt для DLE и WordPress. Сам я использую только эти движки.

Robots.txt для Worpdpress

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: */trackback/
Disallow: /feed/
Disallow: */feed/
Disallow: /?feed=
Disallow: /*page/
Disallow: /tag/
Disallow: /?s=

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Как видите, я не закрываю комментарии от поисковых ботов и считаю это правильным. Главное теперь фильтровать комментарии, отсеивая спам и комментарии не по теме. Также я не запрещаю к индексации страницы категории в WP. На собственных сайтах заметил, что категории собирают достаточно много поискового трафика при грамотной их оптимизации. А вот теги я закрываю. Ибо слишком много они создают дублей контента, что не приветствуется поисковыми системами.

Robots.txt для DLE

Вот такой роботс я использую для дле:

User-Agent: *
Disallow: /admin.php
Disallow: /index.php?do=lastcomments
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=search
Disallow: /index.php?do=addnews
Disallow: /index.php?do=sendfriend
Disallow: /autobackup.php
Disallow: /*engine/modules/
Disallow: /*engine/
Disallow: /user/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /newposts/
Disallow: /*print
Disallow: /*?cstart
Disallow: /templates/
Disallow: /*page/

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Все почти тоже самое, что и для ВП. Запрещаю индексировать всякий хлам.
Думаю, такой файл Robots.txt можно назвать правильным. Если кто-то хочет поспорить с этим, приглашаю в комментарии. Также задавайте вопросы, если что-то не понятно по созданию этого файла.

3 комментария

Андрей
31 октября 2011 at 0:02

Скажите, это готовые файлы для их использования?

Ответ для Андрей
vakul64
8 ноября 2011 at 17:02

Спасибо за статью, хотя для тупого не совсем понятно. Неплохо бы расписать более подробно, какая стока что запрещает к индексации. И еще: если прописать такую строку — Disallow: /wp-admin/ — это закроет от поисковика все служебные файлы? Какую роль после этого играют эти две строки:
Allow: /wp-content/uploads/
Disallow: /wp-content/

Ответ для vakul64
Реклама
20 ноября 2011 at 17:42

А какую функцию выполняет тег Crawl-delay ?
Обновил сейчас только свой роботс на ВП, посмотрим какие будут результаты…

Ответ для Реклама

Добавить комментарий