На сайте обязательно должен быть создан текстовый файл, который называется robots.txt. Он публикуется в корне сайта именно с таким названием и должен открываться по адресу вашдомен/robots.txt.
Например, на нашем сайте это http://veresk.top/robots.txt.
Создается он в обычном “Блокноте” и автоматически имеет расширение txt.
Данный файл ― инструкция для роботов поисковых систем. Они заходят в него, анализируют содержимое и на основе этого принимают решения по поводу того, что индексировать на вашем сайте, а что нет.
Зачем может пригодиться robots.txt:
- ограничить доступ к индексации повторяющегося контента;
- ограничить доступ к технических файлам и папкам;
- ограничить доступ ко всему сайту, запретить его к индексации (например, это может пригодиться на этапе создания и тестирования ресурса);
- прописать основное зеркало сайта и др.
Для наглядности публикую пример файла robots.txt, который создан для нашего сайта Вереск:
User-agent: *
Disallow: /wp-admin/
Host: veresk.top
sitemap: http://veresk.top/sitemap.xml
А теперь предлагаю обсудить по порядку, что это за строчки и чем они могут быть полезны.
User-agent
Робот мыслит строго и логически, поэтому у данного файла есть определенная структура.
Он обязательно начинается с User-agent, в котором указывается, для кого написано данное правило. Если поставить звездочку *, то это будет означать: для любой поисковой системы.
Пример:
User-agent: *
Можно задавать отдельные сведения для конкретных поисковиков. Но в любом случае робот, например, Яндекса, первым делом ищет директиву User-agent: Yandex (она в приоритете для него), если не находит, то тогда ищет User-agent: * и читает ее. Если нет ни того, ни другого, то робот Яндекса считает, что особых условий нет и доступ к сайту не ограничен, т.е. можно индексировать все страницы сайта.
Allow и Disallow
Следующий пункт после юзер-агента ― это директивы разрешения и запрета, которые именуются Allow и Disallow. Они нужны для того, чтобы дать роботу рекомендации, например, не индексировать какой-то раздел сайта. Наиболее встречающаяся проблема ― повторяющийся контент. Нередко у Главной страницы есть дубль вида /index.php. И его разумно закрыть от индексации.
Хотелось бы остановиться на особенностях web синтаксиса. В сущности сайт ― это некоторое количество структурированных ссылок, связанных в единое целое. Если внутри документов сайта стоит ссылка, которая начинается со слэша / то это значит, речь идет о внутренних ссылках в рамках одного домена. По умолчанию подразумевается, что до слэша идет сам домен, который является ссылкой первого уровня.
Если в роботсе написана строка вида
Disallow: /
и нет никаких строчек с Allow, это означает, что весь сайт запрещен к индексации, т.е. ни одной страницы не будет выдаваться в поиске.
А если к этому будет добавлена, например, строка
Allow: /catalog
для робота это будет означать, запрещено индексировать любую информацию кроме раздела вашдомен/catalog.
Пустая строчка Disallow означает тоже, что и Allow — индексировать все.
Host
Данная директива носит рекомендательный характер и рассчитана на то, чтобы указать главное зеркало сайта. Некоторые сайты устроены так, что открываются и с www, и без www. Это воспринимается поисковиками, как два отдельных сайта, что не очень хорошо для его ранжирования и удельного веса. Тогда можно указать одно из зеркал в хосте, оно и будет в приоритете.
Пример:
Host: veresk.top
Директива Host должна включать протокол HTTPS, если зеркало доступно только по защищенному каналу. Если же вы используете протокол HTTP, то его указывать необязательно.
Sitemap
Рекомендуется для каждого сайта создавать специальную xml-карту, которая помогает роботам ориентироваться на просторах вашего домена и ничего не упустить. И для быстрого доступа к ней в роботсе прописывется директива sitemap, т.е. адрес страницы, где опубликована эта карта.
Пример:
sitemap: http://veresk.top/sitemap.xml
Кириллица
Использование кириллицы в файле robots.txt запрещено, даже если у вас кириллический домен. Это допустимо только в комментариях, которые начинаются с символа # и заканчиваются переводом строки.
Пример:
Host: xn—-8sbalhasbh9ahbi6a2ae.xn--p1ai # кириллический домен, записанный латиницей
Это далеко не все особенности файла robots.txt, но более тонкие нюансы можно оставить программистам.
Дарья Николаева, SEO-специалист компании “Вереск”