Индексация сайта в поисковых системах

Недостаточно, просто опубликовать контент на своем сайте. Важно, чтобы эта информация как можно скорее проиндексировалась поисковыми роботами и попала в выдачу. Иначе ваши данные будут видны, лишь при переходе по прямой ссылке на домен.

Индексирование ресурса – это внесение сведений вашего сайта в базу данных поисковых систем, и последующее обновление этой информации.

Все основные данные подлежат индексации. Это и тексты, и фотографии, и exel-файлы, и pdf-документы (правда, в пдфках индексируется только текстовая часть) и др. Однако есть некоторые ограничения. Это касается слишком сложных и громоздких url-ов, flash файлов, «тяжелых» документов весом более 10Мб.

Зачем нужны «сохраненные копии» сайта

Основная суть индексации простыми словами: если вы изменили контент на сайте только что, то поисковые роботы пока об этом не знают и учитывают для ранжирования «старый» контент.

Но как узнать, что учел робот на данный момент времени? Это можно сделать, посмотрев сохраненную копию. В поиске, нужно нажать на стрелочку возле урла (см. картинку ниже), появится выпадающее меню и там необходимо кликнуть «сохраненная копия». В Яндексе и в Google принцип одинаковый.

На сохраненной странице сверху, как правило, написана информация вида «Это HTML-версия документа от: [дата и время]. Оригинал: ссылка на урл проиндексированной страницы.

Какая польза от просмотра сохраненных копий:

  • Во-первых, если вдруг на каком-то сайте информацию внезапно удалили, а вам она очень нужна, то, если робот еще не зашел на сайт повторно и не переиндексировал «удаленную» информацию, то вы можете спокойно посмотреть ее в копии, и даже делиться ссылкой именно сохраненной копии.

    На разные сайты роботы заходят проверить обновленный контент с различной частотной. Считается, что если это крупный портал или СМИ, то туда они заглядывают по несколько раз в день. Есть даже такое понятие, как «быстроробот». А если это сайт маленькой компании, и на нем особо не происходит изменений, то робот заглядывает туда все реже.

    Кроме того, известно, что боты Google чаще и быстрее индексирую информацию, чем яндексовские.

  • Во-вторых, когда контент на собственном сайте был случайно удален, можно тут же выйти и взять его из сохраненной копии. (В случае если данная страница в принципе уже проиндексирована поисковиками!). Это намного удобнее, чем лезть в бэкапы сайта.
  • В-третьих, изучая сохраненные копии вы можете отслеживать, когда робот индексировал вашу страницу, и анализировать учел ли он внесенные изменения, повысились или понизились позиции в выдаче и т.д.

Индексирование нового сайта, новых страниц

Как проверить попал ли новый сайт в индекс? Введите в строку поиска Яндекса или Google точную фразу site:yoursite.com, если ресурс выдается, значит он уже в индексе.

Если сайт создан недавно, и пока не отображается в выдаче, то можно потерпеть, и – рано или поздно – роботы зайдут на него и проиндексируют. Но вместо того, чтобы просто ждать, можно ускорить индексацию нового сайта.

  1. Нужно добавить домен в форму, которую на веб-жаргоне называют «аддурилка» (от словосочетания Add URL). Для Яндекса – это https://webmaster.yandex.ru/sites/add/, для Google – https://www.google.com/webmasters/tools/submit-url, для Bing — https://www.bing.com/toolbox/submit-site-url.
  2. Только что созданные отдельные страницы уже имеющегося сайта тоже можно добавлять в «аддурилки». Однако намного проще один раз зарегистрировать сайт в Яндекс.Вебмастере и Google для Веб-мастеров.

    В вебмастере Яндекса в разделе Индексирование есть новая удобная функция – «переобход страниц».

    Туда можно добавлять новые страницы, и те, в которые были внесены изменения. Таким образом вы указываете роботу поскорее заглянуть на эти страницы.

  3. Правильно составленная карта сайта sitemap тоже улучшает индексацию ресурса. Она представляет собой список ссылок на внутренние страницы домена, оформленный в формате xml. С помощью sitemap можно влиять на приоритет обхода роботами конкретных страниц вашего сайта. Там можно прописать, как часто рекомендуется посещать страницу (ежедневно, еженедельно, ежемесячно и т.д.).
  4. Технический файл robots.txt тоже помогает в индексировании ресурса. Неполезные, технические или повторяющиеся файлы можно запретить к индексации, чтобы роботы не тратили на них время и не замедляли работу сайта. Если у вас крупный портал (с тысячами урлов), то с помощью директивы Crawl-delay можно указать минимальный временной промежуток между обращениями поискового робота к страницам ресурса, чтобы снизить нагрузку бота на домен.
  5. Ну и наконец, хотелось бы остановиться на служебных тегах <noindex> <nofollow>. Они относятся к регулированию индексирования контента внутри одного урла. Первый помогает запретить к индексации любой кусок текста на странице. Оформляется в html-коде следующим образом: <noindex>Текст, индексирование которого нужно запретить</noindex>. А если необходимо запретить индексацию ссылки, то пользуются атрибутом <nofollow>. Пример оформления: <a href=«url» rel=«nofollow»>текст ссылки</a>.

Все перечисленные методы абсолютно законны, по сути сами поисковые системы рассказывают об этом в руководствах для вебмастеров. Поисковики стремятся к тому, чтобы выдача была конкурентной и качественной, поэтому они всегда просят внимательно читать и выполнять их инструкции.

Дарья Николаева, SEO-специалист компании “Вереск”