Недостаточно, просто опубликовать контент на своем сайте. Важно, чтобы данные скорее проиндексировалась поисковыми роботами и попала в выдачу. Иначе ваши данные будут видны, лишь при переходе по прямой ссылке на домен.
Индексирование ресурса – это внесение сведений вашего сайта в базу данных поисковых систем, и последующее обновление этой информации.
Все основные данные подлежат индексации. Это и тексты, и фотографии, и exel-файлы, и pdf-документы (правда, в пдфках индексируется только текстовая часть) и др. Однако есть некоторые ограничения. Это касается слишком сложных и громоздких url-ов, flash файлов, «тяжелых» документов весом более 10Мб.
Зачем нужны «сохраненные копии» сайта
Основная суть индексации простыми словами: если вы изменили контент на сайте только что, то поисковые роботы пока об этом не знают и учитывают для ранжирования «старый» контент.
Но как узнать, что учел робот на данный момент времени? Это можно сделать, посмотрев сохраненную копию. В поиске, нужно нажать на стрелочку возле урла (см. картинку ниже), появится выпадающее меню и там необходимо кликнуть «сохраненная копия». В Яндексе и в Google принцип одинаковый.
На сохраненной странице сверху, как правило, написана информация вида «Это HTML-версия документа от: [дата и время]. Оригинал: ссылка на урл проиндексированной страницы.
Какая польза от просмотра сохраненных копий:
- Во-первых, если вдруг на каком-то сайте информацию внезапно удалили, а вам она очень нужна, то, если робот еще не зашел на сайт повторно и не переиндексировал «удаленную» информацию, то вы можете спокойно посмотреть ее в копии, и даже делиться ссылкой именно сохраненной копии.
На разные сайты роботы заходят проверить обновленный контент с различной частотной. Считается, что если это крупный портал или СМИ, то туда они заглядывают по несколько раз в день. Есть даже такое понятие, как «быстроробот». А если это сайт маленькой компании, и на нем особо не происходит изменений, то робот заглядывает туда все реже.
Кроме того, известно, что боты Google чаще и быстрее индексирую информацию, чем яндексовские.
- Во-вторых, когда контент на собственном сайте был случайно удален, можно тут же выйти и взять его из сохраненной копии. (В случае если данная страница в принципе уже проиндексирована поисковиками!). Это намного удобнее, чем лезть в бэкапы сайта.
- В-третьих, изучая сохраненные копии вы можете отслеживать, когда робот индексировал вашу страницу, и анализировать учел ли он внесенные изменения, повысились или понизились позиции в выдаче и т.д.
Индексирование нового сайта, новых страниц
Как проверить попал ли новый сайт в индекс? Введите в строку поиска Яндекса или Google точную фразу site:yoursite.com, если ресурс выдается, значит он уже в индексе.
Если сайт создан недавно, и пока не отображается в выдаче, то можно потерпеть, и – рано или поздно – роботы зайдут на него и проиндексируют. Но вместо того, чтобы просто ждать, можно ускорить индексацию нового сайта.
- Нужно добавить домен в форму, которую на веб-жаргоне называют «аддурилка» (от словосочетания Add URL). Для Яндекса – это https://webmaster.yandex.ru/sites/add/, для Google – https://www.google.com/webmasters/tools/submit-url, для Bing — https://www.bing.com/toolbox/submit-site-url.
- Только что созданные отдельные страницы уже имеющегося сайта тоже можно добавлять в «аддурилки». Однако намного проще один раз зарегистрировать сайт в Яндекс.Вебмастере и Google для Веб-мастеров.
В вебмастере Яндекса в разделе Индексирование есть новая удобная функция – «переобход страниц».
Туда можно добавлять новые страницы, и те, в которые были внесены изменения. Таким образом вы указываете роботу поскорее заглянуть на эти страницы.
- Правильно составленная карта сайта sitemap тоже улучшает индексацию ресурса. Она представляет собой список ссылок на внутренние страницы домена, оформленный в формате xml. С помощью sitemap можно влиять на приоритет обхода роботами конкретных страниц вашего сайта. Там можно прописать, как часто рекомендуется посещать страницу (ежедневно, еженедельно, ежемесячно и т.д.).
- Технический файл robots.txt тоже помогает в индексировании ресурса. Неполезные, технические или повторяющиеся файлы можно запретить к индексации, чтобы роботы не тратили на них время и не замедляли работу сайта. Если у вас крупный портал (с тысячами урлов), то с помощью директивы Crawl-delay можно указать минимальный временной промежуток между обращениями поискового робота к страницам ресурса, чтобы снизить нагрузку бота на домен.
- Ну и наконец, хотелось бы остановиться на служебных тегах noindex и nofollow. Они относятся к регулированию индексирования контента внутри одного урла. Первый помогает запретить к индексации любой кусок текста на странице. Оформляется в html-коде следующим образом: < noindex >Текст, индексирование которого нужно запретить< / noindex >. А если необходимо запретить индексацию ссылки, то пользуются атрибутом < nofollow >. Пример оформления: < a href =»«url»» rel=»«nofollow»»>текст ссылки< /a >.
Все перечисленные методы абсолютно законны, по сути сами поисковые системы рассказывают об этом в руководствах для вебмастеров. Поисковики стремятся к тому, чтобы выдача была конкурентной и качественной, поэтому они всегда просят внимательно читать и выполнять их инструкции.
Дарья Николаева, SEO-специалист компании “Вереск”