Индексирование сайта в поисковиках: как это работает
Ангелина Нехай для раздела Академия
Перед тем как сайт или новая страница попадет в поисковую выдачу, им необходимо пройти долгий путь. В начале их исследуют роботы, которые есть у всех поисковых систем. Если они посчитают контент и содержание ресурса полезным и достаточно качественным, то страницы вашего сайта появятся в результатах поиска.
Зная это, все равно достаточно трудно понять сам процесс индексирования. Какой у него механизм и алгоритм? Стоит ли изучить обратную сторону процесса, чтобы повлиять на скорость появления страниц в поисковой выдаче? В этой статье мы ответим на эти вопросы и поможем разобраться во всех тонкостях.
<p align="center">![индексирование](/blog/content/images/2020/12/pexels-pixabay-38547.jpg)<p>
Индексирование и ранжирование: в чем разница?
Начав заниматься разработкой своего сайта, стоит научиться отличать два ключевых понятия: индексирование и ранжирование. В них нередко путаются даже вебмастера и оптимизаторы-новички, поэтому переживать не стоит. Эти два процесса взаимосвязаны друг с другом и один плавно перетекает в другой. Тем не менее, это два совершенно разных этапа оценивания ресурса или страниц.
Индексирование — это процесс добавления новых сайтов или страниц в базу поисковых систем. Поскольку каждую минуту создается более миллиона новых ресурсов, поисковикам требуется время на сбор информации о каждом из них. Обычно это занимает около 1-2-х недель. Если сайт не появляется слишком долго, то стоит провести проверку и узнать причины.
Ранжирование — это окончательная сортировка сайтов по позициям в выдаче. После того, как он проиндексировался и появился в поисковой выдаче ему присваивается определенное место. Оно может быть дано конкретному ресурсу или странице только в тот момент, когда пользователь осуществит поиск по выбранной фразе.
<p align="center">![индексирование сайта](/blog/content/images/2020/12/pexels-vlada-karpovich-4050422.jpg)<p>
Как работает индексирование
Индексирование сайта происходит благодаря работе поисковых роботов. Они планомерно обходят все ресурсы в интернете и отправляют собранную информацию в базу данных поисковых систем. По другому она называется индексом. В последующем накопленные сведения используются для ранжирования сайта и для служебных целей.
Стоит отметить, что поисковики могут использовать только данные с уже проиндексированных страниц. Пока не произошла первичная индексация сайта, он не будет существовать для Google или Яндекс. А вот после того, как это случится, поисковая система сможет найти необходимую информацию в своих базах данных за считанные секунды.
Еще один важный момент на который стоит обратить внимание. Даже после того, как поисковой робот соберет все данные о сайте и о новых страницах, они могут не появиться в поисковике. Разумеется, робот исследует абсолютно все страницы, но в поисковой выдаче будут только те, чья информация уникальная и полезная.
Помните, обмануть поисковую систему и роботов не получится. А если вам удастся это сделать, то продлится триумф недолго. К примеру, Google существуют специальные запатентованные разработки для распознавания некачественного контента. Они позволяют очень точно определить ценность информации и ее качество.
<p align="center">![индексирование поиска](/blog/content/images/2020/12/pexels-pixabay-373543.jpg)<p>
Что входит в индекс Google
Как мы уже писали выше, индекс — это огромная база данных, состоящая из нескольких разделов. Вдаваться в подробности не будем, досконально знать эту изнанку совершенно не обязательно. Отметим только, что в базе данных собрана информация о миллионах страниц в интернете. При изучении сайта, поисковые роботы собирают не только видимые сведения, но и внутренние. Под видимыми сведениями подразумевается текст, фотографии или контакты. А под внутренними: атрибуты документов, технические данные и информация из тегов (alt, title, description).
<p align="center">![индексирование страниц](/blog/content/images/2020/12/pexels-christina-morillo-1181354.jpg)<p>
Этапы создания индекса в Google
Формирование индекса состоит из 4-х основных этапов. Рассмотрим подробнее каждый из них:
- Извлечение текста. На этом этапе роботы извлекают текст из ресурса или страницы и отделяют его от лишних элементов: фотографии, разметки и других структурных элементов.
- Формирование списка слов-лексем. На втором этапе робот формирует выборочную совокупность, чтобы дальше выделить лексему. Лексема — это слово или выражение, считающиеся за отдельную единицу. Такие единицы выделяются со всех слов в тексте на сайте.
- Структурирование и обработка. На третьем этапе сформированные лексемы упорядочиваются в алфавитном порядке и пронумеровываются. Таким образом каждая лексема получает свой номер страницы и номер вхождения.
- Формирование индексной записи. Подобная запись выглядит так: лексема/ № страницы + № вхождения/ № страницы + № вхождения/ № страницы + № вхождения. Поисковые роботы могут создать более сложную запись, но в ее основе все равно будет этот скелет.
<p align="center">![параметры индексирования](/blog/content/images/2020/12/pexels-markus-spiske-360591.jpg)<p>
Как ускорить индексирование новых страниц
Часто встает вопрос: «Можно ли ускорить процесс индексирования страниц?» Да, повлиять на скорость индексирования страниц можно, но не напрямую. Кроме того, если новая страница слишком долго не появляется в поисковой выдаче, то необходимо проверить не закрыта ли она для поисковых роботов.
Чтобы проверить все ли верно настроено, откройте системный файл — robots.txt. Для этого перейдите на сайт и в адресной строке добавьте к домену /robots.txt. Например: https://staronka.by/robots.txt Дальше проверьте записи на наличие запрещающего тега: <META NAME= “ROBOTS”CONTENT=“NOINDEX,FOLLOW”>
Отметим, что тег визуально может выглядеть немного иначе.
В Старонке файл robots.txt создается автоматически для всех сайтов. В самом начале он применяется для технического адреса, а после подключения домена начинает применяться к нему. Стоит отметить, что файл появляется только после публикации сайта. А если вы вносите изменения, то их обязательно надо сохранить и опубликовать, чтобы файл обновился.
Для проверки состояния ресурса или страницы в Google, откройте личный кабинет в Google Search Console и зайдите в инструменты.
<p align="center">![служба индексирования](/blog/content/images/2020/12/1-1.png)<p>
Если вдруг страница не проиндексировалась, то здесь же можно запросить повторное индексирование.
Для добавления новой страницы в Яндекс, воспользуйтесь инструментом в сервисе Яндекс.Вебмастер, который называется «Переобход страниц».Однако такой способ не может гарантировать 100% индексирование.
<p align="center">![метод индексирования](/blog/content/images/2020/12/2-2.png)<p>
Чтобы проблем при индексировании новых страниц не возникало, требуется следить за качеством контента. На сайте все элементы должны быть на своих местах: теги, фотографии, атрибуты alt, названия и описания. Стоит понимать, Google и Яндекс не станут добавлять в свою базу пустые и бесполезные страницы, кишащие поисковым спамом, прописанные только для SEO.
Как удалить страницу из поисковой выдачи и скрыть ее от индексирования
Чтобы скрыть определенные страницы от индексации существует несколько методов: настройка нужных параметров в сервисах Google и Яндекс, использование тега robots и добавление запрещающей директивы в файл robots.txt. Мы рассмотрим только первый способ, поскольку в Старонке файл robots.txt создается автоматически и его не получится отредактировать. Как удалить страницу из поисковой выдачи в Яндекс. Для этого воспользуйтесь функцией «Удалить URL» в Яндекс.Вебмастер.
Как удалить страницу из поисковой выдачи в Google. Это можно сделать с помощью «Инструмента для удаления URL» в Google Search Console. Стоит отметить, что такое удаление подойдет только если вы хотите скрыть страницу на полгода. Для окончательного удаления страницы из поиска придется проделать более сложный путь.
<p align="center">![alt](/blog/content/images/2020/12/P5160648-min.jpg)<p>
Как проверить проиндексировался ли сайт
Это сделать достаточно просто, зайдите в любую поисковую систему и введите в браузере специальную команду: «site:название вашего сайта». Эта же команда позволит увидеть количество проиндексированных страниц. На скриншотах видно, что staronka.by есть и в Яндекс, и в Google. Google нашел — 968 страниц, а Яндекс — 792.
<p align="center">![индексирование яндексом](/blog/content/images/2020/12/--------------2020-12-17---5.49.09---.png)<p>
<p align="center">![индексирование сайтов роботами](/blog/content/images/2020/12/--------------2020-12-17---5.49.48---.png)<p>
Где еще посмотреть количество проиндексированных страниц?
Помимо классического способа, узнать количество проиндексированных страниц можно с помощью специального сервиса. В нем достаточно ввести адрес сайта, нажать на кнопку «Проверить» и посмотреть результаты.
<p align="center">![alt](/blog/content/images/2020/12/3-1.png)<p>
Почему проиндексированная страница может пропасть из базы данных?
На самом деле, причин для это может быть достаточно много. Мы перечислим самые основные, чтобы было проще определиться в каком направлении стоит делать проверку:
- В системном файле robots.txt есть запрет на индексирование страницы;
- На сайте присутствуют дубликаты страниц. Подробнее об этой проблеме написано в статье: «Чем плохи дубликаты страниц сайта и как сделать так, чтобы их не было»;
- На странице настроен редирект-301. Из-за перенаправления страница может достаточно быстро пропасть из поисковой выдачи;
- Когда одна страница открывается по нескольким адресам, то есть на нее настроен каноникал-атрибут. В таких случаях поисковые роботы с большой долей вероятности примут ее за дубль;
- Ресурс по тем или иным причинам не понравился Яндекс и Google и на него были наложены санкции. Другими словами, вы могли где-то купить ссылки или разместить некачественный или устаревший материал, допустить переспам с ключевыми словами;
- При переходе на страницу появляется ошибка 400 или 500. Такие запросы поисковой робот не учитывает.
<p align="center">![поисковое индексирование](/blog/content/images/2020/12/pexels-george-morina-4960323.jpg)<p>
Заключение
Создание сайта и подключение доменного имени это лишь начало пути. После этого он обязательно должен быть проиндексирован в поисковиках. И пока это не произойдет, он не сможет появиться в поисковой выдаче и начать ранжироваться. Повлиять на скорость индексирования можно только непрямым образом — добавить рекомендации в файле robots.txt.
Если ресурс и все страницы на нем были успешно проиндексированы, но он занимает низкие позиции, то задумайтесь над контентом. Первые позиции достаются только сайтам с действительно полезным материалом. Кроме того, он обязательно должен быть оригинальным и не повторяться на разных страницах.
Ангелина Нехай
Специалист службы поддержки. Любитель зеленого чая и белого шоколада. Лесной обитатель и просто хороший человек.
Готовы начать?
Исследуйте все функции 🌱kvitly в течение 7 дней. Без обязательств и платежных карт.
Давайте пробовать!