Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта

Перед тем как страницы сайта попадут в выдачу по поисковым запросам их основательно обработают роботы поисковых систем — т.е. произойдет индексирование сайта.

Индексирование — объединение и систематизация всей собранной на этапе сканирования информации о страницах с помощью создания специальной базы, индекса.

Не все просканированные страницы попадают в индекс. При сканировании робот вносит в свою базу все страницы, которые может обнаружить, но в индекс войдут только те, которые робот сочтет полезными для пользователя.

Также не стоит путать индексирование с ранжированием. На данном этапе ранг документу не присваивается, так как база постоянно пополняется новыми страницами и определить релевантность документа однозначно нельзя — через секунду может появится более релевантная страница. Поэтому ранг странице присваивается непосредственно в момент поиска.

Как формируется индекс?

Индекс содержит данные о словах на странице, о их местоположении, данные из основных тегов и атрибутов, например, тегов title и атрибутов alt. Построив индекс, роботы поисковых систем легко проводят поиск нужных документов.

Большинство роботов используют «инвертированный индекс» — для каждого термина создается список документов, которые содержат данный запрос.

Например:

Термин Документ
Термин 1 Документ 1, Документ 3, Документ 5, Документ 7
Термин 2 Документ 3, Документ 5, Документ 4
Термин 3 Документ 3, Документ 6

Если посмотреть на создание инвертированного индекса глазами робота, то выглядит это примерно так:

  • Конверсия в чистый текст — робот удаляет нетекстовые элементы (разметка, графика);
  • Токенизация — робот создает выборку слов для выделения лексем (семантических единиц для обработки);
  • Лингвистическая обработка лексем. Собранные лексемы всех слов со всех текстов упорядочиваются по алфавиту и для каждой из них добавляется номер вхождения и информация о номере страницы, откуда лексема была взята;
  • Собственно составление индекса.

Сама запись в индексе выглядит примерно так, но для экономии места роботы могут усложнять ее структуру:

Лексема / номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения /

Как управлять индексированием?

Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта

Как стимулировать роботов внести страницы в индекс:

  • Открыть закрытые для индексирования страницы;
  • Проследить, чтобы страницы просканировались, добавляя ссылки для сканирования в очередь с помощью вебмастера. Также можно использовать «ловцов ботов» — программы, основная задача которых предоставлять поисковым роботам ссылки на важные страницы сайта;
  • Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.

Как ограничить доступ роботов к индексированию контента:

  • Добавить специальный метатег в верхней части HTML-страниц: <meta name=»robots» content=»noindex» />;
  • Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.

Как проверить, попала ли страница в индекс?

  1. Вручную, через строку поиска.
    С помощью оператора поиска site:domen.com проверить индексацию всего сайта:Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта
    С помощью оператора site:domen.com/page1, где domen.com/page1 — url проверяемой страницы:Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта
    С помощью оператора поиска cache:domen.com/page1, где domen.com/page1 — url проверяемой страницы:Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта
  2. С помощью вебмастера Google или Yandex:
  3. С помощью плагина RDS Bar:Индексирование сайта, Индексирование страниц, Индекс Яндекса, Индекс Гугла, Индексация сайта

Почему страница выпадает из индекса?

  • Установлен запрет на сканирование в robots.txt, есть метатег <meta name=»robots» content=»noindex» />. Если страницы уже попали в индекс, при повторном сканировании робот увидит запрет и страницы выйдут из базы индексируемых.
  • На странице существует атрибут rel=»canonical» для другой страницы сайта.
  • Ответ сервера содержит HTTP-статус 4XX или 5XX, это препятствует обработке страницы роботом.
  • Сайт находится под фильтрами поисковых систем (из-за неуникального контента, манипулирования ссылочными факторами и так далее).
  • На странице присутствуют дубли контента.
  • Страница перенаправляет робота — отображается 301 код ответа сервера.

Выводы

Во время индексирования роботы поисковых систем систематизируют собранные в процессе сканирования данные о страницах сайта.

SEO-специалист может влиять на индексирование контента сайта (но нет стопроцентной гарантии, что роботы поисковых систем к нему прислушаются).

Сканирование страницы не является гарантией того, что контент будет проиндексирован, а индексация контента не означает, что он будет ранжироваться.

Источник: Netpeak

Фото с сайта Kaboompics

 

⇦ ВЕРНУТЬСЯ НА СТРАНИЦУ БЛОГА

Tags:

Добавить комментарий