Как Google собирает и оценивает результаты?

Интересную я тут статью нашел от Мэта Каттса, которую он отправлял библиотекарям о том, как Google собирает и ранжирует результаты.

Статья вскоре была удалена, но Интернет все помнит.

Статья от 2006 года, но в ней есть несколько интересных вещей о том, как работает (работал) индекс Google и как он оценивает результаты.

Рекомендую почитать про инвертированный индекс. Здесь укажу интересные моменты, как он рассказывает студентам простой способ анализа релевантности страницы. Мне понравилось 🙂

…теперь у нас есть набор страниц, которые где-то содержат запрос пользователя, и пришло время ранжировать их по релевантности. Google использует много факторов ранжирования. Из них алгоритм PageRank может быть самым известным. PageRank оценивает две вещи: сколько ссылок на веб-страницу с других страниц и какое качество сайтов ссылок. С PageRank пятью или шестью высококачественными ссылками с таких веб-сайтов, как www.cnn.com и www.nytimes.com, вес будет гораздо выше, чем в два раза больше ссылок с менее авторитетных или малоизвестных сайтов.
Но мы используем много факторов, кроме PageRank. Например, если документ содержит слова «гражданский» и «~~война~~» прямо рядом друг с другом, это может быть более актуальным, чем документ, обсуждающий ~~войну~~ за независимость, в котором используется слово «гражданский» где-то еще на странице.
Кроме того, если страница содержит слова «гражданская ~~война~~» в своем названии, это намек на то, что она может быть более актуальной, чем документ с названием «Американская одежда 19-го века». Точно так же, если слова «гражданская война» появляются несколько раз на странице, эта страница, скорее всего, будет о гражданской ~~войне~~, чем если бы слова появлялись только один раз.
Мэтт Каттс

То есть, помимо PageRank еще имеет место, частота, близость слов и контекст для вычисления релевантности.

Упражнение для студентов

Это упражнение мне очень понравилось. 🙂

Притворитесь, что вы поисковая система. Выберите такой запрос, как гражданская спецоперация. Найдите фразу в Google, выберите три или четыре страницы из результатов и распечатайте их.
На каждой распечатке найдите отдельные слова из вашего запроса (например, «гражданская» и «спецоперация») и используйте маркер, чтобы пометить каждое слово цветом.
Сделайте это для каждого из 3-5 документов, которые вы распечатываете. Теперь заклейте эти документы на стену, сделайте шаг назад на несколько метров и прищурьте глаза.
Если бы вы не знали, что написано на остальной части страницы, и могли судить только по цветным словам, какой документ, по вашему мнению, был бы наиболее актуальным?
Есть ли что-нибудь такое, что сделало бы документ более актуальным для вас? Лучше ли, чтобы слова были в большом заголовке или несколько раз повторялись меньшим шрифтом?
Вы предпочитаете, чтобы слова были вверху или внизу страницы? Как часто должны появляться слова?
Посмотрите, можете ли вы придумать 2-3 вещи, которые вы хотели бы найти, чтобы увидеть, соответствует ли документ запросу. Это может помочь вам научиться оценивать релевантность веб-сайта так же, как поисковая система оценивает его.
Мэт Каттс

И на последок:

Как правило, Google пытается найти страницы, которые являются как авторитетными, так и актуальными. Если две страницы, содержат примерно одинаковый объем информации, соответствующей данному запросу, то мы, обычно, пытаемся выбрать страницу, на которую выбрали более надежные веб-сайты для ссылки.
Тем не менее, мы часто поднимаем страницу с меньшим количеством ссылок или ниже PageRank, если другие сигналы указывают, что страница более актуальна. Например, веб-страница, полностью посвященная гражданской спецоперации, часто более полезна, чем статья, в которой упоминается гражданская спецоперация мимоходом, даже если статья является частью авторитетного сайта, такого как Time.com.
После того, как мы составили список документов и их оценки, мы принимаем документы с самыми высокими баллами как лучшие совпадения. Google делает немного дополнительной работы, чтобы попытаться показать фрагменты — несколько предложений — из каждого документа, которые выделяют слова, введенные пользователем. Затем мы возвращаем пользователю ранжированные URL-адреса и фрагменты в виде страниц результатов (сниппет).
Мэт Каттс

Упражнение для студентов

Добавить комментарий Отменить ответ