Заметки и лайфхаки по Google Search Console

Скорость сканирования сайта Гугл Ботом

Чтобы узнать как часто приходит к вам Гугл бот — откройте GSC (Google Search Console) и внизу откройте раздел Settings (Настройки). Там можно открыть отчет по скорости сканирования вашего сайта.

Убедитесь, что гугл не добавил в индекс посторонние страницы

Откройте отчет Index -> Coverage. Поставьте галочку только на варианте «Valid». Если там есть страницы «Indexed, not submitted in sitemap», то нажмите на них и посмотрите, что это за страницы. Здесь показаны страницы, которые находятся в индексе, но через навигацию сейчас на них не попасть. Часто это могут быть дубли страниц.

Убедитесь, что нет нужных страниц, которые частично или полностью недоступны

Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Valid with warnings».

Если есть страницы, отмеченные «Indexed, though blocked by robots.txt«, значит некоторые страницы заблокированы в файле robots.txt. Убедитесь, что там нет скриптов и CSS файлов, которые мешают корректному отображению страницы.

Если там есть страницы, отмеченные «Indexed without content«, то вариантов может быть несколько:

  1. Ваш сайт взломали и используют его для зловредного перенаправления пользователей
  2. Google не может корректно отобразить страницу
  3. На странице имеются проблемы или контент такого формата, который Гугл не понимает
  4. Страница действительно пустая, без контента

Проверьте Этим страницы через Google Search Inspection URL и Google Mobile-Friendly Test.

Проверьте, какие страницы исключены из индекса

Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Excluded». Здесь могут быть такие варианты и причины их появления, как:

  • Alternate page with proper canonical tag — Здесь показаны дублирующиеся страницы, у которых прописан Canonicals. Если так и задумано, то проблем нет. Но если у вас большой сайт и таких страниц много — стоит задуматься над структурой и перелинковкой сайта. Ведь это съедает краулинговый бюджет.
  • Blocked by page removal tool — Здесь показываются страницы, на которые был отправлен запрос на удаление через эту тулзу. После отправки такого запроса, гугл исключает страницу на 90 дней из поиска. Однако, если у такой страницы нет тега noindex и код ответа 200, то страница может быть возвращена обратно в индекс.
  • Blocked by robots.txt — тут все понятно из названия. Убедитесь, что там нет важных страниц и служебных файлов, которые могут мешать корректному отображению страницы для Google бота.
  • Blocked due to access forbidden (403) — так же понятна из названия.
  • Blocked due to other 4xx issue — здесь показываются страницы, которые получили код 4xx, но не 401, 403 и не 404. Проверьте страницы через URL Inspection Tool и убедитесь, что на сайте или хостинге нет ошибок.
  • Blocked due to unauthorized request (401) — здесь показываются страницы, на которых включена авторизация.
  • Crawl anomaly — раньше было такое, но теперь переместилось в отдельные описания, которые указаны выше. Если есть такие страницы — проверьте их через URL Inspection Tool.
  • Crawled — currently not indexed — Наверное, один из самых интересных для меня пунктов. Сюда могут попадать страницы, которые недавно появились на сайте и еще не попали в индекс. А так же они не могут попадать в индекс из-за того, что Google посчитал их неважными (например, мало информации или в SERP есть много страниц, которые раскрыли тему). Так же, например, из-за дублирования страниц, низкого качества страницы, спин контента или из-за ничтожного кол-ва входящих страниц. Кроме того, если у вас большой сайт — страницы могут не попадать в индекс из-за недостатка рейтинга сайта.
  • Discovered — currently not indexed — показаны страницы, о которых Google знает, но еще не обошел их. Если число растет, то это может сигнализировать о проблемах с сайтом.
  • Duplicate without user-selected canonical — дубликаты страниц без указания Canonicals. Пропишите canonical, заблокируйте или удалите страницы.
  • Duplicate, Google chose different canonical than user — дубликат страницы, но Google выбрал другую вместо той, которую указал пользователь.
  • Duplicate, submitted URL not selected as canonical — вы отправляете в sitemap.xml дубликары страниц.
  • Excluded by «noindex» tag — понятно из названия.
  • Not found (404) — так же понятно из названия. Как правило, этих страниц не будет в sitemap.xml, но Google нашел их, гуляя по сайту или по ссылкам с других сайтов.
  • Page removed because of legal complaint — страница удалена из-за жалобы.
  • Page with redirect — показаны редиректы.
  • Soft 404 — страницы, которые не отдают 404 код ответа, но очень похожи на те, в которых сообщается об ошибке о несуществующей странице.

Проверьте, что на вашем сайте или хостинге нет ошибок и проблем

Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Error». Здесь могут быть такие варианты и причины их появления, как:

  • Redirect error — здесь показываются страницы с проблемными редиректами. Например, циклический редирект или когда редиректов просто очень много.
  • Server error (5xx) — обычно указывает на проблему с хостингом. Так же может указывать на проблему в коде сайта. Проверьте лимиты на хостинге и логи.
  • Submitted URL blocked by robots.txt — в sitemap XML вы сообщаете о страницах, которые заблокированы в robots.txt.
  • Submitted URL blocked due to other 4xx issue — в sitemap XML вы отправляете страницы, которые отдают код ответа 4xx (ошибка).
  • Submitted URL has crawl issue — в sitemap.xml вы отправляете страницы, которые google не может открыть или просканировать.
  • Submitted URL marked ‘noindex’ — в sitemap.xml вы отправляете страницы, у которых прописан мета тег или x-robots тег noindex.
  • Submitted URL not found (404) — в sitemap.xml вы отправляете несуществующие страницы.
  • Submitted URL seems to be a Soft 404 — в sitemap.xml вы отправляете страницы, которые очень похожи на 404, но не имеют соответствующего кода ответа.
  • Submitted URL returned 403 — вы отправляете страницы, к которым доступ закрыт.
  • Submitted URL returns unauthorized request (401) — вы отправляете страницы, доступ к которым ограничен авторизацией.

Спасибо за прочтение. Буду рад обсудить статью в комментариях.

Рекомендую подробнее ознакомиться со статьей (на английском) по ссылке https://www.contentkingapp.com/academy/index-coverage/.

Заметки и лайфхаки по Google Search Console: 1 комментарий

Добавить комментарий

Ваш адрес email не будет опубликован.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.