Скорость сканирования сайта Гугл Ботом
Чтобы узнать как часто приходит к вам Гугл бот — откройте GSC (Google Search Console) и внизу откройте раздел Settings (Настройки). Там можно открыть отчет по скорости сканирования вашего сайта.
Убедитесь, что гугл не добавил в индекс посторонние страницы
Откройте отчет Index -> Coverage. Поставьте галочку только на варианте «Valid». Если там есть страницы «Indexed, not submitted in sitemap», то нажмите на них и посмотрите, что это за страницы. Здесь показаны страницы, которые находятся в индексе, но через навигацию сейчас на них не попасть. Часто это могут быть дубли страниц.
Убедитесь, что нет нужных страниц, которые частично или полностью недоступны
Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Valid with warnings».
Если есть страницы, отмеченные «Indexed, though blocked by robots.txt«, значит некоторые страницы заблокированы в файле robots.txt. Убедитесь, что там нет скриптов и CSS файлов, которые мешают корректному отображению страницы.
Если там есть страницы, отмеченные «Indexed without content«, то вариантов может быть несколько:
- Ваш сайт взломали и используют его для зловредного перенаправления пользователей
- Google не может корректно отобразить страницу
- На странице имеются проблемы или контент такого формата, который Гугл не понимает
- Страница действительно пустая, без контента
Проверьте Этим страницы через Google Search Inspection URL и Google Mobile-Friendly Test.
Проверьте, какие страницы исключены из индекса
Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Excluded». Здесь могут быть такие варианты и причины их появления, как:
- Alternate page with proper canonical tag — Здесь показаны дублирующиеся страницы, у которых прописан Canonicals. Если так и задумано, то проблем нет. Но если у вас большой сайт и таких страниц много — стоит задуматься над структурой и перелинковкой сайта. Ведь это съедает краулинговый бюджет.
- Blocked by page removal tool — Здесь показываются страницы, на которые был отправлен запрос на удаление через эту тулзу. После отправки такого запроса, гугл исключает страницу на 90 дней из поиска. Однако, если у такой страницы нет тега noindex и код ответа 200, то страница может быть возвращена обратно в индекс.
- Blocked by robots.txt — тут все понятно из названия. Убедитесь, что там нет важных страниц и служебных файлов, которые могут мешать корректному отображению страницы для Google бота.
- Blocked due to access forbidden (403) — так же понятна из названия.
- Blocked due to other 4xx issue — здесь показываются страницы, которые получили код 4xx, но не 401, 403 и не 404. Проверьте страницы через URL Inspection Tool и убедитесь, что на сайте или хостинге нет ошибок.
- Blocked due to unauthorized request (401) — здесь показываются страницы, на которых включена авторизация.
- Crawl anomaly — раньше было такое, но теперь переместилось в отдельные описания, которые указаны выше. Если есть такие страницы — проверьте их через URL Inspection Tool.
- Crawled — currently not indexed — Наверное, один из самых интересных для меня пунктов. Сюда могут попадать страницы, которые недавно появились на сайте и еще не попали в индекс. А так же они не могут попадать в индекс из-за того, что Google посчитал их неважными (например, мало информации или в SERP есть много страниц, которые раскрыли тему). Так же, например, из-за дублирования страниц, низкого качества страницы, спин контента или из-за ничтожного кол-ва входящих страниц. Кроме того, если у вас большой сайт — страницы могут не попадать в индекс из-за недостатка рейтинга сайта.
- Discovered — currently not indexed — показаны страницы, о которых Google знает, но еще не обошел их. Если число растет, то это может сигнализировать о проблемах с сайтом.
- Duplicate without user-selected canonical — дубликаты страниц без указания Canonicals. Пропишите canonical, заблокируйте или удалите страницы.
- Duplicate, Google chose different canonical than user — дубликат страницы, но Google выбрал другую вместо той, которую указал пользователь.
- Duplicate, submitted URL not selected as canonical — вы отправляете в sitemap.xml дубликары страниц.
- Excluded by «noindex» tag — понятно из названия.
- Not found (404) — так же понятно из названия. Как правило, этих страниц не будет в sitemap.xml, но Google нашел их, гуляя по сайту или по ссылкам с других сайтов.
- Page removed because of legal complaint — страница удалена из-за жалобы.
- Page with redirect — показаны редиректы.
- Soft 404 — страницы, которые не отдают 404 код ответа, но очень похожи на те, в которых сообщается об ошибке о несуществующей странице.
Проверьте, что на вашем сайте или хостинге нет ошибок и проблем
Для этого смотрите страницы в отчете Index -> Coverage. Поставьте галочку только на «Error». Здесь могут быть такие варианты и причины их появления, как:
- Redirect error — здесь показываются страницы с проблемными редиректами. Например, циклический редирект или когда редиректов просто очень много.
- Server error (5xx) — обычно указывает на проблему с хостингом. Так же может указывать на проблему в коде сайта. Проверьте лимиты на хостинге и логи.
- Submitted URL blocked by robots.txt — в sitemap XML вы сообщаете о страницах, которые заблокированы в robots.txt.
- Submitted URL blocked due to other 4xx issue — в sitemap XML вы отправляете страницы, которые отдают код ответа 4xx (ошибка).
- Submitted URL has crawl issue — в sitemap.xml вы отправляете страницы, которые google не может открыть или просканировать.
- Submitted URL marked ‘noindex’ — в sitemap.xml вы отправляете страницы, у которых прописан мета тег или x-robots тег noindex.
- Submitted URL not found (404) — в sitemap.xml вы отправляете несуществующие страницы.
- Submitted URL seems to be a Soft 404 — в sitemap.xml вы отправляете страницы, которые очень похожи на 404, но не имеют соответствующего кода ответа.
- Submitted URL returned 403 — вы отправляете страницы, к которым доступ закрыт.
- Submitted URL returns unauthorized request (401) — вы отправляете страницы, доступ к которым ограничен авторизацией.
Спасибо за прочтение. Буду рад обсудить статью в комментариях.
Рекомендую подробнее ознакомиться со статьей (на английском) по ссылке https://www.contentkingapp.com/academy/index-coverage/.
Круть! спасибо за статью