Как достать несуществующие страницы на сайте?

Бывают моменты, когда хочется посмотреть, каких страниц больше нет на сайте. Для чего это надо? Ну, например:

  1. Проверить сайт перед покупкой
  2. Посмотреть, какие страницы удалил владелец сайта
  3. Чтобы восстановить контент на своем сайте и попросить сослаться на него
  4. Для любого другого анализа. Все зависит от вашего воображения 🙂

Это сделать можно руками — достать список страниц из Webarchive, распарсить его и запустить любой сканнер. А можно использовать магию Python.

Именно для этого я сделал небольшой скрипт, который вы сами можете запустить из браузера. Смотрите ноутбук в Google Colab по ссылке.

Вводите имя домена и ждете. Результат будет сохранен в файл links.txt.

Красота еще в том, что его можно легко изменить или допилить. Например, сохранить title страниц (если таких страниц очень много) для более быстрого анализа.

Для тех, кому нужен только список URL адресов из Webarchive — смотрите файл all-links.txt

Добавить комментарий

Ваш адрес email не будет опубликован.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.