Бывают моменты, когда хочется посмотреть, каких страниц больше нет на сайте. Для чего это надо? Ну, например:
- Проверить сайт перед покупкой
- Посмотреть, какие страницы удалил владелец сайта
- Чтобы восстановить контент на своем сайте и попросить сослаться на него
- Для любого другого анализа. Все зависит от вашего воображения 🙂
Это сделать можно руками — достать список страниц из Webarchive, распарсить его и запустить любой сканнер. А можно использовать магию Python.
Именно для этого я сделал небольшой скрипт, который вы сами можете запустить из браузера. Смотрите ноутбук в Google Colab по ссылке.
Вводите имя домена и ждете. Результат будет сохранен в файл links.txt.
Красота еще в том, что его можно легко изменить или допилить. Например, сохранить title страниц (если таких страниц очень много) для более быстрого анализа.
Для тех, кому нужен только список URL адресов из Webarchive — смотрите файл all-links.txt