Дело было вечером, делать было нечего…
К сожалению, на PHP нет нормальной многопоточности, поэтому быстро накатал рекурсивный парсинг страниц сайта из XML карты по заданному списку доменов на Python.
Скрипт сам ищет карту сайта и парсит ее, включая вложенные карты сайте, если они есть.
Читать далее «Рекурсивный парсинг URL адресов из sitemap.xml на Python»