Как достать несуществующие страницы на сайте?

Бывают моменты, когда хочется посмотреть, каких страниц больше нет на сайте. Для чего это надо? Ну, например:

  1. Проверить сайт перед покупкой
  2. Посмотреть, какие страницы удалил владелец сайта
  3. Чтобы восстановить контент на своем сайте и попросить сослаться на него
  4. Для любого другого анализа. Все зависит от вашего воображения 🙂
Читать далее «Как достать несуществующие страницы на сайте?»

Как заблокировать ИИ ботов/краулеров на сайте через robots.txt?

Различные сервисы по нейронным сетям постоянно обучают свои модели и обновляют базы знаний.
Если вы не хотите делиться информацией со своейго сайта, то можете заблокировать их через файл robots.txt. Ниже рассмотрим пример такого файла.

Читать далее «Как заблокировать ИИ ботов/краулеров на сайте через robots.txt?»

Кластеризация ключей на основе близости фраз [Python]

Скрипт неплохо подходит для кластеризации/чистки SEO ключей (семантического ядра). Поддерживает множество языков, имеется много бесплатных моделей.

Он кластеризует ключи (фразы) на основе заданного порога семантической близости и минимального количества «соседей» для создания кластера.

Читать далее «Кластеризация ключей на основе близости фраз [Python]»

Рекурсивный парсинг URL адресов из sitemap.xml на Python

Дело было вечером, делать было нечего…

К сожалению, на PHP нет нормальной многопоточности, поэтому быстро накатал рекурсивный парсинг страниц сайта из XML карты по заданному списку доменов на Python.

Скрипт сам ищет карту сайта и парсит ее, включая вложенные карты сайте, если они есть.

Читать далее «Рекурсивный парсинг URL адресов из sitemap.xml на Python»

Настройка логирования access логов Nginx в Google Big Query с помощью Fluentd

Решил перевести логи Nginx’а в Google BQ. Сначала хотел перенести в Elastic, но лень было поднимать сервер, а Big Query уже готов. Вот, как это делается на Debian.

Читать далее «Настройка логирования access логов Nginx в Google Big Query с помощью Fluentd»

Как проверить статус индексации страницы в Google через Гугл таблицы (Google Spreadsheet)

Сегодня увидел один интересный лайфхак в канале Mike Blazer (ищите ссылку на него и другие источники на странице источников по SEO).

Пример демонстрации на видео

Читать далее «Как проверить статус индексации страницы в Google через Гугл таблицы (Google Spreadsheet)»

Заметки и лайфхаки по Google Search Console

Скорость сканирования сайта Гугл Ботом

Чтобы узнать как часто приходит к вам Гугл бот — откройте GSC (Google Search Console) и внизу откройте раздел Settings (Настройки). Там можно открыть отчет по скорости сканирования вашего сайта.

Читать далее «Заметки и лайфхаки по Google Search Console»

Как установить SSL сертификат для сайта через панель ISPmanager

Установка SSL сертификата на сайт не потребует много времени и труда. Тем более, когда есть панель ISPmanager. Сертификаты делятся на 2 вида:

Читать далее «Как установить SSL сертификат для сайта через панель ISPmanager»

Продвижение хостинга или что нужно знать реселлеру для успешной работы

Сегодня мы поговорим о том, как продвинуть хостинг-услуги в Интернете.

Читать далее «Продвижение хостинга или что нужно знать реселлеру для успешной работы»

Выбор Windows или Linux — извечное противостояние

Многие пользователи задаются вопросом – что выбрать, Windows или Ubuntu? У каждой из этих операционных систем есть ряд достоинств и недостатков, определяющий спектр их применения и удобство для пользователя. Информация о них поможет сделать правильный выбор наиболее подходящей для каждого конкретного случая ОС. Это особенно важно при развертывании виртуальных серверов, поэтому рассмотрим обе эти системы подробнее.

Читать далее «Выбор Windows или Linux — извечное противостояние»

Протокол POP3 или IMAP – что лучше выбрать для работы почты.

Вряд ли найдется хотя бы один активно пользующийся интернетом человек, у которого нет электронной почты. Действительно, наличие e-mail позволяет упростить ведение корреспонденции, а также является обязательным условием использования многих виртуальных сервисов — от социальных сетей до регистрации на сайте или подписки на его обновления.

Читать далее «Протокол POP3 или IMAP – что лучше выбрать для работы почты.»

Отображение ошибок PHP, подключение и отключение их вывода на экран

Работая над своими сайтами, любой разработчик рано или поздно сталкивается с так называемым белым экраном смерти — свидетельством появления ошибок в PHP-коде. Подобная ситуация может возникать по различным причинам — как по вине разработчика, так и из-за некорректно работающего программного обеспечения. Но чаще всего причиной является изменение кода или использование новых модулей.

Читать далее «Отображение ошибок PHP, подключение и отключение их вывода на экран»

Настройка Total Commander

Total Commander – еще один файловый менеджер, по функционалу похожий на Far Manager и Midnight Commander, однако с более «продвинутой» графической оболочкой. Благодаря широкому спектру возможностей, а так же множеству доступных опций, каждый пользователь сможет сконфигурировать программу «под себя».

Читать далее «Настройка Total Commander»