Быстрый «парсинг» страницы категории/тега на сайте СМИ

Задача: собрать семантику раздела сайта-конкурента.
Проблема: не за что зацепиться в сетевом адресе страниц (нет «рубрики» /category/ в url).

Например, нас интересует «Финансовый журнал» сайта «Финам.ру». Всё, что у нас есть, это страница рубрики: https://www.finam.ru/publications/section/journal/.

Анализировать этот сайт «в лоб» не очень удобно, так как публикации внутри раздела никак не отличаются от тысяч новостей и статей в других категориях: https://www.finam.ru/publications/item/kak-rabotaet-venchurnoe-investirovanie-20241213-1440/

Если отправиться в «Кейсо» или «Мутаген», либо закопаешься, либо фильтрами отрежешь слишком сильно. В таких случаях помогает «ручной парсинг», когда мы непосредственно забираем ссылки со страницы.

Используем плагин View Rendered Source

Устанавливаем в браузер View Rendered Source. Можно и без него, но так удобнее: плюс привыкните к плагину, который очень полезен в техническом SEO.

После загрузки страницы нажмите на иконку View Rendered Source. Там будет три колонки: слева код, который пришел с сервера, посередине — что исполнил ваш браузер, справа — различия между двумя версиями.

Очень удобный инструмент

Теперь немного теории. На странице «Финансового журнала» по умолчанию отображаются лишь несколько десятков карточек, именно они отдаются с сервера. Но нам нужно больше!

Для пользователей есть кнопка «Загрузить еще»

Если несколько раз нажать «Загрузить еще», на странице отобразится всё больше карточек. Но ссылки на эти статьи будут в коде, который исполнил браузер, а не отдал сервер. То есть во второй колонке плагина View Rendered Source.

Общая идея «ручного парсинга» в том, чтобы вывести на одной странице все-все-все материалы, скопировать полученный код и вытащить из него необходимые ссылки.

Нажмите кнопку 2-3 раза для примера, затем запустите плагин и скопируйте код из центральной колонки.

Для этого есть специальная кнопка

Переходим на сайт Links Extractor. Подобных сервисов много, если что — поищите в «Яндексе».

1 — вставить код. 2 — нажать кнопку. 3 — получить сетевые адреса.

Ссылки будут со всей страницы, включая навигационное меню. Чтобы убрать лишнее, запомните, какой материал на странице первый, какой последний. В нашем случае интересен сетевой адрес, заканчивающийся на 20241213-1440.

Для удобства скопировал все адреса в Notepad++

Дорабатываем список в таблице с помощью ВПР (VLOOKUP)

Ссылки выгрузились относительные, воспользуемся табличной формулой: ="https://www.finam.ru/"&A1.

Готовые урлы раздела

Остается два вопроса. Первый — что делать с адресами? Можно проработать их вручную, если мы понимаем, что качество работы SEO-команды на той стороне по этому разделу окупит время. Альтернативно выгружаем из «Кейсо» постраничный анализ сайта и сопоставляем какой-то параметр с урлами из нашего списка.

Грубо говоря, «Кейсо» или «Мутаген» обладают информацией обо всех страницах сайта «Финам». Мы же с помощью формулы =ВПР (=VLOOKUP в «Гугль Таблицах») уточним данные только по интересующим урлам.

Отчет «Страницы сайта», плюс фильтры, чтобы убрать лишнее

Открываем csv в «Гугль Таблицах». При настройке =VLOOKUP возникла проблема: по умолчанию из «Кейсо» адреса выгрузились с протоколом http и без www, но это легко исправить.

Поскольку сверху рубрики свежие статьи, по многим из них еще нет данных в «Кейсо»

В примере выше мы выводим «Видимость». Как работает =ВПР (=VLOOKUP) прочтите в отдельной статье документации «Гугль Таблиц».

Второй вопрос: а как получить полный список статей в рубрике? В теории надо нажимать кнопку «Показать еще» сотню и более раз 🙂 Конечно, мы так делать не будем и для полного анализа «Финансового журнала» такой метод не подойдет, но общий принцип должен быть понятен.

Аватарка Максима Милютина

SEO-специалист, в прошлом — редактор
Руковожу командами, которые оптимизируют трафик СМИ и информационных проектов