темный логотип proxyscrape

Как соскабливать страницы результатов поиска Google (SERP)

Как это сделать, Скрапбукинг, авг-01-20215 минут чтения
Нет нужды представлять, что Google - это широко используемая платформа для поисковых запросов людей по всему миру. По данным сайта Statista, доля Google на мировом поисковом рынке составляет 87,35 %. Кроме того, статистика показала, что ежегодная посещаемость Google превышает 2 триллиона пользователей, при этом индексируется более 130 триллионов страниц. 

Эта статистика доказывает, что Google располагает обширными общедоступными данными о своих SERP, ценными как для интернет-маркетологов, так и для других пользователей. Таким образом, скраппинг SERPs стал приоритетным направлением среди интернет-маркетологов. Однако, когда вы превысите определенное количество запросов, Google заблокирует ваш IP-адрес.

Поэтому в этой статье мы рассмотрим, как скреативить SERP без блокировки. Перед этим мы рассмотрим основы веб-скрапинга.

Что такое веб-скраппинг?

Предположим, что вам нужно скопировать большой набор данных с нескольких веб-страниц. Сначала у вас может возникнуть соблазн скопировать и вставить содержимое в электронную таблицу. Однако, поскольку речь идет о большом веб-документе, извлечение данных вручную займет много времени. Поэтому необходимо автоматизировать процесс копирования, что позволит вам сэкономить массу времени.

Этот автоматизированный процесс сбора данных известен как веб-скрепинг. С помощью этого метода вы можете загрузить HTML-источник без ввода URL-адреса сайта в браузере.

Более подробную информацию о веб-скреппинге вы можете прочитать здесь

Что такое скраппинг страниц результатов поисковых систем (SERP)?

Как и веб-скраппинг, скрэмпинг SERP - это процесс извлечения 10 лучших или более результатов из поиска Google по ряду ключевых слов. Большинство компаний, занимающихся поисковой оптимизацией (SEO), используют эту технику для отслеживания рейтинга сайтов своих клиентов по целевым ключевым словам. 

Также могут быть и другие причины для выполнения скраппинга для SERPS, например проверка рекламы, генерация лидов и агрегация контента.
Как правило, существуют инструменты автоматизации для выполнения скраппинга для SERP, о которых вы узнаете в следующих разделах этой статьи. В качестве альтернативы вы можете создать собственный скрипт, используя языки программирования, такие как Python. Однако так можно поступить, только если вы уверены в кодировании и обладаете более высокой технической квалификацией. Кроме того, вы можете использовать cURL, чтобы соскабливать поисковые запросы Google.

После того как эти инструменты соскабливают данные с соответствующих веб-страниц, они сохраняют их в базах данных, CSV-файлах, XML или JSON-файлах. Затем эти данные представляются в структурированном формате, в котором вы сможете определить, правильно ли работают ваши SEO-усилия. Это происходит потому, что вы можете видеть, как ваша страница размещается с течением времени.

Кроме того, SERP состоят не только из текстового содержимого, но и из изображений, видеороликов, сниппетов, карт локального поиска и многого другого.

В следующем разделе вы узнаете о значительном преимуществе скраппинга из SERP.

Как соскабливание SERP поможет вам восстановить ущерб, нанесенный хакерами?

Быть взломанным - это то, что всегда негативно влияет на вас. Ваш взломанный сайт и учетные данные могут оказаться в темной паутине. Хакеры могут даже продавать обратные ссылки или запускать на вашем сайте вредоносное ПО из темной паутины. Аналогичным образом взлом негативно влияет и на контекст SEO.

Одним из существенных преимуществ сканирования SERPs в Google является возможность определить потенциальный ущерб, который могут нанести хакеры. Когда вы упорно трудились, чтобы добиться SEO-рейтинга в SERPs, хакеры могут легко проникнуть в настройки безопасности и испортить все ваши SEO-усилия. 

Подробную информацию о том, как хакеры похищают ваши SEO-усилия, вы можете найти здесь.
По данным исследования, 48 % SEO-специалистов заявили, что Google потребовалось много месяцев, чтобы восстановить первоначальное состояние результатов их SERF. 

Отслеживание SERP для ваших сайтов дает полезную информацию о том, что происходит с вашими рейтингами. Они также помогут вам определить потенциальные результаты ранжирования во время попыток взлома. Поэтому вы можете быстро запросить у Google восстановление прежнего рейтинга. В результате время простоя вашего сайта и падения в рейтинге поисковых систем будет сведено к минимуму.

С другой стороны, если ваш сайт заражен вредоносным ПО, это негативно скажется на рейтинге в поисковых системах. Кроме того, повышается вероятность попадания сайта в черный список. По данным Godaddy, это в большей степени касается сайтов малого бизнеса. 90 % сайтов Godaddy не знали, что их заразило вредоносное ПО.

Поэтому постоянное сканирование всех ваших SERP позволяет заранее выявить потенциальные попытки взлома и, конечно, помогает Google восстановить ваши результаты.

Как соскрести результаты поиска Google?

Как я уже говорил, существует несколько способов, с помощью которых вы можете скреативить SERP Google. В этом разделе вы узнаете несколько способов, как это можно сделать.

Визуальный веб-скребок

Octoparse

Это общий инструмент для скраппинга, который можно использовать для скраппинга SERPs Google. Он не только скрапит SERP, но и хорошо справляется с копированием данных с карт Google.

Одной из важнейших особенностей Octoparse является то, что он ловко обходит меры по борьбе со скрапингом, предпринимаемые целевыми веб-сайтами. Кроме того, для использования его инструмента визуального скрапинга не требуется быть программистом. Он довольно удобен в использовании и доступен как в виде облачного решения, так и в виде устанавливаемого программного обеспечения.

Дополнительную информацию о Octoparse можно найти здесь.

Расширение для браузера

Webscraper.io 

Webscraper.io - это бесплатное расширение для браузера Google Chrome. Оно позволяет извлекать данные с веб-страниц Google в виде HTML и CSS. Затем можно экспортировать данные в формат CSV. Версия расширения для браузера полностью бесплатна, и ее вполне достаточно для управления вашей деятельностью по скраппингу. Если вы воспользуетесь облачным вариантом, это потребует дополнительных затрат.

С его помощью можно также извлекать карты Google и конвертировать их в базу данных. Более подробную информацию об этом расширении вы можете найти здесь.

Поисковый API Google

Знаете ли вы, что Google предоставляет официальный способ извлечения данных из своей поисковой системы? Хотя у него есть свои ограничения, как указано ниже, в настоящее время он доступен для всех, кому нужны данные SERP. Вот его ограничения:

  • Он предоставляет ограниченный объем информации по сравнению с визуальным веб-скребком, расширениями браузера или другими инструментами для веб-скребков.
  • Google разработал его для поиска по одному или нескольким веб-сайтам. Однако вы можете настроить его на поиск во всей Всемирной паутине (WWW), что требует больших технических знаний.
  • Это безумно дорого, ведь отправка кучи запросов обойдется вам в целое состояние.

Поэтому, учитывая ограничения и стоимость, поисковый API Google не является идеальной платформой для соскабливания результатов SERPs. Лучше воспользоваться альтернативными методами, упомянутыми в этой статье.

Использование Python, requests и BeautifulSoup

Для тех, кто разбирается в кодировании на Python, этот метод будет удобен. Это, несомненно, сократит расходы, и вы получите больше контроля.

В этой программе мы извлечем результаты поисковой выдачи по запросу "Как выучить Python". Чтобы упростить задачу, мы закодируем поисковый запрос. Затем, после извлечения набора результатов, мы выведем заголовок результатов. Давайте погрузимся в работу.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')
 

Здесь я наглядно объясню каждую строчку кода:

запросы на импорт

Мы используем библиотеку запросов Python для загрузки SERP. Затем модуль request отправляет запрос get на сервер Google. Это позволяет программе загрузить HTML-содержимое SERP.

из bs4 import BeautifulSoup

Следующая строка не требует пояснений и загружает библиотеку BeautifulSoup. Эта библиотека позволяет разбирать HTML- и XML-документы.

text = 'Как научиться программировать на Python'
url = 'https://google.com/search?q=' + text

Этот фрагмент кода задает URL поисковой системы, из которой будут браться данные. Я задал URL как google.com, а в качестве поискового запроса добавил текст в переменной text, "Как научиться программировать на Python".

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" )

      

Затем в приведенном выше коде устанавливается строка агента пользователя.
req = requests.get(url, headers=headers)

Приведенный выше код отправляет запрос на веб-сервер для загрузки запрошенного HTML-содержимого результатов поиска.

soup = BeautifulSoup(req.text, 'lxml')

Создайте экземпляр BeautifulSoup с данными, которые код выше запросил из заголовков парсинга 'lxml'. Чтобы приведенный выше код работал, необходимо предварительно установить пакет 'lxml'.

for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Затем с помощью цикла for извлекаются все теги h3 для отображения заголовков.

Использование жилых прокси-серверов для сканирования SERP Google

Как уже говорилось, поисковые системы, такие как Google, накладывают ограничения, включая запрет на использование вашего IP-адреса, когда вы превышаете лимит на скраппинг. Именно здесь прокси-серверы играют решающую роль в маскировке вашего IP-адреса. Из всех существующих прокси идеальным выбором являются прокси для жилых домов. Это связано с тем, что их IP-адреса происходят от реальных владельцев жилых домов.

Однако, когда вы зачистите первые несколько SERP, Google заметит, что ваши действия бесчеловечны. Тогда он заблокирует IP-адрес вашего прокси, и вам придется разбираться с капчами.

Именно здесь сеть бытовых прокси выступает в роли вашего спасителя. Когда вы используете сеть жилых прокси-серверов, каждый из них будет иметь уникальный IP-адрес. Таким образом, вы сможете вычеркивать информацию из SERP, чередуя IP-адреса. Тогда ваши действия будут выглядеть для поисковой системы как человеческие.

Подробное описание жилищных прокси можно найти в этой статье.

К этому моменту вы должны иметь четкое представление о том, что такое прокси-серверы Residential и как они могут помочь вам преодолеть запреты IP-адресов. Теперь мы рассмотрим важнейший фактор, которым многие пользователи пренебрегают, когда занимаются скраппингом из SERPs Google. Это юридические последствия использования резидентных прокси.

Прежде всего, использование жилых прокси-серверов для сканирования поисковой выдачи Google является законным. Поэтому у вас может возникнуть соблазн отправлять неограниченное количество запросов поисковым системам, таким как Google. В этом случае серверы Google будут перегружены огромным количеством запросов. Это неправильный поступок, даже согласно алгоритму Google SERPs.

Поэтому вам нужно убедиться, что вы всегда уважительно относитесь к целевому сайту или поисковой системе, с которой собираетесь соскребать данные. Вы также должны использовать лучшие методы скрапинга, включая уважительное отношение вашего скрапера к целевой поисковой системе.

Вы должны немедленно ограничить количество запросов или остановить процесс скраппинга, если вы или ваш прокси-провайдер получите жалобу от целевого веб-сервера. Жалоба может заключаться в том, что целевой веб-сервер испытывает повышенную нагрузку из-за ваших неограниченных запросов. Поэтому вам нужно быть осторожными с такими фактами.

Часто задаваемые вопросы

Является ли незаконным вычерпывание информации из Google?

Обычно Google не любит, когда скреперы выуживают из него данные. Как я уже неоднократно говорил в этой статье, он может запретить ваши IP-адреса. Кроме того, до сих пор Google не принимал никаких мер за чрезмерное соскабливание данных. Очевидно, что у SEO-компаний не будет выхода, если Google примет такие меры.

Заключение

Теперь мы надеемся, что вы получили общее представление о различных методах, которые используют веб-скреперы для соскабливания данных из SERP. В разных обстоятельствах используются разные методы. Наконец, вы узнали, как можно использовать прокси-серверы для поиска данных в SERP и каковы их юридические последствия.

Мы надеемся, что эта статья будет вам полезна, и следите за новыми статьями.