темный логотип proxyscrape

Этика веб-скрапинга

Скрапбукинг, Янв-02-20225 минут чтения

Web scraping is not a new concept as the whole Internet is based on it. For instance, when you share a Youtube video’s link on Facebook, its data gets scraped so that people can see the video’s thumbnail in your post. Thus there are endless ways to use data scraping for everybody’s benefit. But there

Оглавление

Веб-скреппинг - не новая концепция, ведь на нем основан весь Интернет. Например, когда вы делитесь ссылкой на видео с Youtube в Facebook, его данные считываются, чтобы люди могли увидеть миниатюру видео в вашем посте. Таким образом, существует бесконечное множество способов использовать скраппинг данных для всеобщего блага. Но есть и этические аспекты, связанные с извлечением данных из Интернета.

Предположим, вы подали заявку на медицинскую страховку и с радостью предоставили свои личные данные поставщику в обмен на предоставляемые им услуги. Но что, если какой-то незнакомец совершит магию веб-скреппинга с вашими данными и использует их в личных целях? Все может стать неприемлемым, верно? Вот тут-то и возникает необходимость соблюдать этические нормы веб-скрепинга. 

В этой статье мы обсудим кодекс поведения при веб-скреппинге, а также юридические и этические аспекты.

Кодекс поведения при веб-скреппинге

Чтобы заниматься легальным веб-скраппингом, необходимо придерживаться следующих простых правил.

Не ломайте Интернет - Вы должны знать, что не все сайты могут выдержать тысячи запросов в секунду. Некоторые сайты это позволяют, но другие могут заблокировать вас, если вы отправите несколько запросов, используя один и тот же IP-адрес. Например, если вы пишете скрапер, который переходит по гиперссылкам, вам следует сначала протестировать его на небольшом наборе данных и убедиться, что он делает то, что должен делать. Кроме того, в настройках скрепера нужно предусмотреть задержку между запросами. 

Просмотр файла robots.txt - веб-сайты используют файлы robots.txt, чтобы сообщить ботам, можно ли ползать по сайту или нет. При извлечении данных из Интернета необходимо критически понимать и соблюдать файл robots.txt, чтобы избежать юридических последствий. 

Поделитесь тем, что можете - Если вы получили разрешение на соскабливание данных, находящихся в общественном достоянии, и соскабливаете их, вы можете выложить их (например, на datahub.io), чтобы другие люди могли использовать их повторно. Если вы написали веб-скрапер, вы можете поделиться его кодом (например, на Github), чтобы другие могли воспользоваться им. 

Не делитесь скачанным контентом незаконно - Иногда можно использовать данные в личных целях, даже если информация защищена авторским правом. Однако делиться данными, на которые вы не имеете права, незаконно.

Если вам нужны данные определенной организации для вашего проекта, вы можете спросить их напрямую, могут ли они предоставить вам нужные данные. Кроме того, вы можете воспользоваться первичной информацией организации на ее сайте и избавить себя от необходимости создавать веб-скрепер. 

Этические аспекты веб-скрапинга

При сборе данных из Интернета необходимо помнить о следующих правилах.

Не крадите данные

Вы должны знать, что при определенных обстоятельствах веб-скраппинг может быть незаконным. Если правила и условия сайта, который мы хотим соскрести, запрещают пользователям копировать и скачивать содержимое, то мы не должны соскребать эти данные и должны соблюдать условия этого сайта.

Можно соскабливать данные, которые не находятся за защищенной паролем системой аутентификации (общедоступные данные), помня о том, что вы не нарушаете работу сайта. Однако это может стать потенциальной проблемой, если вы распространяете соскобленные данные дальше. Например, если вы загрузите контент с одного сайта и разместите его на другом сайте, ваш скраппинг будет считаться незаконным и представлять собой нарушение авторских прав. 

Не ломайте сеть

Когда вы пишете веб-скрапер, вы многократно запрашиваете сайт и потенциально получаете доступ к большому количеству его страниц. Для каждой страницы отправляется запрос на веб-сервер, на котором размещен сайт. Сервер обрабатывает запрос и отправляет ответ обратно на компьютер, на котором запущен код. Запросы, которые мы отправляем, потребляют ресурсы сервера. Поэтому, если мы отправляем слишком много запросов в течение короткого промежутка времени, мы можем помешать другим обычным пользователям получить доступ к сайту в это время.

Хакеры часто проводят атаки типа "отказ в обслуживании" (DoS), чтобы вывести из строя сеть или компьютер, сделав его недоступным для целевых пользователей. Для этого они отправляют на сервер информацию, вызывающую сбой, или переполняют целевой сайт трафиком. 

В большинстве современных веб-серверов предусмотрены меры по защите от незаконного использования их ресурсов, поскольку DoS-атаки - обычное явление в Интернете. Они бдительно следят за большим количеством запросов, поступающих с одного IP-адреса. Они могут заблокировать этот адрес, если он отправляет несколько запросов за короткий промежуток времени.

Спрашивайте и делитесь

В зависимости от масштаба вашего проекта стоит обратиться к кураторам или владельцам данных, которые вы планируете соскабливать. Вы можете узнать у них, есть ли у них данные в структурированном формате, который может соответствовать потребностям вашего проекта. Если вы хотите использовать их данные в исследовательских целях таким образом, который может их заинтересовать, вы можете избавить себя от необходимости писать веб-скрапер. 

Вы также можете избавить других от необходимости писать веб-скрепер. Например, если вы публикуете свои данные или документацию как часть исследовательского проекта, кто-то может захотеть получить ваши данные для использования. Если вы хотите, вы можете предоставить другим людям возможность загрузить ваши необработанные данные в структурированном формате, тем самым сэкономив т

Лучше перестраховаться, чем потом жалеть

Законодательство о конфиденциальности данных и авторском праве в разных странах отличается. Вам необходимо проверить, какие законы действуют в вашем регионе. Например, в таких странах, как Австралия, незаконно собирать личные данные, такие как номера телефонов, адреса электронной почты и имена, даже если они находятся в открытом доступе.

Чтобы собирать данные для личного пользования, следует придерживаться кодекса поведения при веб-скреппинге. Однако если вы хотите собрать большой объем данных для коммерческих или исследовательских целей, вам, вероятно, придется обратиться за юридической помощью.

Прокси-серверы для этичного веб-скрапинга

Вы знаете, что прокси-серверы имеют широкий спектр применения. Их основная цель - скрыть IP-адрес и местоположение пользователя. Прокси также позволяют пользователям получать доступ к гео-ограниченному контенту при работе в Интернете. Таким образом, пользователи могут получить доступ к скрытым страницам, поскольку прокси-серверы обходят контент и гео-ограничения.

Чтобы увеличить производительность скрепера, можно использовать прокси-серверы, поскольку они снижают частоту блокировок. Без них вы сможете соскрести минимум данных из Интернета. Это происходит потому, что прокси-серверы превышают скорость ползания, позволяя паукам извлекать больше данных. Скорость переползания указывает на количество запросов, которое вы можете отправить за определенный промежуток времени. Этот показатель варьируется от сайта к сайту. 

Выбор прокси-серверов

Вы можете выбирать прокси в зависимости от требований вашего проекта. Вы можете использовать частный или общий прокси.

  • Частные прокси-серверы - лучшее решение, если вашему проекту требуется высокая производительность и максимально возможное соединение.
  • Общие прокси хорошо работают, когда вы делаете небольшой проект с ограниченным бюджетом.
  • Бесплатные прокси-серверы не рекомендуется использовать при извлечении данных из Интернета. Это связано с тем, что они находятся в открытом доступе и часто используются для незаконной деятельности.

Кроме выбора прокси-серверов для своего проекта, вы можете определить IP-источники. Существует три категории прокси-серверов. 

Прокси дата-центра - это самые дешевые и практичные прокси для веб-скрапинга. Эти IP создаются на независимых серверах и эффективно используются для реализации масштабных проектов по скраппингу.

Прокси для резидентов - их бывает трудно получить, поскольку они связаны с третьими лицами. 

Мобильные прокси - самые дорогие, но их удобно использовать, если вам нужно собрать данные, которые видны только на мобильных устройствах.

Заключение об этике веб-скрапинга

До сих пор мы говорили о том, что вы можете извлекать данные из Интернета, не забывая о юридических и этических аспектах. Например, не следует красть данные из Сети. Нельзя делиться данными, на которые у вас нет прав. Если вам нужны данные какой-либо организации для вашего проекта, вы можете вежливо спросить их, не могли бы они поделиться своими необработанными данными в структурированном формате. Затем вы можете написать свой веб-скребок для извлечения данных с сайта, если они позволят. Далее мы обсудили, что вы можете выбрать различные прокси в зависимости от потребностей вашего проекта. Вы можете использовать IP-адреса центров обработки данных или жилых домов, поскольку они широко используются для веб-скреппинга.