темный логотип proxyscrape

Этика веб-скрапинга

Скрапбукинг, 25 января-2022 г.5 минут чтения

Веб-скреппинг - не новая концепция, ведь на нем основан весь Интернет. Например, когда вы делитесь ссылкой на видео с Youtube в Facebook, его данные считываются, чтобы люди могли увидеть миниатюру видео в вашем посте. Таким образом, существует бесконечное множество способов использовать скраппинг данных для всеобщего блага. Но

Оглавление

Веб-скреппинг - не новая концепция, ведь на нем основан весь Интернет. Например, когда вы делитесь ссылкой на видео с Youtube в Facebook, его данные считываются, чтобы люди могли увидеть миниатюру видео в вашем посте. Таким образом, существует бесконечное множество способов использовать скраппинг данных для всеобщего блага. Но есть и этические аспекты, связанные с извлечением данных из Интернета.

Предположим, вы подали заявку на медицинскую страховку и с радостью предоставили свои личные данные поставщику в обмен на предоставляемые им услуги. Но что, если какой-то незнакомец совершит магию веб-скреппинга с вашими данными и использует их в личных целях? Все может стать неприемлемым, верно? Вот тут-то и возникает необходимость соблюдать этические нормы веб-скрепинга. 

In this article, we will discuss the web scraping code of conduct and the legal and ethical considerations.

Кодекс поведения при веб-скреппинге

Чтобы заниматься легальным веб-скраппингом, необходимо придерживаться следующих простых правил.

Не ломайте Интернет - Вы должны знать, что не все сайты могут выдержать тысячи запросов в секунду. Некоторые сайты это позволяют, но другие могут заблокировать вас, если вы отправите несколько запросов, используя один и тот же IP-адрес. Например, если вы пишете скрапер, который переходит по гиперссылкам, вам следует сначала протестировать его на небольшом наборе данных и убедиться, что он делает то, что должен делать. Кроме того, в настройках скрепера нужно предусмотреть задержку между запросами. 

Просмотр файла robots.txt - веб-сайты используют файлы robots.txt, чтобы сообщить ботам, можно ли ползать по сайту или нет. При извлечении данных из Интернета необходимо критически понимать и соблюдать файл robots.txt, чтобы избежать юридических последствий. 

Поделитесь тем, что можете - Если вы получили разрешение на соскабливание данных, находящихся в общественном достоянии, и соскабливаете их, вы можете выложить их (например, на datahub.io), чтобы другие люди могли использовать их повторно. Если вы написали веб-скрапер, вы можете поделиться его кодом (например, на Github), чтобы другие могли воспользоваться им. 

Не делитесь скачанным контентом незаконно - Иногда можно использовать данные в личных целях, даже если информация защищена авторским правом. Однако делиться данными, на которые вы не имеете права, незаконно.

Вы можете вежливо попросить - если для вашего проекта вам нужны данные определенной организации, вы можете напрямую спросить у них, могут ли они предоставить вам нужные данные. Кроме того, вы можете воспользоваться первичной информацией организации на ее сайте и избавить себя от необходимости создавать веб-скрепер. 

Этические аспекты веб-скрапинга

При сборе данных из Интернета следует помнить о следующих правилах.

Не крадите данные

Вы должны знать, что при определенных обстоятельствах веб-скраппинг может быть незаконным. Если правила и условия сайта, который мы хотим соскрести, запрещают пользователям копировать и скачивать содержимое, то мы не должны соскребать эти данные и должны соблюдать условия этого сайта.

Можно соскабливать данные, которые не находятся за защищенной паролем системой аутентификации (общедоступные данные), помня о том, что вы не нарушаете работу сайта. Однако это может стать потенциальной проблемой, если вы распространяете соскобленные данные дальше. Например, если вы загрузите контент с одного сайта и разместите его на другом сайте, ваш скраппинг будет считаться незаконным и представлять собой нарушение авторских прав. 

Не ломайте сеть

Когда вы пишете веб-скрапер, вы многократно запрашиваете сайт и потенциально получаете доступ к большому количеству его страниц. Для каждой страницы отправляется запрос на веб-сервер, на котором размещен сайт. Сервер обрабатывает запрос и отправляет ответ обратно на компьютер, на котором запущен код. Запросы, которые мы отправляем, потребляют ресурсы сервера. Поэтому, если мы отправляем слишком много запросов в течение короткого промежутка времени, мы можем помешать другим обычным пользователям получить доступ к сайту в это время.

Хакеры часто проводят атаки типа "отказ в обслуживании" (DoS), чтобы вывести из строя сеть или компьютер, сделав его недоступным для целевых пользователей. Для этого они отправляют на сервер информацию, вызывающую сбой, или переполняют целевой сайт трафиком. 

В большинстве современных веб-серверов предусмотрены меры по защите от незаконного использования их ресурсов, поскольку DoS-атаки - обычное явление в Интернете. Они бдительно следят за большим количеством запросов, поступающих с одного IP-адреса. Они могут заблокировать этот адрес, если он отправляет несколько запросов за короткий промежуток времени.

Спрашивайте и делитесь

В зависимости от масштаба вашего проекта стоит обратиться к кураторам или владельцам данных, которые вы планируете соскабливать. Вы можете узнать у них, есть ли у них данные в структурированном формате, который может соответствовать потребностям вашего проекта. Если вы хотите использовать их данные в исследовательских целях таким образом, который может их заинтересовать, вы можете избавить себя от необходимости писать веб-скрапер. 

Вы также можете избавить других от необходимости писать веб-скрепер. Например, если вы публикуете свои данные или документацию как часть исследовательского проекта, кто-то может захотеть получить ваши данные для использования. Если вы хотите, вы можете предоставить другим людям возможность загрузить ваши необработанные данные в структурированном формате, тем самым сэкономив время.

Лучше перестраховаться, чем потом жалеть

Законодательство о конфиденциальности данных и авторском праве в разных странах отличается. Вам необходимо проверить, какие законы действуют в вашем регионе. Например, в таких странах, как Австралия, незаконно собирать личные данные, такие как номера телефонов, адреса электронной почты и имена, даже если они находятся в открытом доступе.

Чтобы собирать данные для личного пользования, следует придерживаться кодекса поведения при веб-скреппинге. Однако если вы хотите собрать большой объем данных для коммерческих или исследовательских целей, вам, вероятно, придется обратиться за юридической помощью.

Прокси для этичного веб-скрапинга

Вы знаете, что прокси-серверы имеют широкий спектр применения. Их основная цель - скрыть IP-адрес и местоположение пользователя. Прокси также позволяют пользователям получать доступ к гео-ограниченному контенту при работе в Интернете. Таким образом, пользователи могут получить доступ к скрытым страницам, поскольку прокси-серверы обходят контент и гео-ограничения.

Чтобы увеличить производительность скрепера, можно использовать прокси-серверы, поскольку они снижают частоту блокировок. Без них вы сможете соскрести минимум данных из Интернета. Это происходит потому, что прокси-серверы превышают скорость ползания, позволяя паукам извлекать больше данных. Скорость ползания указывает на количество запросов, которые вы можете отправить за определенный промежуток времени. Этот показатель варьируется от сайта к сайту. 

Выбор прокси-серверов

Вы можете выбирать прокси в зависимости от требований вашего проекта. Вы можете использовать частный или общий прокси.

  • Частные прокси-серверы - лучшее решение, если вашему проекту требуется высокая производительность и максимально возможное соединение.
  • Общие прокси хорошо работают, когда вы делаете небольшой проект с ограниченным бюджетом.
  • Бесплатные прокси-серверы не рекомендуется использовать при извлечении данных из Интернета. Это связано с тем, что они находятся в открытом доступе и часто используются для незаконной деятельности.

Кроме выбора прокси-серверов для своего проекта, вы можете определить IP-источники. Существует три категории прокси-серверов. 

Прокси дата-центра - это самые дешевые и практичные прокси для веб-скрапинга. Эти IP создаются на независимых серверах и эффективно используются для реализации масштабных проектов по скраппингу.

Доверенности на проживание - их бывает трудно получить, поскольку они связаны с третьими лицами. 

Мобильные прокси - самые дорогие, но их удобно использовать, если вам нужно собрать данные, которые видны только на мобильных устройствах.

Заключение об этике веб-скрапинга

До сих пор мы говорили о том, что вы можете извлекать данные из Интернета, не забывая о юридических и этических аспектах. Например, не следует красть данные из Сети. Нельзя делиться данными, на которые у вас нет прав. Если вам нужны данные какой-либо организации для вашего проекта, вы можете вежливо спросить их, не могли бы они поделиться своими необработанными данными в структурированном формате. Затем вы можете написать свой веб-скребок для извлечения данных с сайта, если они позволят. Далее мы обсудили, что вы можете выбрать различные прокси в зависимости от потребностей вашего проекта. Вы можете использовать IP-адреса центров обработки данных или жилых домов, поскольку они широко используются для веб-скреппинга.