хотите помочь? Вот ваши варианты:","Crunchbase","О нас","Спасибо всем за потрясающую поддержку!","Быстрые ссылки","Партнерская программа","ProxyScrape премиум-проба","Проверка прокси-сервера онлайн","Типы прокси-серверов","Страны-посредники","Примеры использования прокси-сервера","Важно","Политика в отношении файлов cookie","Отказ от ответственности","Политика конфиденциальности","Условия и положения","Социальные сети","Facebook","LinkedIn","Twitter","Quora","Telegram","Дискорд"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgium | VAT BE 0749 716 760"]}
~ Рассказ о веб-скраппинге от Арьи - пользователя ProxyScrape
Чтобы внести ясность, я должен заявить, что не являюсь официальным представителем ProxyScrape. Однако я большой поклонник и клиент их услуг. Если вы еще не пользуетесь их услугами, я настоятельно рекомендую вам это сделать! Приведенные ниже мнения и мысли полностью принадлежат мне.
"О, $!*^, не может быть".
Именно это чувство я обнаружил в себе в три часа ночи, борясь с осознанием того, что компания, которая когда-то была такой же модной, как доставка молока, которую большинство людей отнесло бы к эпохе музыки диско и диких неоновых нарядов, все еще бродит вокруг, как неудачная стрижка 80-х годов, и, к сожалению, она повсюду.
Во времена своего расцвета эта компания была настоящей находкой. В период расцвета от нее было не скрыться. Теперь же ее название с ностальгией произносят только в домах престарелых.
Конечно, это не самое популярное слово в маркетинговых кругах, но именно в нем кроется возможность. В то время как другие гонятся за последними тенденциями, немногие смекалистые распознают потенциал в забытых уголках интернета. Возможно, YellowPages - это пережиток прошлого, но в мире генерации свинца это реликт с неиспользованным потенциалом и дорожной картой к успеху.
Теперь вы, возможно, спросите: "Как мне воспользоваться такой возможностью?". - Давайте вместе пройдемся по всем шагам, и, надеюсь, даже некоторые из вас, неандертальцы, к концу этой работы смогут наскрести YellowPages.
Мы подойдем к этому вопросу так же, как и к любому другому сайту. Первый шаг - выяснить, как работает этот чертов сайт. Обычно это требует от вас, да, именно от вас, понять, как перейти туда, где находятся эти сочные данные. Нет $!*^... как вы собираетесь извлекать данные, если не можете их найти?!?
Как вы можете видеть выше, на целевой странице есть два текстовых поля - одно для ввода поискового запроса, а другое - для указания местоположения. Давайте заполним их и выполним поиск; я буду искать "Стоматологов" в "Торонто, Онтарио".
После того как вы разберетесь с букварем, заполните его и сумеете найти кнопку поиска и нажать ее (я впечатлен), вы должны быть перенаправлены на страницу, подобную той, что указана выше, на которой есть путь, похожий на следующий:
/search/si/1/Dentists/Toronto+ON
Мы можем вывести следующую структуру пути (она пригодится нам позже):
/search/si/[Номер страницы]/[Термин поиска]/[Местность]+[Код региона]
Еще один момент: мы уже нашли нужные нам данные, бизнес-листинги, теперь давайте выясним, откуда они будут загружаться: они должны быть отправлены внутри документа или получены из конечной точки API (или, если вы не умеете работать, и поверьте мне, я это видел, - из вебсокетов).
Давайте будем реалистами. Учитывая статус YellowPages как телефонной компании, отчаянно ищущей актуальность и, что более важно, доход, маловероятно, что они выставляют напоказ самые передовые технологические стеки. Шансы на то, что они наймут разработчиков, которые щеголяют во фланели и имеют в резюме пятьдесят приложений для выполнения дел на основе React, ничтожно малы. Итак, действительно ли мы шокированы тем, что веб-страница статична?
div[itemtype="http://schema.org/LocalBusiness]
Я оставляю вас наедине с тем, как индивидуально извлекать данные за пределами этого уровня детализации; в противном случае мы были бы здесь вечно. Используйте атрибут "itemprop" - он должен значительно облегчить вам процесс.
Однако у этой стратегии распараллеливания есть одна оговорка: Хотя YellowPages может предположить, что существует более 60 страниц результатов, попытка получить доступ к любой странице за пределами 60 в результатах не будет выполнена. Поэтому установите жесткий предел для распараллеливания - 60. При условии достаточной пропускной способности и вычислительной мощности каждая страница результатов должна быть отсканирована за то же время, которое требуется для отсканирования одной страницы в рамках последовательной модели.
Теперь, возможно, вы зададитесь вопросом: это была приманка? Какое отношение ко всему этому имеет "миллионер"? Ну, если вы следовали за мной и теперь обладаете функциональным скриптом, я могу лично подтвердить, а могу и не подтвердить, что ничто не мешает вам теоретически просмотреть все города Канады и вытащить из YellowPages все бизнес-объявления по запросу в пределах этого города. Эти данные могут иметь миллионную стоимость, если их правильно дополнить, но это также буквально миллионы предприятий в их каталоге, которые теперь в вашем распоряжении.
YellowPages может вызывать воспоминания об ушедшей эпохе, но ее потенциал для генерации B2B-лидов остается скрытой сокровищницей в цифровом ландшафте. Если разобраться в причудах статичного веб-интерфейса, то извлечение данных из этой, казалось бы, устаревшей платформы откроет перед вами огромный массив бизнес-лидов. Упущенная из виду и недостаточно используемая природа YellowPages делает ее уникальной возможностью.
Я надеюсь, что эта статья не оставит вас с мыслью: "Настоящим сокровищем были друзья, которых мы приобрели на этом пути". Я надеюсь, что она продемонстрировала уникальные возможности, которые существуют, особенно с набором навыков, которые многие из нас воспринимают как должное, а также, надеюсь, послужила интересным чтением для тех из вас, кто имеет опыт работы в этой сфере, и дала понимание тем, кто им не обладает.
Как всегда, будьте осторожны, используйте средства защиты и, ради всего святого... не делайте того, за что ФБР схватит вас за задницу - ну... в данном случае это будет RCMP.