。オプションがあります:","クランチベース","会社概要","素晴らしいサポートをありがとう!","クイックリンク","アフィリエイト・プログラム","ProxyScrape プレミアムトライアル","プロキシの種類","代理国","プロキシの使用例","重要","クッキーポリシー","免責事項","プライバシーポリシー","ご利用条件","ソーシャルメディア","フェイスブック","LinkedIn","ツイッター","クオラ","テレグラム","ディスコード"," © Copyright 2024 -Thib BV| Brugstraat 18 | 2812 Mechelen | ベルギー | VAT BE 0749 716 760"]}
~ アーリアによるウェブスクレイピングの物語 -ProxyScrape ユーザー
ProxyScrapeしかし、私は彼らのサービスの大ファンであり、顧客でもある。もしあなたがまだ同社のサービスを利用していないのであれば、ぜひ利用することをお勧めする!以下の意見や感想はすべて私個人のものです。
"ああ、あり得ない"
かつては牛乳配達のようにトレンディで、ディスコミュージックとネオンカラーのワイルドな衣装の時代とほとんどの人が見なすような会社が、80年代の悪い髪型のようにいまだにあちこちにある。
この会社は全盛期には本物だった。つまり、全盛期には逃れることはできなかった。今では、その名前は老人ホームでノスタルジーを滲ませながら呟かれるだけだ。
確かに、マーケティング界ではバズワードではないかもしれないが、そこにチャンスがある。他の人々が最新のトレンドを追い求める中、賢明な一部の人々は、インターネットの忘れ去られた片隅にある可能性を認識している。イエローページは過去の遺物かもしれないが、リードジェネレーションの世界では、未開拓の可能性と成功へのロードマップを秘めた遺物なのだ。
さて、あなたは "このような機会をどのように利用すればいいのか?"と尋ねているかもしれない。- 願わくば、ネアンデルタール人であるあなた方でさえ、これが終わるころにはYellowPagesをスクラップできるようになっていることだろう。
私たちは、他のウェブサイトと同じようにアプローチする。最初のステップは、ウェブサイトがどのように機能しているかを理解することだ。そのためには、ジューシーなデータがある場所へのナビゲート方法を見つけ出す必要がある。いや、もし見つけられなかったら、どうやってデータを取り出すんだ?
ランディングページの上の方にあるように、2つのテキスト入力がある-1つは検索用語、もう1つは場所だ。これらを入力して検索してみよう。私は "オンタリオ州トロント "で "歯医者 "を探すつもりだ。
自分のABCを把握し、それを記入し、検索ボタンを見つけてクリックすることができたら(私は感心している)、上のようなページにリダイレクトされるはずだ:
/検索/si/1/歯医者/トロント+ON
次のようなパス構造を推論することができる(これは後で役に立つ):
/search/si/[ページ番号]/[検索語]/[地域]+[地域コード]
もう一つ注意しなければならないのは、我々は既に欲しいデータ、つまりビジネス・リストを探している。
しかし、現実を見よう。YellowPagesが電話帳の会社であることを考えると、関連性と、より重要な収益を必死に求めており、最先端の技術スタックを誇示している可能性は低い。フランネルを見せびらかし、履歴書にReactベースのToDoアプリを50個も書いている開発者を雇う可能性は限りなくゼロに近い。では、ウェブページが静的であることに純粋にショックを受けているのだろうか?
div[itemtype="http://schema.org/LocalBusiness]
このレベルの粒度以上のデータを個別に抽出する方法は、あなたに任せる。itemprop "属性を使ってください。
しかし、この並列化戦略にはひとつ注意点がある:YellowPagesは60ページ以上の結果が存在することを示唆するかもしれませんが、結果上の60を超えるページにアクセスしようとしてもレンダリングされません。従って、並列化の上限は60ページに設定してください。十分な帯域幅とコンピューティングパワーがあれば、シーケンシャルモデルで1ページをスクレイピングするのと同じ時間ですべての結果ページをスクレイピングできるはずです。
これはクリックベイトなのか?億万長者」がどう関係あるのだろう?さて、もしあなたがこのスクリプトを読んで、機能的なスクリプトを持っているのであれば、カナダのすべての都市を繰り返し検索し、YellowPagesからその都市内のクエリからすべてのビジネスリストを取得することを理論的に妨げるものは何もないことを、私は個人的に証明することができるかもしれないし、できないかもしれない。このデータは、適切に増強された場合、文字通り数百万ドルの価値を保持するかもしれませんが、それはまた、今あなたの手の届く範囲にある彼らのディレクトリ内のビジネスの文字通り数百万です。
YellowPagesは過ぎ去った時代の記憶を呼び起こすかもしれないが、B2Bリードジェネレーションの可能性はデジタルランドスケープにおける隠れた宝庫である。静的なウェブインターフェースの癖をうまく利用し、この一見時代遅れのプラットフォームからデータをかき集めることで、膨大な数のビジネスリードが見えてきます。イエローページは見過ごされ、十分に活用されていないため、またとないチャンスなのです。
私の唯一の目標は、このブログ記事が「本当の宝物は、その過程でできた友人たちだった」と思わせないことだ。このブログが、特に多くの人が当たり前のように使っているスキルセットで存在するユニークな機会を示すと同時に、この分野で経験を積んでいる人には興味深い読み物として、そうでない人には洞察力を与えてくれることを願っている。
いつものように、安全第一で、防護服を着用し、くれぐれも......FBIに追われるようなことはしないこと。