darkproxyscrape ロゴ

リードジェネレーションのためのウェブスクレイピング:何千ものリードをあなたの指先に

スクレイピング, マー0520215分で読める

目次

リードジェネレーションが重要な理由

リードジェネレーションは、ビジネスを成長させるために不可欠な要素です。営業チームがアプローチすべきリードを持っていなければ、彼らは仕事をすることができません。見込み客にコールドコールをすることが効果的であることは稀であり、特に高額商品を販売するブランドにとっては、購入に至るまでに何らかの摩擦が生じる可能性があります。

すべての販売はリードから始まった

売上はリードから生まれるテクノロジーコンテンツマーケティング:Content Marketing InstituteとMarketingProfsが作成したレポート「Benchmarks, Budgets and Trends」では、技術系マーケティング担当者の77%がマーケティングで認定されたリードを利用して売上を伸ばしていることが強調されている(2019年の64%から上昇)。

クオリファイド・リードとは、貴社の製品やサービスに興味を示している人(または企業)であるため、コンバージョンが容易です。ターゲットオーディエンスを特定し、その人々にマーケティング活動を集中させることで、営業チームの時間とエネルギーを節約し、質の高い見込み客に集中することができます。

ウェブの力をあなたの指先に

今日、リードジェネレーションはかつてないほど簡単になっている。インスタント・コミュニケーション、高度にターゲット化されたソーシャルメディア・マーケティング・オプション、そして想像しうるほとんどあらゆる情報を含むデータベースへのアクセスは、中小企業経営者が心に決めたいことを何でも実現できる力を持っていることを意味する。

以前は、特定のターゲットにリーチしようと思えば、マーケティング会社に莫大なお金を払って、データベースに登録されている企業にチラシを郵送してもらう必要があった。

今日では、その必要はない。東海岸のメキシコ料理レストランや、州内の幼稚園から高校までの学校のリストを探したければ、オンラインで見つけることができる。B2Bの分野で事業を展開する企業は、見込み客のデータベースを素早く簡単に構築し、そのリストをフィルタリングして、カスタマイズしたマーケティング・メッセージを送ることができる。

比較的狭い地域をターゲットにしているB2B企業の場合、見込み顧客のリストを見つけるには、単純なウェブ検索で十分かもしれない。しかし、州全体、あるいは全国を対象にビジネスを展開するのであれば、手作業ですべてのデータを収集するのは非常に時間がかかる。

ウェブスクレイピングは、必要なデータを自動的に収集するため、貴社と貴社のマーケティングチームの時間とコストを大幅に削減することができます。

ウェブスクレイピングとは何か?

ウェブスクレイピングとは、ウェブサイトや複数のウェブサイトからデータを抽出し、そのデータを他のアプリケーションで使用できるようにするための自動化技術です。例えば、YelpやTripadvisorに掲載されている地元のレストランをひとつひとつ手作業で訪問するのではなく、あなたが住んでいる地域のレストランの名前と住所のリストを作りたいとします。その場合、ウェブスクレーパーを使ってそれらのページを調べ、詳細を抽出し、メール配信に使えるリストを作成することができる。

ウェブスクレイピングは、企業がマーケティングリストを構築する際に、多くの時間と労力を節約することができる。また、適切なツールやプログラミングのノウハウがあれば、驚くほど簡単に行うことができる。

ウェブスクレイパーの仕組み

ウェブスクレイパーは、データを抽出したいページを読み込み、そのページを読んで、見つけようとしている情報の種類を探すことで動作する。その情報とは

  • 会社名
  • 電話番号
  • メールアドレス
  • 住所
  • ウェブサイトのアドレス

ウェブスクレーパーはページをダウンロードすると、ソースコードを読んでパターンを探します。データを取得するサイトにもよりますが、単純に電話番号の123-456-78901パターンやメールアドレスの[email protected]フォーマットに一致するものを探します。

あるいは、スクレーパーの開発者は、あるディレクトリウェブサイトでは、連絡先の詳細がHTMLの特定のタグのセットで囲まれていることを知っていて、スクレーパーにそれらのタグの間から情報を抽出させることもできる。

スクレーパー・ソフトウェアの中には、エンドユーザーが設定できるものもあるので、ほとんどどんなウェブサイトでも理解できるように教えることができる。

スクレーパーの課題

スクレイパー・ソフトウェアを使用する際の問題点として、EUのGDPRなどの規制により、ユーザーは収集するデータとその使用方法に細心の注意を払う必要があることが挙げられる。GDPRの下では、組織は個人に関するデータを保持または処理するために、個人の許可を得なければならない。

ウェブサイトによっては、ウェブスクレイパーをブロックすることで、ユーザーのプライバシーを保護し、サーバーのリソースを守ろうとしています。これには、クライアントソフトウェアが返す「ユーザーエージェント」をチェックしたり、特定のIPアドレスから来たページのリクエスト数を制限したりするなど、いくつかの方法があります。

スクレイパーを効果的に使いたいのであれば、その国のマーケティングに関するルールを理解し、収集したデータを責任を持って処理し、選択したソースから効率的で破壊的でない方法でデータを収集し、そのサイトから追放されないようにするノウハウが必要です。

例えば、ProxyScrape 、データ収集の目的で使用できる住宅用プロキシを提供しています。これらのプロキシの利用を検討している場合は、スクレイパーが短時間にターゲットウェブサイトに過剰な数のリクエストを発行しないことを確認することをお勧めします。スクレイピングは責任を持って行い、対象のウェブサイトに害を与えないようにしましょう。

質の高いリードのためのデータソースの選択

コンテンツ・スクレイピングによって、ビジネス・オーナーは通常であれば収集が困難な膨大な量の情報にアクセスすることができる。

スクレイピングによるデータ収集の課題のひとつは、情報が最新であることを確認することである。ウェブ上には何千ものディレクトリが存在するが、その多くはキュレーションが不十分で古くなっている。

時代遅れの質の低い情報源からデータを集めても、せいぜい読まれることのないEメールに時間を費やすだけです。最悪の場合、あなたが思っていた企業のものではなくなった電話番号に何度も迷惑電話をかけたことで、苦情に直面することになるかもしれません。

では、収集したデータが役に立つ可能性を高めるにはどうすればいいのだろうか?

データソースの選択は慎重に

スクレイピングツールを使ってデータ収集を始める前に、手作業での作業を検討しているウェブサイトを吟味すること。いくつかのリードを手作業で収集し、調査する。

その企業はまだ営業していますか?連絡先の詳細は正しいか?ディレクトリの所有者が情報を追加する前に吟味しているように見えるか?

手作業で集めたリードの半分が、死んでいたり、古かったり、偽物の可能性があるとしよう。その場合、そのサイトをスクレイピングして構築したデータベースは低品質である可能性が高い。

Tripadvisor、Yelp、FourSquareのような大規模なディレクトリサイトは、小規模であまり知られていないディレクトリよりも質の高いデータを持っている可能性が高い。

ニッチ・ディレクトリは、曖昧な関心グループや高度に専門化されたタイプの企業へのマーケティングを考えている場合には価値があるかもしれませんが、収集した情報をマーケティング目的で使用する前に、多くのデータクリーニングが必要になることを予期しておく必要があります。

ログインが必要なサイトを検討する

多くの場合、ログインが必要なサイトから収集した方が、はるかに価値のあるデータを得ることができる。例えば、LinkedInやTwitterは、ボットが送信するリクエストの数を適切なレベルに保つためにレートリミッターを使用し、リクエストを行う際にサイトにログインしていれば、スクレイピングすることができる。

もう一つの選択肢は、単純なHTTPスクレーパーの代わりにAPIを使用し、人気のある地図サービスの一つから詳細を収集することである。例えば、グーグルはビジネス検索APIを提供しており、グーグルマップに含まれる組織に関する情報を収集するのに使うことができるが、APIにアクセスする前にグーグルの利用規約に同意する必要がある。

一般的に、APIが利用可能な場合は、ウェブスクレイピングを使用するよりも、そのAPIを使用してデータを収集する方が良い。ウェブサイト所有者との問題に遭遇する可能性がはるかに低くなり、API経由で配信されたデータをきれいにするのも簡単になる。

クエリーを適切に構築する

コンピュータ・プログラミングには「ガベージ・イン、ガベージ・アウト」という言葉があるが、これはデータ収集にも当てはまる。どのような検索を行うにしても、慎重に組み立ててください。

例えば、ニューカッスルの建設業者に売り込みたい場合、ニューカッスルはイングランドに1つ以上あり、オーストラリアにもニューカッスルがあることを忘れないでください。プロキシ経由で「ニューカッスル」を検索する場合、ほとんどのウェブサイトは、プロキシの地理的位置に最も近いニューカッスルを調べることで、あなたがどのニューカッスルを指しているのかを推測しようとします。

できるだけ絞り込んで検索するようにし、市町村、都道府県、そして対象となるウェブサイトが許せば国の情報まで提供するようにしましょう。そうすることで、希望する地域から何百マイルも離れた組織の連絡先がデータベースいっぱいになってしまうのを防ぐことができます。

ウェブスクレイピングは、シンプルでも複雑でも思いのままです。初めてスクレイピングに挑戦するのであれば、高機能なソフトウェアに大金をかける必要はない。

いくつか良い選択肢がある:

  • スクレーパー
  • プロウェブスクレイパー
  • スクラップ
Scraperは、ウェブページから素早く簡単にデータを抽出できるウェブブラウザ拡張機能です。単一の結果ページまたは少数のページから情報を引き出したい場合、Scraperはシンプルで効果的な方法であり、より洗練されたウェブクローラーよりもはるかに使いやすいと感じるかもしれません。
ProWebScraperはより高度なツールで、無料版とプレミアム版がある。無料ツールは100ページまでスクレイピングが可能なので、小規模でニッチなビジネスには十分だろう。ProWebScraperはスクレイピング・ソフトウェアとしては比較的使いやすく、ポイント・アンド・クリックのインターフェースとあらかじめデザインされたルールが特徴で、技術面に自信がなくてもスクレイピングを設定することができる。

ProWebScraperは、画像をダウンロードし、JSON、CSVまたはXMLダンプを作成することができます。データを収集し、マーケティング記録を更新できるように、スケジュールでサイトをスクレイピングするように設定することもできます。

Scrapyはフリーでオープンソースのウェブスクレイピングフレームワークである。このツールは技術的な知識を必要とするが、高速で柔軟性があり、大量のデータをスクレイピングするのに使用できる。Scrapyは、自分のLinux、OS X、Windows、BSDコンピュータ、またはウェブサーバー上で実行できる。

IRCチャット、Reddit、StackOverflowなどの活発なScrapyコミュニティがあります。コミュニティからアドバイスを求めたり、コミュニティが作成した拡張機能やモジュールを利用することができるかもしれません。

独自のスクレーパーをコーディングする

多くのデータを収集する必要があったり、定期的にスクレイピングを行う予定がある場合、無料のツールやGUIベースのツールでは、あなたのユースケースに十分な力を発揮できないかもしれない。自分でスクレイパーをコーディングするか、開発者を雇うのが良い方法だ。

Python、Perl、Java、R、またはPHPのような一般的な言語でスクレーパーをコーディングするために使用できる無料のオープンソースのフレームワークがいくつかあります。

Webスクレイピングのための最も人気のあるライブラリの1つはBeautifulSoupだ。これはPythonのスクレイピングツールで、HTMLやXMLファイルから素早く簡単にデータを抽出することができる。使用するにはプログラミングの知識が必要だが、スクレイピングの詳細な作業の多くを代行してくれるので、車輪の再発明から解放される。
データを抽出したら、CSVファイルとしてエクスポートするか、Pandasのようなデータ処理ライブラリを使って様々な形式で表示することができる。

独自のスクレイパーをコーディングすることの長所と短所

プログラミングの知識があれば、自分でスクレーパーをコーディングするのも良いアイデアだ。また、フリーのスクレイピングツールでは扱えないような珍しいウェブページから多くのデータを抽出する必要がある場合にも、独自のスクレイパーをコーディングすることは役に立つだろう。

特定の高度なニーズがある場合は、独自のスクレーパーをコーディングしたり、誰かに代行を依頼するのも良いアイデアです。カスタムコーディングされたスクレーパーは、より一般的なツールよりも効果的にターゲットページの周りに設計することができるので、バグやデータの取り扱いの問題に遭遇する可能性が低くなります。

逆に、カスタムコーディングされたスクレイパーは、小規模で単純な作業にも便利だ。一度スクレイパーを書いたら、解析ルーチンを微調整して、他のページからデータを抽出するために同じスクリプトを使うことができる。

カスタムコーディングされたスクレーパーを使用することの欠点は、初めてスクレーパーを書くのに時間がかかることです。経験豊富な開発者でない場合、ProWebScraperのマニュアルを読んで設定するのにかかる時間よりも、JSONフォーマットと格闘したり、新しいライブラリを学ぼうとするのに多くの時間を費やすかもしれません。

タスクによっては、カスタムメイドのものを書くよりも、ツールにお金を払った方が費用対効果が高い場合もある。

さらに、もし自分でスクレイパーを書くつもりなら、以下のようなスクレイピングのベストプラクティスやコーディングの問題を認識しておく必要がある:

  • User-Agentを使用してボットを識別する
  • ログインが必要なサイトの認証方法
  • ウェブサイトの利用規約の遵守
  • ウェブサイトに過度な負荷をかけないよう、リクエストのレートを制限します。
  • 適切に形成されたリクエストを送信する
  • プロキシの使用(および定期的なローテーション
  • サーバーから返される情報のサニタイズ
  • 返送された情報の保存方法および保存場所に関するデータ保護規則
  • CAPTCHAの解決

数百または数千の企業に関する情報を引き出すために小さなスクレーパーを書くことは、非常に理にかなっています。より大量のデータを取得するのであれば、現地のプライバシー規制に完全に準拠していることを確認するために、助言を求めるか、専門家と協力した方がよいだろう。

ウェブスクレイピングの黄金律

もし自分でスクレイパーを書くことに決めたら、"親切であること "を忘れないこと。適切に形成されたリクエストを送信し、ゆっくりとスクレイピングを行い、スクレイピングの際にはIPアドレスの範囲を使用するなど、思いやりのある方法でスクレイピングを行うようあらゆる努力をしてください。

スクレイパーを人間のように見せよう。つまり、ゆっくりとページをリクエストし、ページを通過する際に決まったパターンに従わないようにすることだ。例えば、検索結果のリストを引っ張ってきて、結果ページのリンクのリストを作り、それらのリンクをランダムな順番で見ていくことで、ボットであることを目立たなくする。

同じIPから同時に複数のリクエストを送らないこと。スクレイピング対策ツールは、あなたがサーバーに異常な負荷をかけていることを検知します。

ウェブサイトのRobots.txtファイルの情報を尊重する。ウェブマスターがインデックスされたくないページがあれば、それを無視するのは倫理に反する。それを無視するのは倫理に反する。

Seleniumのようなライブラリを使って、ページにクリックを送ったり、その他のインタラクションを行うことで、ボットをより人間らしく見せることを検討してください。より洗練されたアンチスクレーパーツールの中には、「ボットのようなインタラクションパターン」を探し、スクロールやクリック、その他のインタラクションがないことに気づいたらIPアドレスをブロックするものもあります。

スクレイパー開発者と、ウェブサイトからスクレイパーをブロックしようとする人々との間には、技術的な軍拡競争がある。発見されずに大量のデータを収集できるスクレイパーを作るのは非常に難しい。しかし、小規模または中規模のプロジェクトであれば、親切であること、貪欲でないことのルールに従えば、ゆっくり、地道なスクレーパーといくつかのプロキシで必要なデータを得ることができるはずだ。

ボットは24時間稼働し、バックグラウンドでデータを収集できるため、Yelpの中小企業リストを一度にダウンロードする必要はない。

スクレーパーのトラブルシューティング

スクレーパーを走らせるときに遭遇する可能性のある問題はいくつかある。以下のようなものがある:

  • ウェブマスターにIPをブロックされる
  • スクレイピング・クライアントをウェブマスターにブロックされる
  • スクレーパーがウェブサイトをナビゲートしようとして混乱する。
  • サイトに隠された「ハニーポット」で収集されるゴミデータ
  • スクレーパーの迅速な作業を妨げる速度制限
  • サイトデザインの変更により、機能していたスクレーパーが壊れる

朗報は、スクレイパーの仕組みを理解すれば、これらの問題はすべて解決できるということだ。

単純なウェブスクレイパーはパターンに従っている:

  1. スクレーパーはウェブサイトにHTTPリクエストを送る。
  2. ウェブサイトは、通常のウェブブラウザと同じように応答を送信します。
  3. スクレーパーはレスポンスを読み、HTMLのパターンを探す。
  4. パターンは抽出され、後で処理するためにJSONファイルに保存される。
  5. スクレーパーはさらにパターンを探してレスポンスを読み続けるか、次のリクエストを送ることができる。

うまくいかない部分もいくつかある。

スクレーパーがデータを拾っていない

スクレーパーがまったくデータを拾っていない場合は、パーサーの設定方法に問題があるか、ウェブブラウザーを使っているときと同じサイトをスクレーパーが見ていない可能性がある。

何が間違っているのかを調べるには、ページのHTMLを出力するようにスクレーパーを設定し、それを通常のブラウザの出力と比較する。

エラーや別のページが表示される場合は、スクレイピング・クライアントが禁止されている可能性があります。サイトがあなたのIPアドレスまたはスクレーパークライアントソフトウェアを禁止している可能性があります。

スクレイパーが識別するUser-Agentを、FirefoxやChromeのような最新のウェブブラウザのように見えるものに変更してみてください。これにより、サイトによっては簡単な制限を回避できる可能性があります。
それでもうまくいかない場合は、スクレイパーが問題のウェブサイトに接続するためにプロキシを使用するように設定することを検討してください。プロキシとは、あなたの代わりにウェブリクエストを送信するサーバーのことで、ウェブサイトはあなたのインターネット接続から来たものだとわからないようにすることができます。

もし "正常な "ページが表示されるのであれば、スクレイパーがデータを抽出するように設定した方法に問題がある可能性が高い。各スクレイピング・プログラムは独自のパターンマッチング方法を持っていますが、ほとんどは正規表現のバリエーションを使用しています。パターンマッチングにタイプミスがないことを確認してください。プログラムはあなたが指示したとおりのことをするので、小さなミスが1つでもあるとマッチングルールが完全に崩れてしまうことを忘れないでください!

スクレーパーがしばらくの間作動し、その後停止する

もう一つのよくある問題は、スクレーパーが短期間動作し、その後動作しなくなることです。これは通常、短時間にあまりにも多くのリクエストを送信したため、ウェブサイトが一時的または恒久的にあなたのIPアドレスをブロックしたことを意味します。

このような場合は、プロキシを使用して禁止を回避することができます。Proxyscrape 、データスクレイピングのために使用する人々のために、プレミアムプロキシとレジデンシャルプロキシの両方を提供しています。プレミアムデータセンタープロキシは、高速で帯域幅が無制限ですが、ウェブマスターがデータセンターからのものだと認識できるIPアドレスを持っています。住宅用プロキシは「ホームユーザー」のように見えますが、利用できるスループットは低いかもしれません。

プロキシのIPアドレスが禁止されるリスクを減らすために、数回のリクエストの後に使用するプロキシを変更することを検討してください。また、スクレイパーがリクエストを送信する速度を下げることで、IP禁止のリスクを減らすこともできます。

スクレーパーはバックグラウンドで24時間休みなく働くことができることを忘れないでほしい。スクレイパーの処理速度を15秒から30秒に1ページ解析する程度に抑えたとしても、人間より速く動作する。

多くのウェブサイト、特に小規模なウェブサイトは、速度や毎月送信できるデータ量に制限のあるサーバーでホストされていることを念頭に置いてください。あなたのボットがいくつかのデータをスクレイピングすることは不合理ではないと感じるかもしれませんが、他の多くのユーザーが同じことを行っている場合、またはあなたのボットが「迷子」になり、同じページを何度も何度も延々とダウンロードしようとする場合、人間のユーザーのためのウェブサイトのパフォーマンスを損なう可能性があり、または過剰なリソースを消費することにより、ウェブマスターの費用がかかります。

スクレーパーは混乱し、ページの無限ループに入る

ウェブスクレーパーを使おうとするマーケティング担当者が遭遇するもう一つの一般的な問題は、スクレーパーが混乱して本来ダウンロードすべきでないページをダウンロードしてしまうことである。

あなたのスクレーパーの計画が、あなたの街のレンガ職人のリストを見つけることで、それを検索するディレクトリにスクレーパーを送ったとしよう。スクレーパーは

  • 目的の検索文字列を含むHTTPリクエストを送信する。
  • 結果ページのダウンロード
  • 結果ページを解析して、最初の結果へのリンクを見つける。
  • リンクを開く
  • その新しいページから連絡先の詳細を抽出する。
  • 結果ページの解析を続け、2番目の結果を見つける。
  • リンクを開く
  • などなど...。

ウェブサイトの中には、ボットを罠にかけ、混乱させる「ハニーポット」を含むように作られているものがある。これらのハニーポットは、「display:none」という表示タグが設定されたHTMLの一部で、通常のブラウザでは表示されません。しかし、ボットにはそれが見え、無視するように設定されていなければ、通常のHTMLと同じように処理されます。

ボットトラップHTMLを完全に無視するようにボットをプログラムするのは非常に難しい。しかし、あなたができることは、ボットがたどるリンクの数に制限を設けることです。また、自分でページのソースを見て、明らかなトラップを探し、ボットがそれらを無視するように設定することもできる。

倫理的マーケティングスクレイピングされたリードを賢く使う

ウェブスクレイピングは、多くのサイトが眉をひそめ、ビジネスオーナーが慎重に行うべきものである。GDPRの下では、EU居住者の同意なしに情報をスクレイピングすることは違法とされている。

さらに、ログイン画面の後ろにデータを隠しているウェブサイトの多くは、利用規約でウェブスクレイピングを明確に禁止している。つまり、スクレイパーの使用が発覚した場合、そのウェブサイトから追放されるリスクがあるということだ。

リードを集めるためにスクレイピングを使うと決めたら、賢明な方法で行うようにしましょう。スクレイピングは、大規模なマーケティングキャンペーンを実施する方法ではなく、いずれにせよ収集したであろうリードを収集する時間を節約する方法だと考えてください。

スクレイピングで網を広げすぎないようにしましょう。あなたの地域とその周辺にあるすべての企業や人の連絡先を集め、そのうちの1つを顧客に変えたいと思うかもしれないが、そのような広範で焦点の定まらないキャンペーンは、ほとんどの場合、裏目に出るだろう。

データベースのクリーニングとメンテナンス

マーケティングキャンペーンを始める前に、収集したデータのチェックを行いましょう。データベースをきれいにして、明らかに不正確なデータ、たとえば廃業した企業、重複した記録、ターゲット地域にいない人の記録などを削除します。

キャンペーンを開始したら、データベースを最新の状態に保ちましょう。リードからデータベースからの削除を求められたら、削除しましょう。あなたの管轄区域で法的にそうすることができるのであれば、彼らのEメールや電話番号を「接触禁止」リストに追加するのに十分なだけのデータを保持し、次にスクレイピングを行うときに彼らがマーケティングデータベースに再び追加されないようにします。

マーケティング・キャンペーンを管理する際に覚えておくべきその他の事柄には、次のようなものがある:

  • コールドリードに送るメールや電話の数を制限する。
  • 送信する連絡先にオプトアウト情報を記載する。
  • オプトアウトの要請を尊重し、速やかに実行する。
  • あなたのマーケティングに誰かが反応したら、その人の詳細を更新する。

積極的なマーケティングと攻撃的なスパムは紙一重です。マーケティング担当者からの度重なる連絡はカスタマージャーニーの一部であり、見込み客と連絡を取り続けることは重要ですが、過度に攻撃的なマーケティングは見込み客を遠ざけ、ブランドの評判を落とす可能性があります。

スクレイピングから得たデータをCRMシステムにインポートすることを検討し、各顧客、彼らがコンバージョンプロセスのどの段階にいるのか、マーケティングメッセージにどのように反応しているのかを追跡できるようにしましょう。

こうすることで、個々の顧客を把握しやすくなるだけでなく、マーケティング・キャンペーンが全体としてどのような成果を上げているかを把握しやすくなり、メッセージを洗練させることができる。

リードのソースを追跡することも、どのデータソースに最も質の高い情報が含まれているかを知る上で役に立つだろう。