見込み客のEメールリストを所有することは、マーケティング担当者がビジネスを拡大するのに役立ちます。Pythonスクリプトを使用してメールアドレスをスクレイピングすることで、ビジネスパーソンはオーディエンスに対してより良いアウトリーチを行うことができます。
MailButler.ioによると、
世界には約43億人の電子メールユーザーがおり、2025年には46億人に達すると推定されている。これらの統計によると、人々は公式のコミュニケーション手段としてEメールプラットフォームに依存している。この記事では、python言語を使ってメールアドレスをスクレイピングする方法を説明します。
目次
Pythonを使ったメールアドレスのスクレイピング
良い顧客を持つための最も簡単な方法の一つは、できるだけ多くのビジネスメールアドレスを持ち、彼らにあなたのサービスの詳細を何度も送信することです。インターネット上には、これらのサービスを無料で提供するスクレイピング・ツールが数多く存在するが、データ引き出しの制限がある。彼らはまた、無制限のデータ抽出制限を提供していますが、それらは有料です。自分の手で構築できるのに、なぜ有料なのか?それでは、Pythonを使った高品質のスクレイピング・ツールの構築手順について説明しよう。
関連記事
メールアドレスをスクレイピングする手順
初心者の方にはとても簡単な例になりますが、特にウェブスクレイピングに慣れていない方には勉強になることでしょう。これはステップバイステップのチュートリアルで、制限なくメールアドレスを取得するのに役立ちます。私たちのインテリジェントなウェブスクレイパーの構築プロセスから始めましょう。
ステップ1:モジュールのインポート
今回のプロジェクトでは、以下の6つのモジュールを使用する。
インポートされたモジュールの詳細は以下の通り:
- reは正規表現マッチング。
- リクエストを送信する。
- URLを構成要素に分割するためのurlsplit。
- dequeはリストの形をしたコンテナで、両端の追加とポッピングに使われる。
- 様々なウェブページのHTMLファイルからデータを引き出すためのBeautifulSoup。
- pandasは、DataFrameへの電子メールのフォーマットと、さらなる操作のために使用されます。
ステップ2:変数の初期化
このステップでは、スクレイピングされたURL、スクレイピングされていないURL、ウェブサイトからスクレイピングに成功したメールの保存セットを保存するdequeを初期化する。
セット内では要素の重複は許されないので、すべて一意である。
ステップ3:スクレイピング・プロセスの開始
- 最初のステップは、スクレイピングされたURLとスクレイピングされていないURLを区別することだ。これを行うには、URLをスクレイピングされていないものからスクレイピングされたものに移動させる。
- 次のステップは、URLの異なる部分からデータを抽出することである。そのためにurlsplitを使う。
urlsplit() は5つのタプルを返す: (アドレス指定スキーム、ネットワークロケーション、パス、クエリ、フラグメント、識別子)。
機密保持のため、urlsplit()の入力と出力のサンプルを表示することはできませんが、一度試してみると、コードは何らかの値(ウェブサイトのアドレス)を入力するよう求めてきます。出力にはSplitResult()が表示され、SplitResult()の中には5つの属性があります。
これでウェブサイトのURLのベースとパス部分を取得できる。
- これは、ウェブサイトにHTTP GETリクエストを送信する時間である。
- Eメールアドレスを抽出するために正規表現を使用し、Eメールセットに追加します。
正規表現は、自分の好きな情報を抽出したいときに大いに役立つ。正規表現に慣れていない場合は、
Python RegExを参照してください。
- 次のステップは、ウェブサイトにリンクされているすべてのURLを見つけることだ。
The <a href=””> tag indicates a hyperlink that can be used to find all the linked URLs in the document.
そして、新しいURLを見つけて、スクレイピング済みにもスクレイピング解除にもなければ、スクレイピング解除のキューに追加する。
このコードを自分で試してみると、すべてのリンクがスクレイピングできるわけではないことに気づくだろう、
ステップ4:メールをCSVファイルにエクスポートする
より良い方法で結果を分析するために、メールをCSVファイルにエクスポートします。
Google Colabをお使いの場合は、次の方法でファイルをローカルマシンにダウンロードできます。
すでに説明したように、機密保持の問題から、スクラップされたメールアドレスを示すことはできない。
[免責事項!一部のウェブサイトはウェブスクレイピングを許可しておらず、あなたのIPを永久にブロックする非常に賢いボットを持っています。]
完全なコード
メールアドレスのスクレイピングにおけるプロキシ
企業はコンタクトリストを作成するために多数のメールアドレスを必要とするため、複数のソースからデータを収集する必要があります。手作業によるデータ収集プロセスは、面倒で時間がかかるかもしれない。この場合、スクレイパーは通常、プロセスをスピードアップし、彼らの方法で来る制限を回避するためにプロキシを使用します。Proxyscrape 、無制限のデータをスクレイピングすることができ、中断のない機能を確保するために24時間365日動作する高帯域幅のプロキシを提供しています。プロキシの匿名性レベルは、スクレイパーの身元を隠すのに十分高いです。
よくある質問
1. なぜメールアドレスのスクレイピングが必要なのですか?
適格なEメールアドレスを含む潜在的なコンタクトリストを作成することで、ターゲットとなるオーディエンスへのアプローチが容易になります。ほとんどの人がコミュニケーション媒体としてEメールを使用しているため、Eメールアドレスを通じて彼らにアプローチするのは非常に簡単です。
2.メールアドレスのスクレイピングにプロキシは必要ですか?
複数のソースからメールアドレスをスクレイピングする際、スクレイパーはIPブロックや地理的な障壁などの課題に直面することがある。このような場合、プロキシはユーザーのアドレスをプロキシアドレスで隠し、ブロックされたウェブサイトへのアクセスブロックを取り除きます。
3.メールアドレスのスクレイピングは合法ですか?
公開されているデータを収集することは常に合法である。そのため、スクレイパーは収集するデータがパブリックドメインで利用可能であることを確認しなければならない。そうでない場合は、事前に許可を得てデータを収集し、スクレイピングの合法性を維持することができる。
まとめ
この記事では、電子メールアドレスのスクレイピングの実用的な例を示すことで、ウェブスクレイピングのもう一つの不思議について探求した。私たちはPythonを使ってウェブクローラーを作ることで最もインテリジェントなアプローチを試みました。ウェブスクレイピングは、要件を考慮して適切に行えば、大きな助けになります。私たちはメールアドレスをスクレイピングするための非常にシンプルなコードを書きましたが、それは完全に無料であり、また、このために他のサービスに依存する必要はありません。できるだけコードをシンプルにし、カスタマイズの余地も加えました。