LinkedInからEメールをスクレイピングする方法

ハウツー, スクレイピング, 7-2620215分で読める

LinkedInは、月間アクティブユーザー3億300万人のうち6億6000万人のユーザーを持つ、プロフェッショナルに最適なソーシャル・ネットワーキング・プラットフォームです。まだLinkedInのアカウントを作成していないなら、今すぐ作成しましょう。業界の巨人と肩を並べることができます。この記事では、LinkedInアカウントからEメールをスクレイピングする方法についてお話します。多くの場合

LinkedInは、月間アクティブユーザー3億300万人のうち6億6000万人のユーザーを持つ、プロフェッショナルに最適なソーシャル・ネットワーキング・プラットフォームです。まだLinkedInのアカウントを作成していないなら、今すぐ作成しましょう。業界の巨人と肩を並べることができます。

この記事では、LinkedInアカウントからEメールをスクレイピングする方法についてお話します。あなたの会社がよく採用する採用プロセスや、押し付けがましくない広告キャンペーンのためにメールアドレスが必要になることがよくあります。

しかし、ほとんどのユーザーはプライバシーの観点からメールアドレスを隠すでしょう。LinkedInはまた、そのようなメールアドレスを公開から隠す仕組みも提供している。そのため、このような状況では、メールアドレスにアクセスする唯一の方法はスクレイピングです。 

それでは早速、LinkedInを使ったEメールスクレイピングの方法をご紹介しよう。

なぜLinkedInからメールをスクレイピングするのか?

冒頭で述べたように、採用目的やマーケティングに必要な場合がある。もう少し詳しく説明すると、LinkedInのユーザープロフィールには、名前、メールアドレス、有能なスキル、職業経験、資格などが記載されている。一方、企業プロフィールには、求人情報、従業員数、現在の従業員、その他様々な重要なデータがあります。

LinkedInには、人々にとって計り知れないほど有益な情報が豊富にあるわけだ。

ユーザーの中には、ボットやクローラーを使ってEメールをスクレイピングし、Eメールリストを作成する者もいる。そして、これらのEメールリストを、これらのデータに強い関心を持つマーケティング担当者やその他のグループに販売する。

とはいえ、Eメールスクレイピングの倫理的側面も考慮しなければなりません。通常、悪意がなくても非倫理的とみなされます。しかし、プロフェッショナルな関係を構築するためにLinkedInのEメールスクレイピングが有効であることは見逃せません。

そこで次のセクションでは、LinkedInから見たEメールスクレイピングの合法性に焦点を当て、例を挙げて説明します。

LinkedInはスクレイピングを許可していますか?

その答えは、あなたがメッセージを明確に理解できるように、大反対です。LinkedInの「禁止されているソフトウェアと拡張機能」に関する文書では、クローラー、ボット、ロボット、スクリプト、その他のアドオンやプラグインを使用してLinkedInのウェブサイトをスクレイピングすることを厳しく禁止しています。LinkedInでのスクレイプの使用については、上記のリンクからさらに詳しく読むことができます。

LinkedInは、会員のプライバシーを保護するために、これらのルールのほとんどを実施しています。しかし、これらのスクレイピング防止法の一部にはグレーゾーンがある。というのも、 LinkedInはいつだったか、LinkedInからデータをスクレイピングしたとして 100人の匿名のスクレイパーを訴えたことがある。これは、LinkedInが善良なスクレイピングと破壊的なスクレイピングを区別できていないためでもある。

上記のケースは、スクレイピングにおける重大な問題を浮き彫りにする結果となった。しかし、それらはこの記事の範囲を超えている。つまり、私がここで詳しく説明しようとしているのは、LinkedInからデータをスクレイピングするつもりなら、彼らがそれを嫌っていることを認識しておく必要があるということだ。したがって、あなたはそれを正しく行わなければならない。

LinkedInからメールをスクレイピングするには?

正しい方法でEメールをスクレイピングするためには、いくつかの要素を考慮する必要があります。これらの重要な要素のいくつかは次のとおりです:

  • Eメールのスクレイピングに手動と自動のどちらが必要ですか?
  • 自動化されたメソッドを使用する場合、設定するアプリケーション・パラメーターは何ですか?
  • LinkedInからどのようなプロフィールやページをスクレイピングするのか(後で説明する公開プロフィールと非公開プロフィール)。 
  • プロキシを使うのか、使うのであればプロキシの種類と数は?

そこで次のセクションでは、LinkedInからメールアドレスをスクレイピングする最も安全で合法的な方法について見ていこう。

LinkedInの連絡先を手動でエクスポート。

これは、LinkedInからメールをスクレイピングする最も安全で合法的な方法です。 

手動エクスポートの手順を説明する前に、この方法についての注意事項があります。LinkedInには、ユーザーのEメールIDへの特権的なアクセスのみを許可する新しいプライバシー設定があります。しかし、この設定を "弱い "オプションに変更することもできます。そうすることで、あなたのメールアドレスを悪意のある行為に利用するかもしれないハッカーのなすがままになってしまいます。

つまり、この方法では、直接の連絡先のメールアドレスしかダウンロードできない。それも、デフォルトのプライバシー設定を「弱」に変更したメールに限られる。

いずれにせよ、Eメールを手動でダウンロードするために必要な手順は以下の通りです:

  1. LinkedInのプロフィールにEメールIDとパスワードでログインしてください。
  2. ホームページに移動する。
  3. 次に、上部のナビゲーションバーにある「Me」アイコンを探します。
  4. Meアイコンのドロップダウンアイコンをクリックします。
  5. ドロップダウンメニューから設定とプライバシーを選択します。
  6. 次に、左サイドバーにあるプライバシータブをクリックします。
  7. 最初のオプション、"LinkedInがあなたのデータをどのように使用するか "をクリックしてください。
  8. サインインを求められたらサインインしてください。
  9. すると、その下にある「データをダウンロードする」というタグの付いたデータページにリダイレクトされる。
  10. そのページで、Eメールを送信する対象の接続を選択する必要があります。
  11. その後、画面の指示に従って終了する。

その後、リクエストされたデータを抽出するためのリンクが記載されたメールが届きます。

自動化ツールの使用

上で見たように、手動の方法では、ほんの一握りの結果しか得られない。そのため、自動化ツールという別の方法を使う必要がある。これらの自動化ツールは、LinkedIn専用のクロールアプリケーションである。そのいくつかを見てみよう。

PhantomBuster(ファントムバスター)は、LinkedInのプロフィールスクレイパーとも呼ばれ、クラウドベースのアプリケーションです。人事担当者や採用担当者は、見込みのある候補者や従業員から電子メールアドレスなどの貴重なデータを抽出するためによく使用する。対象となるプロフィールが「直接のつながり」であれば、簡単に詳細を抽出することができる。しかし、「間接的なつながり」の場合、電子メールの抽出は厄介になります。このツールの詳細については、こちらをご覧ください。

Octoparse-これは非常に賢いウェブ・スクレイピング・ツールで、たった3つのステップでデータを収集する。まずデータを見つけ、データを選択し、そしてエクスポートする。データを保存するための複数のオプションがあり、CSV、XLSX、またはAPIキーを使って異なるプラットフォームで保存することができる。これを使えば、プロキシサーバーを使ってIPアドレスを隠したり、自動IPローテーションを使ってLinkedInのアクセス禁止を回避することができる。Octoparseについてもっと知るには、続きを読む。

SalesQL- このツールは無料で、グーグル・クローム・ブラウザの拡張機能です。そのため、簡単にクロームブラウザに追加することができる。営業担当者やリクルーターは、このツールを使ってLinkedInからメールをスクレイピングすることが多い。CSV/Excelファイル、ATS(人事ソフト)、CRMにエクスポートすることができます。SalesQLの詳細については、 こちらをご覧ください。

自動化手法のアプリケーション・パラメーターとは?

上記のいくつかのスクレイパー・ツールからデータをスクレイピングするためには、これらのパラメーターの設定方法を知っていれば役に立つだろう:

スレッド

スレッドとは、LinkedInやその他のウェブサイトからデータをスクレイピングするために使用する、現在開いている接続の数です。スレッド数が多ければ多いほど、スクレイピング処理は速くなる。しかし、LinkedInはすぐにフラグを立てます。  

そのため、多くのスクレイパーは1スレッドに10個のプロキシを設定するが、最良の選択肢は1プロキシにつき1スレッドを使用することである。それ以上だと、スクレイピング・プロセスを遅らせることはできても、最終的には裁判沙汰になるかもしれないとLinkedInは疑ってかかるだろう。

タイムアウト

タイムアウトとは、プロキシが新しいリクエストを開始する前に、サーバーがプロキシに応答するのにかかる時間のことである。多くのスクレイパーはタイムアウトを1秒か2秒に設定している。そうすれば、結果を圧倒するだろう。しかし、私たちはそれを推奨しません。一貫して、タイムアウトをもっと高いレベル、例えば20-30秒に設定する必要があります。そうすることで、サーバーは新しいリクエストを受け付ける前に、しっかりとした休止時間を取ることができる。

LinkedInの非公開プロフィールをスクレイピングする

この最後のセクションでは、プライベートなプロフィールをスクレイピングする方法を発見するでしょう。LinkedInのアカウントを作成する際、LinkedInはあなたのデータを保護し、第三者に開示しないことを約束しているからです。

あなたは、非破壊的な目的のために、電子メールアドレスを含む誰かのデータをスクレイピングすることができます。例えば、あなたが就職活動中で、特定の都市でフリーランスのテクニカルライターを探しているかもしれません。一方、研究のためにスクレイピングすることもあるでしょう。このことを念頭に置いて、プライベートなプロフィールをスクレイピングする方法を見つけましょう。

アカウント作成

個人プロフィールからスクレイピングする理想的な方法は、ユーザーアカウントを作成することだ。そうすれば、できるだけ多くのコンタクトとつながることができる。しかし、このアカウントは人とつながるためのものではないということを心に留めておくと役に立つだろう。そうではなく、スクレイピングの目的でLinkedInへの入り口として使うのだ。

この目的にはOctoparseを使うことをお勧めする。自分のアカウントでLinkedInにログインし、適切な検索をかけることができるからだ。そして、今いるLinkedInのページを表示させながら、ドラッグ&ドロップ機能でスクレイピングすることができる。

検索と収穫

アカウントを作成した後、Octoparseで検索する準備ができたら、何を検索するかを考えます。そうすれば、Octoparseはあなたが必要とするものを正確に探し出してくれます。ただし、連絡先のメールアドレスを含め、利用可能な情報のみを非連結として採取することができます。

専用プロキシの使用

タイムアウトとスレッドのルールに従わない場合、LinkedInは上記の方法であなたをブロックする可能性が高い。

また、アカウントを作成する際には、プロキシサーバーを使用し、Octoparseを通してスクレイピングを行う際には同じIPアドレスを使用するようにしよう。これは、ほとんどの人間が異なるIPアドレスからLinkedInに一瞬でアクセスしないため、LinkedInに人間として表示されるためである。そのため、プロキシを使用してアカウントを作成する場合は、LinkedInをスクレイピングする際にも同じプロキシを使用してください。

あとは、どのプロキシを使うか、いくつプロキシを使うかの問題だ。

LinkedInのスクレイピングに使用するプロキシは?

LinkedInをスクレイピングするための理想的なプロキシは、エリートプロキシです。エリートプロキシは、他のプロキシタイプよりも高い匿名性と安全なヘッダー設定を提供するからだ。

スクレイピングをする前に、LinkedInはスクレイピングを好まず、犯人に真剣に対処することをよく理解しておく必要があります。そのため、専用のエリートプロキシとエリートプライベートプロキシを使用する必要があります。共有プロキシや無料プロキシは、この目的の方程式から外れています。

プロキシ数

プロキシの数はスクレイピングの規模に大きく依存する。前述したように、1アカウントにつき1つのプロキシを使用する場合、50アカウント、50プロキシを使用することを推奨する。

アカウントごとにプロキシを増やしたい場合は、100から150の範囲で使ってください。そして、LinkedInがそれを見つけて禁止しないように、頻繁にそれらを回転させる。

一方、プロキシの数が少なければ、LinkedInはプロキシを禁止する可能性が高い。そのため、最適な数字を決めるには、LinkedInで可能な限り実験する必要がある。そうすることで、あなたのプロキシの中にLinkedInのブラックリストに載っているものがあるかどうかを特定することもできる。

結論

この記事をお読みになり、LinkedInを通じてEメールをスクレイピングする方法について包括的な考えをお持ちいただけたと思います。最も簡単で明白な方法は、手作業で行う方法である。しかし、それでは一握りの結果を返すことはできません。そこで、最も明白な選択は、エリートプロキシと一緒に自動化ツールを使用することである。

ここで紹介した方法で、LinkedInからEメールを抽出できることを祈っています。