学術研究のプロキシ

プロキシ, 9月 -0020215分で読める

学術研究においては、量的研究であれ質的研究であれ、さまざまな情報源から大量のデータを収集する必要がある。これらのオンラインデータは包括的な性質を持っているため、学術研究者はそれらを抽出するために技術に依存しなければならない。この記事で紹介する自動化されたテクニックの1つが、ウェブスクレイピングである。しかし、ウェブ

学術研究においては、量的研究であれ質的研究であれ、さまざまな情報源から大量のデータを収集する必要がある。これらのオンラインデータは包括的な性質を持っているため、学術研究者はそれらを抽出するために技術に依存しなければなりません。

そのような自動化されたテクニックの一つとして、この記事ではウェブスクレイピングを紹介する。しかし、ウェブスクレイピングだけでは実りある結果は得られない。倫理的な配慮をしながら、プロキシにも頼らなければならないだろう。

その前に、これらのデータの性質を探ってみよう。 

学術研究用オンラインデータの主な特徴

学術研究にとって、ウェブ上のデータは構造化、非構造化、半構造化された量的・質的データで構成される。それらは、ブログ、ツイート、電子メール、データベース、ウェブページ、HTMLテーブル、写真、ビデオなど、ウェブ上に散在している。

ウェブからこのような大量のデータを抽出する場合、多くの場合、いくつかの技術的な課題に対処する必要がある。これらの課題は、データの量、多様性、真実性、速度に起因する。それぞれの変数を見てみよう:

量-データ量に関しては、大量のデータであるため、ゼタバイト(数十億ギガバイト)単位で測定される。

多様性-第二に、これらのデータが保存されているリポジトリやデータベースは様々なフォーマットで提供され、複数の技術標準や規制標準に依存している。 

速度-第三に、ウェブ上に存在するデータは、より驚くべき速度で生成されるため、動的である。

真実性-研究に利用可能なデータの最後の特徴は、データの真実性である。データは、その自由でオープンな性質上、ウェブ上で匿名でやりとりされるため、必要なデータがウェブ上で利用可能かどうかを確認することができる研究者はいない。

上記のような変数があるため、学術研究者が手作業でデータ収集を開始するのは非現実的である。そこで、研究のためにデータを収集する最も新しい方法は、ウェブスクレイピングである。これについては次のセクションで説明する。

ウェブスクレイピングは学術研究にどう役立つのか?

つまり、ウェブスクレイピングとは、学術雑誌、研究フォーラム、学術論文、データベースなど、学術研究に必要な情報源からウェブデータを自動的に抽出し、さらに分析することである。

ウェブのスクレイピングは、以下のフェーズで構成される:

ウェブサイト分析

これは、データが保存されているエンティティの基本構造を調査するプロセスである。このエンティティは、ウェブサイトやデータベースのようなリポジトリである可能性があります。この調査の目的は、必要なデータがどのように保存されているかを理解することです。そのためには、Web アーキテクチャを構成するビルディングブロック(マークアップ言語の HTML、CSS、XML など)、および Web データベースの MySQL を理解する必要があります。

ウェブクローリング

ウェブサイト・クローリングとは、Pythonなどの高級プログラミング言語を使用して自動化されたスクリプトを作成し、ウェブページを閲覧して必要なデータを抽出することです。ゼロからスクリプトを作成するか、すでに開発されたスクリプトを購入するかの選択肢があります。

Pythonには、ScrapyやBeautiful Soap Libraryといった 、データの自動クローリングやパース用のライブラリがある。ウェブクローリングとスクレイピングについてはこちらの記事を参照してください。

データ整理

クローリングツールがウェブサイトやリポジトリから必要なデータを収集した後、それをさらに分析するためにクリーニング、前処理、整理する必要がある。したがって、時間を節約するためには、プログラム的なアプローチが必要かもしれない。繰り返しますが、Pythonのようなプログラミング言語には、データの整理とクリーニングに役立つ自然言語処理(NLP)ライブラリが含まれています。 

ここまでで、スクレイピング・プロセス全体を自動化するのはかなり難しいことがお分かりいただけただろう。ある程度の人間の監視が必要なのだ。 

さて、ウェブスクレイピングの全プロセスの概要はご理解いただけたと思います。それでは、スクレイピングの倫理的な側面について見ていきましょう。スクレイピング中に何ができて、何ができないかを認識しておく必要があります。  

学術研究のためのウェブスクレイピングの倫理的側面

自動クローリングツールがあるからといって、どこでもスクレイピングできるということですか?ログインページや非公開フォーラムの背後にある調査データも含めて?

ウェブ・スクレイピングに関する法律にはグレーゾーンがあるが、一般ユーザーがアクセスできないはずのデータをスクレイピングすることは非倫理的であることに注意すべきである。

結局のところ、ウェブスクレイピングは、例えばウェブサイトの所有者に意図しない損害を与える可能性がある。こうした害や危険性を予測し定義するのは難しい。

ここでは、ウェブスクレイピングがもたらすと思われる有害な結果をいくつか紹介する:

個人のプライバシー

ウェブサイトからのデータ収集に依存する研究プロジェクトは、ウェブサイトの活動に従事している個人のプライバシーを誤って危険にさらす可能性があります。例えば、ウェブサイトから収集したデータを他のオンラインやオフラインのリソースと比較することで、研究者は意図せず誰がデータを作成したかを暴露してしまう。

組織のプライバシーと企業秘密

個人にプライバシーの権利があるように、組織にも業務のある部分を非公開にし、秘密にする権利がある。 

一方、自動スクレイピングは、そのウェブサイトが属する組織の企業秘密や機密情報を簡単に暴露してしまう可能性がある。例えば、求人サイトの求人広告をカウントすることで、インテリジェントなユーザーはその会社のおおよその収益を割り出すことができるだろう。このようなシナリオは、企業の評判を落とし、経済的損失につながる可能性さえある。

組織価値の低下

フロントエンドやインターフェイスにアクセスせずにウェブサイトにアクセスした場合、ウェブサイトが収益を上げるために行っているマーケティングキャンペーンに触れることはない。同様に、ウェブ・スクレイピング・プロジェクトは、顧客が実際の製品所有者から購入しそうにない製品を生み出すかもしれない。これはまた、組織の価値を低下させ、財務的損失をもたらすだろう。

学術研究のためのソーシャルメディア・データのスクレイピング

ソーシャルメディアは、研究のために様々な形式のデータを抽出するための著名な情報源の一つである。社会的行動から政治的ニュースまで、さまざまな情報があるからだ。しかし、倫理的な観点からは、すべてのデータを収集することは、それほど簡単ではない。

その理由のひとつは、ソーシャルメディアが大量の個人データで構成されていることだ。様々な法的規制もこのデータを保護している。その上、科学界の倫理基準では、ユーザーのプライバシーを守るよう指示されている。これは、あなたの研究が言及している実際の人々とつながることによって生じるいかなる危害も、どんな犠牲を払っても避けなければならないことを意味している。

実際のところ、あなたの研究に関連する被験者のプライベートな環境を見ることはできません。これは、あなたがアクセスできないフェイスブックのプロフィールやウォール、プライベートなメッセージにアクセスする場合にも当てはまります。 

もちろん、定量調査の場合は、データ漏洩によって個人を傷つけることはありません。ですから、定性調査を行う際には、ユーザーの投稿を証拠として引用することで、個人情報を開示することに注意しましょう。

究極の解決策は、仮名化のテクニックを使うことで、プライバシーを傷つけることなくデータを調査し、被験者の活動を追跡することができる。

プロキシは学術研究のための倫理的なスクレイピングにどのように役立つか

プロキシは、学術研究のためにデータをスクレイピングする際に大きな役割を果たす可能性がある。様々なソースからの膨大なデータプールから選択する必要があり、制限があると研究がより複雑になる。プロキシはこれらの障害の多くを克服するのに役立ちます。その方法を見てみよう。

場所による地域制限の回避- ジャーナルや学術論文の中には、特定の国からのユーザーのアクセスを制限しているものがあります。プロキシを使用することで、IPアドレスを隠すことができるため、この制限を克服することができます。さらに、世界中のさまざまな場所から居住用のプロキシを選択することで、プロキシによってあなたの所在地が明らかになることはありません。

データ収集プロセスを自動化する- 前のセクションでわかったように、ウェブスクレイパーは多くのデータをスクレイピングすることができる。しかし、キャプチャのようなウェブサイトが課す制限を回避することはできない。プロキシは、そのような制約を克服し、スクレイパーがほとんどのデータをスクレイピングするのに役立ちます。

安全で匿名性の確保に役立つ - 組織で研究プロジェクトを行っている場合、ハッカーの被害に遭う可能性がある。これは、ハッカーがあなたの接続を傍受し、機密データを盗む可能性があるためです。 しかし、プロキシサーバーの背後にいる場合、IPアドレスが隠されるため、匿名性が保たれます。したがって、ハッカーがあなたのデータを盗むのを防ぐことができる。

どのタイプのプロキシが最適か?

利用可能なプロキシから自分のIPアドレスをマスクするために、データセンター・プロキシとレジデンシャル・プロキシのいずれかを使用することができる。 

レジデンシャル・プロキシでは、複数の国のIPアドレスのプールを使用することができます。

さらに、プロキシのプールを使用する場合、それらをローテーションさせることで、ターゲットウェブサイトに異なるソースからのアクセスとして見せることができる。そのため、IPブロックを受ける可能性は最も低くなる。

また、特定の調査ウェブサイトは、異なる国のユーザーに対して異なる情報を表示する。そのため、プロキシをローテーションさせるもう一つの利点は、場所を変えて、これらの異なるプロキシでもデータが変わるかどうかを検証できることです。そうすることで、さまざまな国の複数のソースから包括的かつ効果的なリサーチを行うことができます。 

データジャーナリズムにおけるプロキシ

データ・ジャーナリストがジャーナル・データをスクレイピングする際、ほとんどのジャーナリストは自分自身を特定することを気にする。特定のウェブサイトからデータをスクレイピングする際には、自分自身を特定することが不可欠だと考えるジャーナリストもいる。これは、インタビューを行う前に自己紹介をすることに似ている。

ですから、もしあなたがジャーナリストで、自分の名前を名乗りたいのであれば、HTTPヘッダーに自分の名前とジャーナリストであることを書いてください。また、万が一ウェブマスターがあなたに連絡を取りたい場合は、電話番号を書いてもよい。

これとは対照的に、もしあなたがジャーナリストで、記事のためにデータを収集する際に自分自身を明かしたくないのであれば、プロキシの助けを借りて匿名でデータをかき集めることができる。ただし、上記で述べたように、最高の倫理的慣行を守り、ウェブサイトのルールに従わなければならない。これは、対象者があなたがインタビューしていることに気づいていないときに、覆面インタビューを行うのと同じようなシナリオである。 

結論

学術研究のためのデータスクレイピングプロセスについてご理解いただけたでしょうか。データをスクレイピングする際には、ウェブサイトの所有者に意図しない損害を与えることなく、従わなければならない倫理的ガイドラインがあります。

プロキシは、この記事で述べた制限を克服するだけでなく、そのような状況におけるあなたの救世主となる。

この記事を楽しんで読んでいただき、あなたの研究のために研究データをスクレイピングするためにこの記事で紹介した方法を実践していただければ幸いです。