2024年、ウェブスクレイピングは合法か?

ガイド, 4月~0220225分で読める

ウェブスクレイパーの使用経験があれば、それがビジネスにどのようなメリットをもたらすかご存知でしょう。ウェブをスクレイピングすることで、製品やサービスの改善に利用できるデータが得られます。もしあなたがウェブページから個人データをスクレイピングされたのであれば、あなたは憤慨するかもしれません。

ウェブスクレイパーの使用経験があれば、それがビジネスにどのようなメリットをもたらすかご存知でしょう。ウェブをスクレイピングすることで、製品やサービスを向上させるためのデータを得ることができます。

自分のウェブページから個人データをスクレイピングされた場合、それが原因でビジネスを失ったかもしれないので、憤慨しているかもしれない。サイトオーナーは、自分のウェブサイト上のデータが個人を特定できる情報であるため、自分のウェブサイトがスクレイピングされたことに不満を抱いている。

ウェブ上でデータスクレイピングを行う場合、誰かがまとめた情報を自分の目的のために利用することになる。これは、ウェブサイトの所有者の許可なく行うことができます。場合によっては、データのスクレイピングはウェブサイトの利用規約に違反する可能性があります。

ウェブスクレイピングは多くの人が行っているため、ウェブスクレイピングツールの使用は合法であると広く思われています。しかし、ウェブスクレイピングは違法であり、高額な罰金につながるという話も聞いたことがあるかもしれません。では、真実はどうなのでしょうか?2023年、ウェブスクレイピングは合法なのか?

ウェブデータとは何か?

ウェブ・スクレイピングの合法性について議論する前に、ウェブ・データについて理解することが重要である。ウェブデータとは、ウェブサイト上にある情報のことです。これには、ウェブサイトを構成するテキスト、画像、ビデオ、その他のコンテンツが含まれ、ウェブスクレイピングの際に探しているものです。

ウェブデータには、公開データと非公開データの2種類がある。公開データとは、誰でもアクセスできる情報のことで、誰でもこれらのウェブサイトにアクセスすることができる。

個人情報とは、一般に公開されていないデータのことであり、このようなデータのウェブクローリングは違法となる可能性がある。

ウェブスクレイピングを行う場合、公開されているデータを取得し、それを自分の目的のために使用する。

ウェブスクレイピングとは何か?

 ウェブスクレイピングとは、公開されているウェブページから公開されているデータを抽出する方法である。スクレイパーは、連絡先情報、画像、動画などのデータを収集することができます。

データを抽出するにはさまざまな方法がある。テキストデータのみを収集するシンプルなスクレーパーを使うこともあれば、画像や動画も収集する高度なスクレーパーを使うこともある。

ウェブ・スクレイピングとは、他人のウェブサイトから情報を取り出し、自分の目的に使用することです。これは、そのウェブサイトを作った人の許可なく行うことができます。スクレイピングするデータによって、ウェブスクレイピングは合法か違法かのどちらかになります。

もし人々が公共のデータを公共のウェブサイトに掲載しているのであれば、そのデータをスクレイピングすることは合法である。しかし、個人データや著作権で保護されたデータをスクレイピングした場合、法律に違反する可能性があります。

ネット上には様々なウェブスクレイパーがあり、無料で使えるものもあれば、サブスクリプションが必要なものもある。

人はなぜウェブをスクレイピングするのか?

ウェブスクレイピングを利用する理由は様々である。研究目的でデータを抽出するためにウェブスクレイパーを使用する人もいれば、連絡先情報や画像を収集するためにウェブスクレイパーを使用する人もいます。ここでは、ウェブをスクレイピングする一般的な理由をいくつか紹介します:

競合他社のデータ収集

ある企業がウェブスクレーパーを使って競合他社のデータを抽出し、そのデータを自社の製品やサービスの改善、あるいは新たな市場のニッチを発見するために使うかもしれない。

セールス&マーケティング・キャンペーン

営業担当者やマーケティング担当者もウェブスクレイパーを使う。マーケティング担当者は、ウェブスクレイパーを使って潜在顧客や市場に関するデータを収集し、ターゲットを絞ったマーケティングキャンペーンを展開する。

営業担当者は、ウェブスクレイピングツールを使って見込み客の連絡先情報を見つけ、コールリストやEメールリストに追加することがある。これは、ウェブスクレイピングによって可能になった一般的なリードジェネレーションの手法である。

さまざまな情報源からニュースを抽出する

公開データをスクレイピングする一般的な理由のひとつは、さまざまなソースからニュースを収集することである。

ジャーナリストや学生は、研究論文や記事、調査のためにデータスクレイパーを使う。一般に公開されているデータをスクレイピングできるので、記者や研究者が仕事をするのにとても便利だ。

機械学習モデルのためのデータ収集

データサイエンティストや大企業は、ウェブスクレイパーを使って機械学習モデル用のデータを収集する。このデータは、パターンを認識したり、将来の出来事について予測を立てたりするために、モデルを訓練するために使用することができる。

ウェブスクレイパーはデータサイエンティストにとって重要なツールであり、そうしなければアクセスできないような豊富なデータに自動的にアクセスできるようになるからだ。 

スパムサイト

また、ウェブ・スクレイピング・ツールを使ってウェブサイトをスパムする人もいる。これは、誰かがウェブサイトから電子メールアドレスを収集し、そのウェブサイトの所有者に迷惑メールを送信することです。これが、ウェブスクレイピングの倫理を疑問視する人がいる理由のひとつである。

個人情報を盗む

ウェブスクレイピングのもう一つの非倫理的な利用法は、データの窃盗である。これは、誰かがウェブスクレイパーを使用して、クレジットカード番号やログイン認証情報などの個人データを収集することです。

ウェブスクレイピングは、個人情報を盗むために使われるなら合法なのか?絶対にありません。

ほとんどの場合、公共データのスクレイピングは完全に合法である。しかし、いくつかの例外があり、この記事ではその概要を説明する。

ウェブスクレイピングはいつ合法か?

ウェブスクレイピングはほとんどの場合合法です。公共のウェブサイトからデータを抽出するのであれば、おそらく法律に違反することはないでしょう。米国では、ウェブサーバーのスクレイピングを制限する連邦法はありませんが、サーバーへの自動アクセス用のボットを一度に過剰に購入することはできません。

ヨーロッパでは、ウェブスクレイピングを禁止する特別な法律はないため、法的状況は似ています。ただし、法律や利用規約で保護されたデータをスクレイピングしている場合は、欧州市民のプライバシーを保護するための一連の規制である一般データ保護規則(GDPR)に違反する可能性があります。

このルールにはいくつかの例外がある。ログインやペイウォールが必要なウェブサイトから特定のデータをスクレイピングしている場合、そのウェブサイトの利用規約に違反している可能性があります。 

著作権のあるデータをスクレイピングした場合、そのデータを使用すると著作権侵害のリスクにさらされる可能性があります。さらに、連絡先情報や財務データなどの個人データをスクレイピングしている場合、法的トラブルに巻き込まれる可能性もあります。

ウェブスクレイピングのリスクとは?

ウェブスクレイピングはほとんどの場合合法ですが、それに伴うリスクもあるので知っておく必要があります。 

利用規約違反

どのウェブサイトにも利用規約やプライバシーポリシーがあり、その内容は多岐にわたります。ウェブスクレイピングを全面的に禁止しているウェブサイトもあれば、一定の条件下で許可しているウェブサイトもあります。ウェブサイトの利用規約に違反した場合、訴訟やその他の法的トラブルに巻き込まれる可能性があります。

保護されたデータのスクレイピング

もうひとつのリスクは、著作権で保護されたデータをスクレイピングしてしまうことだ。著作権法は、本や映画、音楽などの創作物を保護する法律です。著作権で保護されたデータに対してウェブスクレイピングツールを使用した場合、著作権侵害のリスクにさらされる可能性があります。

さらに、連絡先や財務データを含む個人データをスクレイピングすることもできます。この種のデータを所有者の許可なくスクレイピングした場合、所有者のプライバシー権を侵害することになります。

地元の法律を破る

場合によっては、ウェブスクレイピングに関連するローカル規制が存在する。例えば、欧州連合ではGDPRが市民のプライバシーを保護しています。GDPRで保護されているデータにアクセスした場合、罰金やその他の法的措置が取られる可能性があります。

コンピュータ不正使用防止法

1986年コンピュータ不正乱用法Computer Fraud and Abuse Act of 1986:CFAA)は、コンピュータシステムへの不正アクセスを禁止する米国連邦法です。認証が必要なウェブサイトから所有者の許可なくデータをスクレイピングした場合、CFAAに違反する可能性があります。

この法律では、「保護されたコンピュータ」への不正アクセスを禁止しており、これには州際または外国間の商取引や通信に使用されるコンピュータも含まれます。つまり、米国内のウェブサイトから機密データにアクセスした場合、コンピュータ不正使用防止法に違反する可能性があります。

コンピュータ詐欺とは何か?

コンピュータ詐欺とは、コンピュータを利用した詐欺行為のことで、コンピュータシステムへのハッキング、データの窃盗、コンピュータシステムへの損害の発生などが含まれる。

ウェブスクレイピングは、所有者の許可なくデータにアクセスしている場合、コンピュータ詐欺とみなされる可能性があります。例えば、ペイウォールの背後にあるウェブサイトから個人データにアクセスした場合、そのウェブサイトの利用規約に違反する可能性があります。

さらに、ログインが必要なウェブサイトからデータにアクセスした場合も、利用規約に違反する可能性があります。ポップアップウィンドウやログイン画面を迂回するだけでも、CFAAの下では不正アクセスとみなされる可能性があります。

米国における主なウェブ・スクレイピング訴訟

米国では、ウェブ・スクレイピングで法的境界線を押し広げた企業の例が数多くある。主な訴訟をいくつか紹介しよう:

リンクトイン vs ハイキュー

2019年、LinkedInはデータスタートアップのhiQに対し、一般ユーザーのプロフィールをウェブスクレイピングしているとして排除勧告書を送付した。リンクトインはhiQがCFAAに違反していると主張した。第9巡回区による最初の命令はhiQを支持する判決を下したが、リンクトインは連邦最高裁判所に申請した。2021年6月、最高裁は修正訴訟の判決を下した。

eBayとeBidderの比較

2000年、オンライン・オークション・サイトのeBayは、データ新興企業のeBidderをウェブ・スクレイピングで訴えた。この訴訟は連邦最高裁判所外で和解が成立し、eBidderはeBayのデータのスクレイピングを停止するよう命じられた。eBayが勝訴した主な理由は、同社のウェブサーバーへの頻繁なリクエストがシステムの枯渇を引き起こしたからである。

フェイスブック対パワーベンチャーズ

2009年、フェイスブックはユーザーデータをウェブスクレイピングしたとして、ソーシャル・ネットワーキング・サイトのパワーベンチャーズを訴えた。これは、知的財産の観点から行われた訴訟としては、最も初期の例の一つである。フェイスブックは、パワーベンチャーズが利用規約に違反していると主張した。

フェイスブックは、フェイスブックのユーザーには知的財産権があるという判例に基づいて勝訴した。パワーベンチャーズは個人データをスクレイピングしていたため、個人データのかなりの部分はデータプライバシー法で保護されていた。

倫理的ウェブスクレイピングのベストプラクティス

ウェブデータを倫理的にスクレイピングしていることを確認したいのであれば、従うべきプラクティスがいくつかある:

利用規約の確認

ウェブサイトでウェブクローラーを使い始める前に、必ず利用規約を確認してください。ウェブスクレイピングを全面的に禁止しているウェブサイトもあれば、特定の条件下で許可しているウェブサイトもあります。

個人データをスクレイピングする前に許可を得る

連絡先や財務データなどの個人データを入手したい場合は、まず所有者に連絡して許可を得なければなりません。そのためには、電子メールを送るか、直接本人に尋ねる必要があります。

個人データをスクレイピングしない

データスクレイピングを行う際は、著作権で保護されたデータや個人情報など、機密性の高いデータのスクレイピングは避けてください。

ローカルサイトのスクレイピングは慎重に

現地のウェブサイトから公開データをスクレイピングする場合は、適用される可能性のある現地の規制を確認してください。例えば、EUではGDPRが市民のプライバシーを保護し、米国ではCFAAが同じことを行っています。

黄金律に従う

リスクを最小限に抑えたいのであれば、常に黄金律に従ってください。もしあなたが、誰かに許可なく自分のデータをスクレイピングされたくなければ、他の人にそれをしないことだ。

結論

ウェブスクレイピングの合法性については、まだ法的にはグレーゾーンであることがあります。しかし、倫理的にスクレイピングを行うためにできることがいくつかあります。

スクレイピングしたいウェブサイトの利用規約を確認し、個人データをスクレイピングする前に許可を得、機密データをスクレイピングする際は注意すること。

さらに、ウェブサイトのサーバーに不必要な負担をかけないよう、常に適度なクロール速度でデータにアクセスするようにしてください。一般にアクセス可能なデータをスクレイピングしている限り、問題はないはずだ。

ターゲットとするウェブサイトの向こう側には人間のユーザーがいることを常に念頭に置き、「自分がされたいように他人を扱う」という黄金律に必ず従いましょう。

ウェブスクレイピングのプロジェクトに関わったことはありますか?下のコメントで教えてください!