質問

私たちの素晴らしいリストへの拡張として 公開されているデータセット, 、公開されているソーシャルネットワークデータセット/クローリングAPIのリストがあるかどうかを知りたいです。データセット/APIへのリンクとともに、利用可能なデータの特性が追加された場合、それは非常に素晴らしいことです。そのような情報は、次のことに限定されるべきであり、これらに限定されない:

  • ソーシャルネットワークの名前。
  • それが提供するユーザー情報の種類(投稿、プロフィール、友情ネットワークなど);
  • APIを介してその内容をクロールできるかどうか(およびレート:10/min、1k/month、...);
  • それが単にデータセット全体のスナップショットを提供するかどうか。

追加すべき提案とさらなる特性は大歓迎です。

役に立ちましたか?

解決

ソーシャルネットワークAPIについてのいくつかの言葉。約1年前、私は研究者向けの人気のソーシャルネットワークのAPIのレビューを書きました。残念ながら、それはロシア語です。これが概要です:

ツイッター (https://dev.twitter.com/docs/api/1.1)

  • ツイート/テキストとユーザーに関するほとんどすべてのデータが利用可能です。
  • 社会人口統計データの欠如;
  • 優れたストリーミングAPI:リアルタイムのテキスト処理に役立ちます。
  • 言語をプログラミングするための多くのラッパー。
  • ネットワーク構造(接続)を取得することは可能ですが、時間が高くなります(1分間に1回のリクエスト)。

フェイスブック (https://developers.facebook.com/docs/reference/api/)

  • レート制限:1秒あたり約1回のリクエスト。
  • よく文書化された、サンドボックスが存在します。
  • FQL(SQL-LIKE)および«通常のREST»グラフAPI;
  • 友情データと社会人口統計上の特徴が存在します。
  • 多くのデータはそれを超えています イベントホライズン: :友人のデータの友人と友人だけがほぼ完全であり、ランダムユーザーについてはほとんど調査できません。
  • いくつかの奇妙なAPIバグは、誰もそれを気にしないように見えます(たとえば、FQLで利用可能ないくつかの機能ですが、グラフAPI同義語ではそうではありません)。

インスタグラム (http://instagram.com/developer/)

  • レート制限:1時間あたり5000リクエスト。
  • リアルタイムAPI(Twitter用のAPIのストリーミングなど) - それへの接続は少し難しいです:コールバックが使用されます。
  • 社会人口統計データの欠如;
  • 写真、使用可能なフィルターデータ。
  • 予期しない欠陥(たとえば、投稿/写真に150件のコメントしか収集できない)。

フォースクエア (https://developer.foursquare.com/overview/)

  • レート制限:1時間あたり5000リクエスト。
  • 地理社会的データの王国:)
  • プライバシーの問題のために研究からかなり閉鎖されています。チェックインデータを収集するには、4SQ、bit.ly、およびTwitter APIを使用して動作する複合パーサーを構築する必要があります。
  • 繰り返しますが、社会人口統計データの不足。

Google+ (https://developers.google.com/+/api/latest/)

  • 約5秒あたりのリクエスト(検証してみてください);
  • 主な方法:活動と人々。
  • Facebookのように、ランダムユーザーの多くの個人データが隠されています。
  • ユーザー接続データの欠如。

競争の外:私はロシアの読者向けのソーシャルネットワークをレビューしました、そしてここで#1ネットワークは VK.com. 。多くの言語に翻訳されていますが、ロシアや他のCIS諸国でのみ人気があります。 APIドキュメントリンク: http://vk.com/dev/. 。そして、私の観点から見ると、それはHomeBrewソーシャルメディアの研究に最適な選択です。少なくとも、ロシアで。それが理由です:

  • レート制限:3秒あたりのリクエスト。
  • 利用可能なパブリックテキストおよびメディアデータ。
  • 利用可能な社会人口統計データ:ランダムなユーザーの可用性レベルは約60〜70%です。
  • ユーザー間の接続も利用可能です。ランダムユーザーのほぼすべての友情データが利用可能です。
  • いくつかの特別な方法:たとえば、正確なユーザーのオンライン/オフラインステータスをリアルタイムで取得する方法があり、視聴者のスケジュールを構築できます。

他のヒント

それ自体はソーシャルネットワークではありませんが、stackexchangeは定期的にデータベースダンプ全体を公開します。

どのユーザーがお互いに尋ねて答えるかを分析することにより、いくつかのソーシャル情報を抽出できます。良いことの1つは、投稿にタグが付けられているため、サブコミュニティを簡単に分析できることです。

公開されているソーシャルネットワークデータセットの優れたリストは、スタンフォードネットワーク分析プロジェクトWebサイトにあります。

スナップデータセット

このサイトには、インターネットソーシャルネットワークデータ(Facebook、Twitter、Google Plus)、アカデミックジャーナル用の引用ネットワーク、Amazonのネットワークの共同購入、その他いくつかの種類のネットワークが含まれています。彼らは監督、無向、および二部グラフを持っており、すべてのデータセットは、圧縮形式でダウンロードできるスナップショットです。

ドイツの例:LinkedInに似ているが、ドイツ語講演国に限定されたサイトをXing。

開発者セントラルへのリンク: https://dev.xing.com/overview

ユーザープロファイル、ユーザー間の会話(ユーザー自体に限定)、ジョブ広告、連絡先、連絡先の連絡先、ネットワークからのニュース、ジオロケーションAPIへのアクセスを提供します。

はい、APIがありますが、レートに関する情報は見つかりませんでした。しかし、一部の情報はユーザーの同意に限定されているように思えます。

ネットワークリポジトリ(http://networkrepository.com)多くのソーシャルネットワーク、Webグラフ、バイオネットワーク、脳ネットワークなどがあります。何よりも、さまざまなソーシャルネットワークを比較/探索するためのインタラクティブな視覚分析ツールもあります。

そのようなリンクの小さなコレクションはで見つけることができます ここ. 。それらの多くはソーシャルグラフです。

タイのテキスト さまざまなソーシャルメディアプラットフォーム +センチメントラベルから(ポジティブ、ニュートラル、ネガティブ)。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top