Frage

Als Erweiterung unserer großartigen Liste von öffentlich verfügbare Datensätze, Ich möchte wissen, ob es eine Liste der öffentlich verfügbaren Datensätze für soziale Netzwerke/Crawling -APIs gibt. Es wäre sehr schön, wenn ein Link zu dem Datensatz/der API zusammen mit den verfügbaren Daten hinzugefügt wurde. Solche Informationen sollten und sind nicht beschränkt auf:

  • der Name des sozialen Netzwerks;
  • Welche Art von Benutzerinformationen bietet es (Beiträge, Profil, Freundschaftsnetzwerk, ...);
  • ob es zulässt, seinen Inhalt über eine API zu kriechen (und Rate: 10/min, 1k/Monat, ...);
  • Ob es einfach einen Schnappschuss des gesamten Datensatzes liefert.

Alle Vorschläge und weiteren Merkmale, die hinzugefügt werden müssen, sind sehr willkommen.

War es hilfreich?

Lösung

Ein paar Worte über soziale Netzwerke -APIs. Vor ungefähr einem Jahr schrieb ich eine Rezension der APIs der populären sozialen Netzwerke für Forscher. Leider ist es in Russisch. Hier ist eine Zusammenfassung:

Twitter (https://dev.twitter.com/docs/api/1.1)

  • Fast alle Daten zu Tweets/Texten und Benutzern sind verfügbar.
  • Mangel an soziodemografischen Daten;
  • Großartige Streaming -API: Nützlich für die Echtzeit -Textverarbeitung;
  • Viele Wrapper für die Programmiersprachen;
  • Das Erhalten von Netzwerkstruktur (Verbindungen) ist möglich, aber zeitgleich (1 Anfrage pro 1 Minute).

Facebook (https://developers.facebook.com/docs/reference/api/)

  • Zinsgrenzen: ca. 1 Anfrage pro Sekunde;
  • Gut dokumentiert, Sandbox vorhanden;
  • FQL (SQL-ähnlich) und «reguläre REST» Graph API;
  • Freundschaftsdaten und soziodemografische Merkmale vorhanden;
  • Viele Daten sind darüber hinaus Ereignishorizont: Nur Freunde von Freunden und Freunden von Freunden sind mehr oder weniger vollständig, fast nichts könnte über zufälliges Benutzer untersucht werden.
  • Einige seltsame API -Fehler und sieht aus, als würde sich niemand darum kümmern (z. B. einige Funktionen über FQL, aber nicht über Graph -API -Synonym).

Instagram (http://instagram.com/developer/)

  • Zinsgrenzen: 5000 Anfragen pro Stunde;
  • Echtzeit -API (wie Streaming -API für Twitter, aber mit Fotos) - Die Verbindung dazu ist ein bisschen schwierig: Rückrufe werden verwendet.
  • Mangel an soziodemografischen Daten;
  • Fotos, filteren Daten verfügbar;
  • Unerwartete Unvollkommenheiten (z. B. ist es möglich, nur 150 Kommentare zum Posten/Foto zu sammeln).

Foursquare (https://developer.foursquare.com/overview/)

  • Zinsgrenzen: 5000 Anfragen pro Stunde;
  • Königreich der geosozialen Daten :)
  • Sehr geschlossen von Forschungen aufgrund von Datenschutzfragen. Um Checkins -Daten zu sammeln, muss man zusammengesetzte Parser erstellen, der mit 4SQ-, Bit.ly- und Twitter -APIs gleichzeitig arbeitet;
  • Wieder: Mangel an soziodemografischen Daten.

Google+ (https://developers.google.com/+/api/latest/)

  • ca. 5 Anfragen pro Sekunde (versuchen Sie zu überprüfen);
  • Hauptmethoden: Aktivitäten und Menschen;
  • Wie auf Facebook sind viele personenbezogene Daten für den zufälligen Benutzer versteckt.
  • Mangel an Benutzerverbindungsdaten.

Und außerhalb des Wettbewerbs: Ich habe soziale Netzwerke für russische Leser überprüft, und das Nr. 1-Netzwerk hier ist vk.com. Es wird in viele Sprachen übersetzt, aber nur in Russland und anderen CIS -Ländern beliebt. API DOCS Link: http://vk.com/dev/. Und aus meiner Sicht ist es die beste Wahl für homebrewe Social -Media -Forschung. Zumindest in Russland. Deshalb:

  • Zinsgrenzen: 3 Anfragen pro Sekunde;
  • Öffentliche Text- und Mediendaten verfügbar;
  • Soziodemografische Daten verfügbar: Für zufällige Verfügbarkeitsniveau beträgt etwa 60-70%;
  • Verbindungen zwischen Benutzern sind auch verfügbar: Fast alle Freundschaften Daten für zufälligen Benutzer sind verfügbar.
  • Einige besondere Methoden: z. B. gibt es eine Methode, um den genauen Benutzer in Echtzeit online/offline zu erhalten, und man könnte den Zeitplan für sein Publikum erstellen.

Andere Tipps

Es ist kein soziales Netzwerk an sich, sondern Stackexchange veröffentlicht regelmäßig ihren gesamten Datenbank -Dump:

Sie können einige soziale Informationen extrahieren, indem Sie analysieren, welche Benutzer sich gegenseitig fragen und antworten. Eine schöne Sache ist, dass Sie, da Beiträge markiert sind, die Unterkommunitäten leicht analysieren können.

Eine gute Liste der öffentlich verfügbaren Datensätze für soziale Netzwerke finden Sie auf der Website des Stanford Network Analysis -Projekts:

Datensätze schnappen

Die Website enthält Daten im Internet sozialen Netzwerkdaten (Facebook, Twitter, Google Plus), Citation-Netzwerke für akademische Zeitschriften, gemeinsame Netzwerke von Amazon und mehreren anderen Netzwerken. Sie haben Grafiken angewiesen, ungerichtet und partitale Diagramme und alle Datensätze sind Schnappschüsse, die in komprimierter Form heruntergeladen werden können.

Ein Beispiel aus Deutschland: Xing eine Website ähnlich wie LinkedIn, aber auf deutsche Sprechländer beschränkt.

Link zu seinem Entwickler Central: https://dev.xing.com/overview

Bietet Zugriff auf: Benutzerprofile, Konversationen zwischen Benutzern (beschränkt auf den Benutzer selbst), Stellenanzeigen, Kontakte und Kontakte von Kontakten, Nachrichten aus dem Netzwerk und einigen Geolocation -API.

Ja, es hat eine API, aber ich habe keine Informationen über die Rate gefunden. Aber es scheint mir, dass einige Informationen auf die Zustimmung des Benutzers beschränkt sind.

Netzwerkrepository (http://networkrepository.com) hat unzählige soziale Netzwerke, Webgraphen, Bio- und Gehirnnetzwerke usw. Das Beste von allen, sie verfügen auch über interaktive visuelle Analysetools, um die verschiedenen sozialen Netzwerke zu vergleichen/zu erkunden.

Eine kleine Sammlung solcher Links finden Sie bei hier. Viele von ihnen sind soziale Grafiken.

Thai -Text von verschiedenen Social -Media -Plattformen + Stimmungsparks (positiv, neutral, negativ).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top