Общедоступные наборы данных социальных сетей / API

datascience.stackexchange https://datascience.stackexchange.com/questions/422

  •  16-10-2019
  •  | 
  •  

Вопрос

В качестве дополнения к нашему большому списку общедоступные наборы данных, Я хотел бы знать, существует ли какой-либо список общедоступных наборов данных социальных сетей / API обхода.Было бы очень неплохо, если бы вместе со ссылкой на dataset / API были добавлены характеристики доступных данных.Такая информация должна быть, и не ограничивается этим:

  • название социальной сети;
  • какую информацию о пользователе он предоставляет (сообщения, профиль, сеть знакомств, ...);
  • позволяет ли это сканировать его содержимое через API (и скорость:10 в минуту, 1 тыс. в месяц, ...);
  • является ли это просто моментальным снимком всего набора данных.

Любые предложения и дополнительные характеристики, которые будут добавлены, очень приветствуются.

Это было полезно?

Решение

Пара слов об API-интерфейсах социальных сетей.Около года назад я написал обзор API-интерфейсов популярных социальных сетей для исследователей.К сожалению, это на русском языке.Вот краткое изложение:

Twitter (https://dev.twitter.com/docs/api/1.1)

  • доступны практически все данные о твитах / текстах и пользователях;
  • отсутствие социально-демографических данных;
  • отличный потоковый API:полезно для обработки текста в режиме реального времени;
  • множество оболочек для языков программирования;
  • получение сетевой структуры (соединений) возможно, но требует больших затрат времени (1 запрос в 1 минуту).

Facebook (https://developers.facebook.com/docs/reference/api/)

  • ограничения скорости:около 1 запроса в секунду;
  • хорошо документировано, присутствует песочница;
  • FQL (SQL-подобный) и «обычный Rest» Graph API;
  • представлены данные о дружбе и социально - демографические характеристики;
  • большое количество данных находится за пределами горизонт событий:более или менее полны данные только о друзьях и друзьях друзей, почти ничего не удалось выяснить о случайном пользователе;
  • какие-то странные ошибки в API, и, похоже, никого это не волнует (например, некоторые функции доступны через FQL, но не через синоним Graph API).

Instagram (http://instagram.com/developer/)

  • ограничения скорости:5000 запросов в час;
  • API реального времени (похожий на Streaming API для Twitter, но с фотографиями) - подключиться к нему немного сложнее:используются обратные вызовы;
  • отсутствие социально-демографических данных;
  • доступные фотографии, фильтры данных;
  • неожиданные недостатки (например, к публикации / фотографии можно собрать только 150 комментариев).

Четырехугольник (https://developer.foursquare.com/overview/)

  • ограничения скорости:5000 запросов в час;
  • королевство геосоциальных данных :)
  • довольно закрытый от исследований из-за проблем с конфиденциальностью.Для сбора данных проверок необходимо создать составной парсер, работающий одновременно с API 4sq, bit.ly и twitter;
  • снова:отсутствие социально-демографических данных.

Google+ (https://developers.google.com/+/api/latest/)

  • около 5 запросов в секунду (попробуйте проверить);
  • основные методы:виды деятельности и люди;
  • как и в Facebook, многие личные данные случайного пользователя скрыты;
  • отсутствие данных о подключениях пользователей.

И вне конкуренции:Я сделал обзор социальных сетей для российских читателей, и сеть №1 здесь - это vk.com.Она переведена на многие языки, но популярна только в России и других странах СНГ.Ссылка на документы API: http://vk.com/dev/.И, с моей точки зрения, это лучший выбор для исследования домашних социальных сетей.По крайней мере, в России.Вот почему:

  • ограничения скорости:3 запроса в секунду;
  • доступные общедоступные текстовые и мультимедийные данные;
  • имеющиеся социально-демографические данные:для случайного пользователя уровень доступности составляет около 60-70%;
  • также доступны соединения между пользователями:доступны почти все данные о дружбе для случайного пользователя;
  • некоторые специальные методы:например, существует метод получения онлайн / оффлайн статуса для конкретного пользователя в режиме реального времени, и можно построить расписание для его аудитории.

Другие советы

Это не социальная сеть как таковая, но Stackexchange периодически публикует всю свою дамп базы данных:

Вы можете извлечь некоторую социальную информацию, анализируя, какие пользователи спрашивают и отвечают друг другу. Одна приятно то, что, поскольку посты помечены, вы можете легко анализировать подключения.

Хороший список общедоступных наборов социальных сетей можно найти на веб -сайте проекта «Анализ сети» Стэнфорда:

Наборы данных

Сайт содержит данные интернет-социальной сети (Facebook, Twitter, Google Plus), сети цитирования для академических журналов, совместные сети от Amazon и несколько других видов сетей. Они направили, неправен и двудольные графики, и все наборы данных представляют собой снимки, которые можно загрузить в сжатой форме.

Пример из Германии: xing сайт, похожий на LinkedIn, но ограничен немецкоязычными странами.

Ссылка на его разработчик Central: https://dev.xing.com/overview

Предоставляет доступ к: профили пользователей, разговоры между пользователями (ограниченными самим пользователем), рекламу заданий, контакты и контакты контактов, новости из сети и некоторые Geolocation API.

Да, у него есть API, но я не нашел информацию о ставке. Но мне кажется, что некоторая информация ограничена согласием пользователя.

Сетевой репозиторий (http://networkrepository.comИмеет множество социальных сетей, веб -графиков, биографических и мозговых сетей и т. Д., Лучше всего, они также имеют интерактивные визуальные аналитические инструменты для сравнения/изучения различных социальных сетей.

Небольшая коллекция таких ссылок можно найти в здесь. Анкет Многие из них являются социальными графами.

Тайский текст Из разных платформ социальных сетей + метки настроений (положительные, нейтральные, негативные).

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top