Общедоступные наборы данных социальных сетей / API
-
16-10-2019 - |
Вопрос
В качестве дополнения к нашему большому списку общедоступные наборы данных, Я хотел бы знать, существует ли какой-либо список общедоступных наборов данных социальных сетей / API обхода.Было бы очень неплохо, если бы вместе со ссылкой на dataset / API были добавлены характеристики доступных данных.Такая информация должна быть, и не ограничивается этим:
- название социальной сети;
- какую информацию о пользователе он предоставляет (сообщения, профиль, сеть знакомств, ...);
- позволяет ли это сканировать его содержимое через API (и скорость:10 в минуту, 1 тыс. в месяц, ...);
- является ли это просто моментальным снимком всего набора данных.
Любые предложения и дополнительные характеристики, которые будут добавлены, очень приветствуются.
Решение
Пара слов об API-интерфейсах социальных сетей.Около года назад я написал обзор API-интерфейсов популярных социальных сетей для исследователей.К сожалению, это на русском языке.Вот краткое изложение:
Twitter (https://dev.twitter.com/docs/api/1.1)
- доступны практически все данные о твитах / текстах и пользователях;
- отсутствие социально-демографических данных;
- отличный потоковый API:полезно для обработки текста в режиме реального времени;
- множество оболочек для языков программирования;
- получение сетевой структуры (соединений) возможно, но требует больших затрат времени (1 запрос в 1 минуту).
Facebook (https://developers.facebook.com/docs/reference/api/)
- ограничения скорости:около 1 запроса в секунду;
- хорошо документировано, присутствует песочница;
- FQL (SQL-подобный) и «обычный Rest» Graph API;
- представлены данные о дружбе и социально - демографические характеристики;
- большое количество данных находится за пределами горизонт событий:более или менее полны данные только о друзьях и друзьях друзей, почти ничего не удалось выяснить о случайном пользователе;
- какие-то странные ошибки в API, и, похоже, никого это не волнует (например, некоторые функции доступны через FQL, но не через синоним Graph API).
Instagram (http://instagram.com/developer/)
- ограничения скорости:5000 запросов в час;
- API реального времени (похожий на Streaming API для Twitter, но с фотографиями) - подключиться к нему немного сложнее:используются обратные вызовы;
- отсутствие социально-демографических данных;
- доступные фотографии, фильтры данных;
- неожиданные недостатки (например, к публикации / фотографии можно собрать только 150 комментариев).
Четырехугольник (https://developer.foursquare.com/overview/)
- ограничения скорости:5000 запросов в час;
- королевство геосоциальных данных :)
- довольно закрытый от исследований из-за проблем с конфиденциальностью.Для сбора данных проверок необходимо создать составной парсер, работающий одновременно с API 4sq, bit.ly и twitter;
- снова:отсутствие социально-демографических данных.
Google+ (https://developers.google.com/+/api/latest/)
- около 5 запросов в секунду (попробуйте проверить);
- основные методы:виды деятельности и люди;
- как и в Facebook, многие личные данные случайного пользователя скрыты;
- отсутствие данных о подключениях пользователей.
И вне конкуренции:Я сделал обзор социальных сетей для российских читателей, и сеть №1 здесь - это vk.com.Она переведена на многие языки, но популярна только в России и других странах СНГ.Ссылка на документы API: http://vk.com/dev/.И, с моей точки зрения, это лучший выбор для исследования домашних социальных сетей.По крайней мере, в России.Вот почему:
- ограничения скорости:3 запроса в секунду;
- доступные общедоступные текстовые и мультимедийные данные;
- имеющиеся социально-демографические данные:для случайного пользователя уровень доступности составляет около 60-70%;
- также доступны соединения между пользователями:доступны почти все данные о дружбе для случайного пользователя;
- некоторые специальные методы:например, существует метод получения онлайн / оффлайн статуса для конкретного пользователя в режиме реального времени, и можно построить расписание для его аудитории.
Другие советы
Это не социальная сеть как таковая, но Stackexchange периодически публикует всю свою дамп базы данных:
Вы можете извлечь некоторую социальную информацию, анализируя, какие пользователи спрашивают и отвечают друг другу. Одна приятно то, что, поскольку посты помечены, вы можете легко анализировать подключения.
Хороший список общедоступных наборов социальных сетей можно найти на веб -сайте проекта «Анализ сети» Стэнфорда:
Сайт содержит данные интернет-социальной сети (Facebook, Twitter, Google Plus), сети цитирования для академических журналов, совместные сети от Amazon и несколько других видов сетей. Они направили, неправен и двудольные графики, и все наборы данных представляют собой снимки, которые можно загрузить в сжатой форме.
Пример из Германии: xing сайт, похожий на LinkedIn, но ограничен немецкоязычными странами.
Ссылка на его разработчик Central: https://dev.xing.com/overview
Предоставляет доступ к: профили пользователей, разговоры между пользователями (ограниченными самим пользователем), рекламу заданий, контакты и контакты контактов, новости из сети и некоторые Geolocation API.
Да, у него есть API, но я не нашел информацию о ставке. Но мне кажется, что некоторая информация ограничена согласием пользователя.
Сетевой репозиторий (http://networkrepository.comИмеет множество социальных сетей, веб -графиков, биографических и мозговых сетей и т. Д., Лучше всего, они также имеют интерактивные визуальные аналитические инструменты для сравнения/изучения различных социальных сетей.
Небольшая коллекция таких ссылок можно найти в здесь. Анкет Многие из них являются социальными графами.
Тайский текст Из разных платформ социальных сетей + метки настроений (положительные, нейтральные, негативные).