Можно ли подходить общие наборы данных для конкретного анализа настроений

https://datascience.stackexchange.com/questions/17810

22-10-2019
|

Вопрос

Я использовал Стэнфордский набор данных обзора фильмов Для создания экспериментов по анализу настроений.

Удалось создать базовое приложение поверх искры, используя алгоритм классификации наивного байеса.

Шаги, которые я сделал для предварительной обработки от искры ML Cipeline

Токенизация
Биграмс

Приведенный выше набор данных также имеет набор тестирования с самим собой, который отделен обучающим набором. После обучения я получил точность 97%, что, я считаю, довольно хороша для наивного байеса.

Теперь могу я использовать эту модель ML для предсказания для других текстов, таких как электронная почта/чат и т. Д., Я предполагаю, что этот набор данных имеет достаточно большую коллекцию слов для выполнения хороших прогнозов и определенных английских слов независимо от бизнес -контекста, например, «Я не Как это «», «Это не хорошо выглядит» одинаково в разных доменах, таких как фильмы/электронные письма/чаты и т. Д.

Я не проводил эксперимент, так как данные, которые мне нужно получить, принадлежат клиенту, и из -за ограничений конфиденциальности мы не можем получить доступ к данным.

Любая помощь/руководство будет очень оценено.

Решение

Это зависит.

Вы в основном спрашиваете, является ли ваша выборка (данные обучения) репрезентативной для населения (все письменные слова).

Вы проводите анализ настроений по обзорам фильмов? Это будет отлично сработать.
Вы проводите анализ настроений на телевизионных обзорах? Это, вероятно, сработает отлично.
Вы проводите анализ настроений по обзорам книг? Я бы дал лучше, чем 50-50 шансов, это сработает.
Вы проводите анализ настроений в сообщениях в Твиттере? Теперь мы становимся шатким. Люди, как правило, пишут гораздо меньше, используют меньше формального языка и используют больше смайликов, которых ваша модель обзора фильма не видела.

При этом, определенно есть «общие» услуги анализа настроений, такие как здесь. Анкет Попробуйте свою модель против алгоритмии о том, что вы могли бы рассмотреть общий набор данных (например, куча твитыи посмотреть, как это так.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange