Можно ли подходить общие наборы данных для конкретного анализа настроений
-
22-10-2019 - |
Вопрос
Я использовал Стэнфордский набор данных обзора фильмов Для создания экспериментов по анализу настроений.
Удалось создать базовое приложение поверх искры, используя алгоритм классификации наивного байеса.
Шаги, которые я сделал для предварительной обработки от искры ML Cipeline
- Токенизация
- Биграмс
Приведенный выше набор данных также имеет набор тестирования с самим собой, который отделен обучающим набором. После обучения я получил точность 97%, что, я считаю, довольно хороша для наивного байеса.
Теперь могу я использовать эту модель ML для предсказания для других текстов, таких как электронная почта/чат и т. Д., Я предполагаю, что этот набор данных имеет достаточно большую коллекцию слов для выполнения хороших прогнозов и определенных английских слов независимо от бизнес -контекста, например, «Я не Как это «», «Это не хорошо выглядит» одинаково в разных доменах, таких как фильмы/электронные письма/чаты и т. Д.
Я не проводил эксперимент, так как данные, которые мне нужно получить, принадлежат клиенту, и из -за ограничений конфиденциальности мы не можем получить доступ к данным.
Любая помощь/руководство будет очень оценено.
Решение
Это зависит.
Вы в основном спрашиваете, является ли ваша выборка (данные обучения) репрезентативной для населения (все письменные слова).
- Вы проводите анализ настроений по обзорам фильмов? Это будет отлично сработать.
- Вы проводите анализ настроений на телевизионных обзорах? Это, вероятно, сработает отлично.
- Вы проводите анализ настроений по обзорам книг? Я бы дал лучше, чем 50-50 шансов, это сработает.
- Вы проводите анализ настроений в сообщениях в Твиттере? Теперь мы становимся шатким. Люди, как правило, пишут гораздо меньше, используют меньше формального языка и используют больше смайликов, которых ваша модель обзора фильма не видела.
При этом, определенно есть «общие» услуги анализа настроений, такие как здесь. Анкет Попробуйте свою модель против алгоритмии о том, что вы могли бы рассмотреть общий набор данных (например, куча твитыи посмотреть, как это так.