Лучший способ исправить размер предложения [анализ настроений

https://datascience.stackexchange.com/questions/17709

22-10-2019
|

Вопрос

Я работаю над проектом, посвященным обработке естественного языка. Однако я застрял в точке, который у меня есть ANN, которая имеет фиксированный размер входных нейронов.

Я пытаюсь сделать анализ настроений с использованием набора обзоров фильмов IMDB. Чтобы сделать это, во-первых, я рассчитал слово «встраивание для каждого слова» с созданием матрицы контекста слова, а затем применил SVD. Так что у меня есть слово «встраивающаяся матрица». Но я не знаю лучшего способа сжатия вектора предложения (который содержит встраивание для каждого слова в предложении) в фиксированный размер, чтобы иметь возможность кормить нейронную сеть. Я попробовал PCA, но результат не был удовлетворительным.

Любая помощь?

Решение

Самый простой способ- в среднем сортировки слов. Это работает довольно хорошо. Еще одна вещь, которую вы можете попробовать, - это представить каждый документ как сумку с словами - т.е. - иметь вектор в размере вашего словаря, где в вашем документе был упомянут каждый элемент в векторе. Например, первый элемент в векторе будет представлять, сколько раз слова a был упомянут, и так далее). Последствия, чтобы уменьшить размер вектора, вы можете использовать такие методы, как LDA, SVD, или Автокодеры.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange