«Предварительно построенные» матрицы для скрытого семантического анализа

https://stackoverflow.com/questions/4111979

29-09-2019
|

Вопрос

Я хочу использовать скрытый семантический анализ для небольшого приложения, которое я строю, но я не хочу создавать матрицы сам. (Отчасти потому, что документы, которые я имею в себе не очень хорошую коллекцию тренировок, потому что они вроде короткие и неоднородные, и отчасти потому, что я только что получил новый компьютер, и я нахожу его сука для установки линейной алгебры и такое Библиотеки мне понадобятся.)

Есть ли какие-либо «по умолчанию» / предварительно построенные реализации LSA? Например, вещи, которые я ищу, включают в себя:

По умолчанию U, S, V (т. Е. Если D - это матрица документа с термином из некоторого тренировочного набора, то d = USV ^ t - это сингулярное разложение значения), так что данное любое количество Query Query Q, я могу использовать эти матрицы для Вычислить проекцию LSA Q сам.
Некоторые алгоритм LSA Box, который, учитывая вектор Q, возвращает проекцию LSA Q.

Решение

Вы, вероятно, были заинтересованы в Генсим Рамки для Python; Примечательно, что он имеет Пример на создании соответствующих матриц от английской Википедии.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow