Используйте liblinear на больших данных для семантического анализа

https://datascience.stackexchange.com/questions/16

16-10-2019
|

Вопрос

я использую Libsvm обучить данные и предсказать классификацию на Семантический анализ проблема. Но у него есть производительность Проблема с крупномасштабными данными, потому что семантический анализ проблем n-измерение проблема.

Прошедший год, Liblinear был выпущен, и он может решить узкое место в производительности. Но это стоило слишком дорого Память. Анкет Является Уменьшение карты Единственный способ решить проблему семантического анализа по большим данным? Или есть какие -либо другие методы, которые могут улучшить узкое место памяти на Liblinear?

Решение

Обратите внимание, что есть ранняя версия liblinear ported Apache Spark. Анкет Видеть Список рассылки Комментарии Для некоторых ранних деталей и Сайт проекта.

Другие советы

Вы можете проверить vowpal wabbit. Анкет Он довольно популярен для крупномасштабного обучения и включает параллельные положения.

С их веб -сайта:

VW является сущностью скорости в машинном обучении, способная с легкостью учиться на наборах данных TeraFeature. С помощью параллельного обучения он может превышать пропускную способность любого интерфейса сети отдельных машин при выполнении линейного обучения, первого среди алгоритмов обучения.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange