Frage

Gibt es eine Open-Source-Implementierung von LSI in Java? Ich möchte, dass Bibliothek für mein Projekt verwenden. Ich habe jLSI gesehen, aber es setzt ein anderes Modell von LSI. Ich möchte ein Standardmodell.

War es hilfreich?

Lösung

Haben Sie LDA (Latent Dirichlet Allocation) in Betracht gezogen? Ich habe auch nicht wirklich, aber ich stieß das gleiche Problem mit LSI kürzlich (Patenten). Von dem, was ich LDA verstehe, ist eine verwandte / leistungsfähigeren Technik. http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation hat offenbar einige Links zu Open Source-Implementierungen.

Andere Tipps

Ein Google-Suche für Java-LSI führt zu einem ähnliche Frage die SemanticVectors empfiehlt. Ein Paket auf der Lucene gebaut, die ‚ähnlich‘ zu LSI ist. Ich weiß nicht, ob es näher als die jLSI Umsetzung.

Das Thread erwähnt auch, dass LSI patentiert ist, und es gibt nicht viele Implementierungen davon. Wenn Sie also eine Standard-Implementierung benötigen Sie eine andere Sprache als Java verwenden.

Das S-Raumpaket eine Open-Source-Version von LSA hat mit Bindungen, für die LSI Dokumentenvektoren. (Beiden Ansätze arbeiten nach der gleichen Begriff-Dokument-Matrix und sind äquivalent, außer in der Ausgabe.) Es ist ein ziemlich skalierbaren Ansatz, der den Dünn SVD verwendet. Ich habe es verwendet, ohne Problem LSI auf alle Wikipedia läuft (nach den seltenen Bedingungen mit weniger als 5 Vorkommen zu entfernen).

Wie Scott Ray erwähnte, ist die SemanticVectors Paket auch eine gute LSI Implementierung hat, dass das gleiche Dünn SVD (SVDLIBJ) zur Verwendung vor kurzem eingeschaltet, so dass Sie, dass Besuche könnten, als ob Sie nicht vorher.

eine Google-Suche für NLP-Tools bieten diese Dias , die ich denke, hilft ...

Ich glaube, dass LSA / LSI im Jahr 1989 patentiert wurde, was bedeutet, sollte das Patent abgelaufen gerade. Hoffentlich werden wir bald ein paar schöne Open-Source-Anwendungen.

Haben Sie das Semantic Vector Paket versucht?

http://code.google.com/p/semanticvectors/

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top