Frage

Es wird gesagt, dass durch LSI, die Matrizen, die U, A und V erzeugt werden, bringen sie zusammen Dokumente, die Synonyme haben. Für z.B. wenn wir für „Auto“ suchen wir auch Dokumente erhalten, die „Automobil“ haben. Aber LSI ist nichts anderes als Manipulation von Matrizen. Es berücksichtigt nur die Frequenz, nicht Semantik. So was hinter dieser Magie der Sache, dass ich fehle? Bitte erläutern.

War es hilfreich?

Lösung

LSI schafft im Grunde ein Frequenzprofil jedes Dokument und sucht nach Dokumenten mit ähnlichen Frequenzprofilen. Wenn der Rest des Frequenzprofil genug gleich ist, wird es zwei Dokumente klassifizieren als ziemlich ähnlich zu sein, auch wenn man systematisch einige Worte ersetzt. Umgekehrt, wenn die Frequenzprofile unterschiedlich sind, kann es / wird die Dokumente so unterschiedlich einstufen, auch wenn sie in einigen Fällen zu einem Computer im Zusammenhang häufige Verwendung von einem paar spezifischen Begriffen (zB „Datei“ wird gemeinsam nutzen, und eine Sache, die verwendet werden Schnitt und glattes Metall in anderen Fällen).

LSI auch typischerweise mit relativ großen Gruppen von Dokumenten verwendet. Die anderen Dokumente Ähnlichkeiten helfen können, als auch bei der Suche nach - auch wenn Dokument A und B Blick wesentlich anders, wenn das Dokument C verwendet eine ganze Reihe von Bedingungen von sowohl A als auch B, kann es bei der Suche helfen, dass A und B sind wirklich ziemlich ähnlich.

Andere Tipps

Nach Wikipedia-Artikel „wird LSI basiert auf dem Prinzip, dass Wörter, die sind verwendet, neigt dazu, in den gleichen Kontexten ähnliche Bedeutungen zu haben.“ Das heißt, wenn zwei Worte scheinen austauschbar verwendet werden, könnten sie Synonyme sein.

Es ist nicht unfehlbar.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top