Latent Semantic Indexing

https://stackoverflow.com/questions/1771050

21-09-2019
|

Question

Il est dit que par le biais LSI, les matrices qui sont produites U, A et V, ils rassemblent les documents qui ont des synonymes. Pour exemple si l'on recherche « voiture », nous recevons aussi des documents qui ont « automobile ». Mais LSI est rien d'autre que des manipulations de matrices. Il ne prend en compte la fréquence, et non sémantique. Alors, ce qui est la chose derrière cette magie que je suis absent? S'il vous plaît expliquer.

La solution

LSI crée essentiellement un profil de fréquence de chaque document, et recherche des documents avec des profils de fréquences similaires. Si le reste du profil de fréquence est assez semblables, il va classer en deux documents assez similaires, même si l'on substitue systématiquement quelques mots. A l'inverse, si les profils de fréquence sont différents, il peut / classera les documents aussi différents, même si elles partagent une utilisation fréquente de quelques termes spécifiques (par exemple, « fichier » étant liés à un ordinateur, dans certains cas, et une chose qui est utilisé pour couper et métal lisse dans d'autres cas).

LSI est également généralement utilisé avec des groupes relativement importants de documents. Les autres documents peuvent aider à trouver des similitudes aussi bien - même si le document A et B aspect très différent, si le document C utilise un certain nombre de termes A et B, il peut aider à trouver que A et B sont vraiment assez similaires.

Autres conseils

Selon l'article de Wikipedia , « LSI est basé sur le principe que les mots qui sont utilisés dans les mêmes contextes ont tendance à avoir des significations similaires. » Autrement dit, si deux mots semblent être utilisés de façon interchangeable, ils pourraient être synonymes.

Il est pas infaillible.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow