Domanda

L'indicizzazione semantica latente (LSI) è un algoritmo di classificazione statistica? Perché o perché no?

In sostanza, sto cercando di capire perché la pagina di Wikipedia per la classificazione statistica per non parlare di LSI. Sto solo entrando in questa roba e sto cercando di vedere come tutti i diversi approcci per classificare qualcosa si relazionano l'uno con l'altro.

È stato utile?

Soluzione

No, non sono affatto uguali. La classificazione statistica ha lo scopo di separare gli articoli in categorie nel modo più pulito possibile - per prendere una chiara decisione se l'articolo X è più simile agli articoli nel gruppo A o nel gruppo B, ad esempio.

LSI ha lo scopo di mostrare il grado in cui gli articoli sono simili o diversi e, soprattutto, trovare gli articoli che mostrano un grado di somiglianza con un articolo specificato. Sebbene sia simile , non è esattamente lo stesso.

Altri suggerimenti

LSI / LSA è infine una tecnica per riduzione della dimensionalità e di solito è abbinata all'algoritmo più vicino per renderlo un sistema di classificazione. Quindi di per sé, è solo un modo di "indicizzare" i dati nella dimensione inferiore utilizzando SVD.

Hai letto di LSI su Wikipedia ? Dice che utilizza la fattorizzazione a matrice ( SVD ), che a sua volta viene talvolta utilizzata nella classificazione.

La principale distinzione nell'apprendimento automatico è tra "supervisionato" e "senza supervisione" modellazione.

Solitamente le parole "classificazione statistica" fare riferimento a modelli supervisionati, ma non sempre.

Con metodi supervisionati, il set di addestramento contiene una "verità di base". etichetta che si crea un modello da prevedere. Quando si valuta il modello, l'obiettivo è prevedere la migliore ipotesi (o distribuzione di probabilità) dell'etichetta vera, che non si avrà al momento della valutazione. Spesso c'è una metrica delle prestazioni ed è abbastanza chiaro quale sia la risposta giusta contro quella sbagliata.

I metodi di classificazione non supervisionati tentano di raggruppare un gran numero di punti dati che possono variare in modo complicato in un numero inferiore di "simili". categorie. I dati in ciascuna categoria dovrebbero essere simili in qualche modo "interessante" o "profondo". Poiché non esiste alcuna "verità di base" non puoi valutare "giusto o sbagliato", ma "più" contro "meno" interessante o utile.

Allo stesso modo i tempi di valutazione è possibile inserire nuovi esempi in uno dei cluster (classificazione croccante) o fornire un qualche tipo di ponderazione per quantificare come simili o diversi assomiglino all'archetipo "quotato". del cluster.

Quindi, in un certo senso, i modelli supervisionati e non supervisionati possono produrre qualcosa che è una "previsione", previsione dell'etichetta di classe / cluster, ma sono intrinsecamente differenti.

Spesso l'obiettivo di un modello non supervisionato è quello di fornire input più intelligenti e potenti per un modello supervisionato successivo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top