Algoritmo per classificare un elenco di prodotti? Take 2

https://stackoverflow.com/questions/744801

09-09-2019
|

Domanda

per questo un paio di settimane fa, ma non ho chiesto la questione in modo corretto. Così sto chiedendo nuovamente qui la domanda con maggiori dettagli e mi piacerebbe avere una risposta più orientata AI.

Ho una lista che rappresentano i prodotti che sono più o meno lo stesso. Per esempio, nella lista qui sotto, sono tutti i dischi rigidi Seagate.

Seagate Hard Drive 500Go
Seagate Hard Drive 120Go laptop
Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb / s Disco rigido
Nuovo e shinny disco rigido 500Go da Seagate
Seagate Barracuda 7200.12
Seagate FreeAgent Desk External Hard Drive 500GB 7200RPM Argento USB2.0 al dettaglio
GE Spacemaker lavanderia
Mazda3 2010
Mazda3 2009 2.3L

Per un essere umano, i dischi rigidi 3 e 5 sono uguali. Potremmo andare un po 'oltre e supponiamo che i prodotti 1, 3, 4 e 5 sono gli stessi e mettere in altre categorie del prodotto 2 e 6.

Nella mia domanda precedente, qualcuno mi ha suggerito di utilizzare estrazione delle caratteristiche. Funziona molto bene quando abbiamo un piccolo set di dati delle descrizioni predefinite (tutti dischi rigidi), ma per quanto riguarda tutti gli altri tipi di descrizione? Io non voglio iniziare a scrivere regex basato caratteristica estrattori per tutte le descrizioni mia domanda potrebbe affrontare, non scala. Esiste un algoritmo di apprendimento automatico che potrebbe aiutarmi a raggiungere questo obiettivo? La gamma di descrizione che posso ottenere è molto ampia, sulla linea 1, potrebbe essere un frigo, e poi sulla riga successiva, un disco rigido. Dovrei provare a prendere il sentiero Neural Network? Quale dovrebbe essere il mio ingressi?

Grazie per l'aiuto!

Soluzione

Vorrei guardare alcuni metodi di classificazione bayesiana . Si tratterebbe di formazione del classificatore di riconoscere determinate parole come indicazione probabilità che un prodotto appartiene ad una delle vostre classi. Ad esempio, dopo essere stato addestrato, si potrebbe riconoscere che se una descrizione del prodotto ha "Seagate" in esso, c'è una possibilità del 99% che si tratta di un disco rigido, mentre se ha "Mazda" c'è una possibilità del 97% si tratta di una macchina. Una parola come "nuova", probabilmente finirebbe per non contribuiscono molto a qualsiasi classificazione, che è il modo in cui si desidera lavorare.

L'aspetto negativo di questo sarebbe che richiede in genere abbastanza grande corpora dei dati di allenamento prima di iniziare a lavorare bene, ma è possibile impostarlo in modo che continui a modificare le sue percentuali pur essendo in produzione (se si nota che essa qualcosa classificato in modo non corretto), e finirà per diventare molto efficace.

tecniche bayesiane sono usati piuttosto pesantemente di recente per spam filtering , quindi potrebbe essere una buona per fare qualche lettura sui modi che è stato utilizzato lì.

Altri suggerimenti

Si dovrebbe guardare sia il clustering e classificazione . Le tue selezioni sembrano a tempo indeterminato e, quindi, suggeriscono che il clustering può andare bene meglio il problema. Per quanto riguarda la rappresentanza di ingresso, si può tentare la fortuna con l'estrazione di parola e n-grammi . La vostra misura di similarità può essere il numero di comuni n-grammi, o qualcosa di più sofisticato . Potrebbe essere necessario etichettare i cluster risultanti manualmente.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow