Algorithme pour classer une liste de produits? Prendre 2

https://stackoverflow.com/questions/744801

09-09-2019
|

Question

J'ai posé une question similaire à celle-ci quelques il y a quelques semaines, mais je ne l'ai pas posé la question correctement. Je suis donc re-pose ici la question avec plus de détails et je voudrais obtenir une réponse plus orientée vers l'IA.

J'ai une liste représentant des produits qui sont plus ou moins les mêmes. Par exemple, dans la liste ci-dessous, ils sont tous les disques durs Seagate.

Seagate Disque dur 500Go
Seagate Disque dur 120Go pour ordinateur portable
Seagate Barracuda 7200.12 ST3500418AS 500Go 7200 RPM Disque dur SATA 3,0 Gb / s
Nouveau disque dur de 500Go de Seagate shinny
Seagate Barracuda 7200.12
Seagate FreeAgent bureau 500 Go Disque dur externe Argent 7200. USB2.0 Retail
GE Spacemaker Laudry
Mazda3 2010
Mazda3 2009 2.3L

Pour un être humain, les disques durs 3 et 5 sont les mêmes. On pourrait aller un peu plus loin et supposons que les produits 1, 3, 4 et 5 sont les mêmes et mettre dans d'autres catégories du produit 2 et 6.

Dans ma précédente question, quelqu'un m'a suggéré d'utiliser l'extraction de caractéristiques. Il fonctionne très bien quand nous avons un petit ensemble de données de descriptions prédéfinies (tous les disques durs), mais qu'en est-il l'autre type de description? Je ne veux pas commencer à écrire des extracteurs de caractéristiques à base de regex pour toutes les descriptions ma demande pourrait faire face, il n'échelle. Y at-il algorithme d'apprentissage machine qui pourrait me aider à y parvenir? La gamme de la description que je peux obtenir est très large, sur la ligne 1, il pourrait être un réfrigérateur, puis sur la ligne suivante, un disque dur. Dois-je essayer de prendre le chemin du réseau de neurones? Quel devrait être mes entrées?

Merci pour l'aide!

La solution

Je regardais certains méthodes de classification bayésienne. Il impliquerait la formation du classificateur à reconnaître certains mots comme indiquant la probabilité qu'un produit appartient à l'une de vos classes. Par exemple, après avoir été formé, il pourrait reconnaître que si une description du produit a « Seagate » en elle, il y a une chance de 99% que c'est un disque dur, alors que si elle a « Mazda » il y a une chance de 97% c'est une voiture. Un mot comme « nouveau » finirait probablement pas contribuer beaucoup à toute classification, ce qui est la façon dont vous voulez que cela fonctionne.

L'inconvénient de ce serait qu'elle exige généralement assez grands corpus de données de formation avant de commencer à bien fonctionner, mais vous pouvez le configurer de sorte qu'il continue de modifier ses pourcentages, tout en étant dans la production (si vous remarquez que classé quelque chose à tort), et il finira par devenir très efficace.

techniques bayésiens sont utilisées récemment assez fortement pour applications de filtrage de spam , de sorte qu'il pourrait être bon à faire de la lecture sur les moyens qu'il a été utilisé là.

Autres conseils

Vous devriez regarder à la fois cluster et classement . Vos catégories semblent ouvertes et suggèrent ainsi que le regroupement peut mieux adapter le problème. Quant à la représentation d'entrée, vous pouvez tenter votre chance avec l'extraction de mots et de caractère n-grammes . Votre mesure de similarité peut être le nombre de n-grammes communs, ou plus sophistiqué . Vous devrez peut-être d'étiqueter les grappes résultant manuellement.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow