Algorithme pour classer une liste de produits? Prendre 2
-
09-09-2019 - |
Question
J'ai posé une question similaire à celle-ci quelques il y a quelques semaines, mais je ne l'ai pas posé la question correctement. Je suis donc re-pose ici la question avec plus de détails et je voudrais obtenir une réponse plus orientée vers l'IA.
J'ai une liste représentant des produits qui sont plus ou moins les mêmes. Par exemple, dans la liste ci-dessous, ils sont tous les disques durs Seagate.
- Seagate Disque dur 500Go
- Seagate Disque dur 120Go pour ordinateur portable
- Seagate Barracuda 7200.12 ST3500418AS 500Go 7200 RPM Disque dur SATA 3,0 Gb / s
- Nouveau disque dur de 500Go de Seagate shinny
- Seagate Barracuda 7200.12
- Seagate FreeAgent bureau 500 Go Disque dur externe Argent 7200. USB2.0 Retail
- GE Spacemaker Laudry
- Mazda3 2010
- Mazda3 2009 2.3L
Pour un être humain, les disques durs 3 et 5 sont les mêmes. On pourrait aller un peu plus loin et supposons que les produits 1, 3, 4 et 5 sont les mêmes et mettre dans d'autres catégories du produit 2 et 6.
Dans ma précédente question, quelqu'un m'a suggéré d'utiliser l'extraction de caractéristiques. Il fonctionne très bien quand nous avons un petit ensemble de données de descriptions prédéfinies (tous les disques durs), mais qu'en est-il l'autre type de description? Je ne veux pas commencer à écrire des extracteurs de caractéristiques à base de regex pour toutes les descriptions ma demande pourrait faire face, il n'échelle. Y at-il algorithme d'apprentissage machine qui pourrait me aider à y parvenir? La gamme de la description que je peux obtenir est très large, sur la ligne 1, il pourrait être un réfrigérateur, puis sur la ligne suivante, un disque dur. Dois-je essayer de prendre le chemin du réseau de neurones? Quel devrait être mes entrées?
Merci pour l'aide!
La solution
L'inconvénient de ce serait qu'elle exige généralement assez grands corpus de données de formation avant de commencer à bien fonctionner, mais vous pouvez le configurer de sorte qu'il continue de modifier ses pourcentages, tout en étant dans la production (si vous remarquez que classé quelque chose à tort), et il finira par devenir très efficace.
techniques bayésiens sont utilisées récemment assez fortement pour applications de filtrage de spam , de sorte qu'il pourrait être bon à faire de la lecture sur les moyens qu'il a été utilisé là.
Autres conseils
Vous devriez regarder à la fois cluster et classement . Vos catégories semblent ouvertes et suggèrent ainsi que le regroupement peut mieux adapter le problème. Quant à la représentation d'entrée, vous pouvez tenter votre chance avec l'extraction de mots et de caractère n-grammes . Votre mesure de similarité peut être le nombre de n-grammes communs, ou plus sophistiqué . Vous devrez peut-être d'étiqueter les grappes résultant manuellement.