Question

J'ai posé une question similaire à celle-ci quelques il y a quelques semaines, mais je ne l'ai pas posé la question correctement. Je suis donc re-pose ici la question avec plus de détails et je voudrais obtenir une réponse plus orientée vers l'IA.

J'ai une liste représentant des produits qui sont plus ou moins les mêmes. Par exemple, dans la liste ci-dessous, ils sont tous les disques durs Seagate.

  1. Seagate Disque dur 500Go
  2. Seagate Disque dur 120Go pour ordinateur portable
  3. Seagate Barracuda 7200.12 ST3500418AS 500Go 7200 RPM Disque dur SATA 3,0 Gb / s
  4. Nouveau disque dur de 500Go de Seagate shinny
  5. Seagate Barracuda 7200.12
  6. Seagate FreeAgent bureau 500 Go Disque dur externe Argent 7200. USB2.0 Retail
  7. GE Spacemaker Laudry
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

Pour un être humain, les disques durs 3 et 5 sont les mêmes. On pourrait aller un peu plus loin et supposons que les produits 1, 3, 4 et 5 sont les mêmes et mettre dans d'autres catégories du produit 2 et 6.

Dans ma précédente question, quelqu'un m'a suggéré d'utiliser l'extraction de caractéristiques. Il fonctionne très bien quand nous avons un petit ensemble de données de descriptions prédéfinies (tous les disques durs), mais qu'en est-il l'autre type de description? Je ne veux pas commencer à écrire des extracteurs de caractéristiques à base de regex pour toutes les descriptions ma demande pourrait faire face, il n'échelle. Y at-il algorithme d'apprentissage machine qui pourrait me aider à y parvenir? La gamme de la description que je peux obtenir est très large, sur la ligne 1, il pourrait être un réfrigérateur, puis sur la ligne suivante, un disque dur. Dois-je essayer de prendre le chemin du réseau de neurones? Quel devrait être mes entrées?

Merci pour l'aide!

Autres conseils

Vous devriez regarder à la fois cluster et classement . Vos catégories semblent ouvertes et suggèrent ainsi que le regroupement peut mieux adapter le problème. Quant à la représentation d'entrée, vous pouvez tenter votre chance avec l'extraction de mots et de caractère n-grammes . Votre mesure de similarité peut être le nombre de n-grammes communs, ou plus sophistiqué . Vous devrez peut-être d'étiqueter les grappes résultant manuellement.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top