Frage

Ich fragte eine Frage ähnlich wie diese ein paar Wochen her, aber ich habe nicht die Frage richtig stellen. Ich bin also wieder fragen hier die Frage mit mehr Details, und ich möchte eine KI-orientierte Antwort bekommen.

Ich habe eine Liste darstellt Erzeugnisse, die mehr oder weniger gleich sind. Zum Beispiel in der unten stehenden Liste, sie sind alle Festplatten von Seagate.

  1. Seagate Hard Drive 500Go
  2. Seagate Hard Drive 120Go für Laptop
  3. Seagate Barracuda 7200.12 ST3500418AS 500 GB 7200 RPM SATA 3,0 Gb / s Festplatte
  4. Neue und shinny 500Go Festplatte von Seagate
  5. Seagate Barracuda 7200.12
  6. Seagate Freeagent Desk 500GB externe Festplatte Silber 7.200 USB2.0 Einzelhandel
  7. GE Spacemaker Wäscherei
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

Für einen Menschen, die Festplatten 3 und 5 sind die gleichen. Wir könnten ein wenig weiter gehen und nehmen wir an, dass die Produkte 1, 3, 4 und 5 gleich sind und in anderen Kategorien, um das Produkt 2 und 6

In meiner vorherigen Frage, schlug jemand vor mir Merkmalsextraktion zu verwenden. Es funktioniert sehr gut, wenn wir eine kleine Datenmenge von vordefinierten Beschreibungen haben (alle Festplatten), aber was ist mit all der anderen Art der Beschreibung? Ich möchte, dass meine Anwendung nicht starten regex basiert Merkmalsextraktoren für alle Beschreibungen könnte Gesicht zu schreiben, ist es nicht Maßstab. Gibt es eine Maschine Lernalgorithmus, den mir dies zu erreichen helfen könnte? Der Bereich der Beschreibung, die ich sehr weit kommen kann, ist auf der Linie 1, es ist ein Kühlschrank sein könnte, und dann in der nächsten Zeile, eine Festplatte. Soll ich versuchen, das Neural Network Weg zu nehmen? Was sollte meine Eingaben sein?

Vielen Dank für die Hilfe!

Andere Tipps

Sie sollten sehen sowohl Clustering und Klassifizierung . Ihre Kategorien scheinen offen und schlagen daher vor, dass Clustering das Problem besser passen. Wie für Eingabedarstellung, können Sie Ihr Glück versuchen, mit extra Wort- und Zeichen n-Gramm . Ihre Ähnlichkeit Maßnahme kann die Anzahl der gemeinsamen n-Gramm oder etwas anspruchsvollere . Sie müssen möglicherweise die resultierenden Cluster manuell zu kennzeichnen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top