문제

나는 물었다 비슷한 질문 몇 주 전에 이것에 대해서는 질문을 올바르게 묻지 않았습니다. 그래서 나는 자세한 내용으로 질문을 다시 시작하고 있으며 더 AI 지향적 인 답을 얻고 싶습니다.

나는 다소 동일한 제품을 나타내는 목록이 있습니다. 예를 들어, 아래 목록에서 그들은 모두 Seagate 하드 드라이브입니다.

  1. 시게이트 하드 드라이브 500GO
  2. 랩톱 용 씨 게이트 하드 드라이브 120Go
  3. Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0GB/S 하드 드라이브
  4. Seagate의 New and Shinny 500Go 하드 드라이브
  5. Seagate Barracuda 7200.12
  6. Seagate Freeagent Desk 500GB 외부 하드 드라이브 실버 7200rpm USB2.0 소매점
  7. GE Spacemaker Laudry
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

인간의 경우 하드 드라이브 3과 5는 동일합니다. 우리는 조금 더 나아가서 제품 1, 3, 4 및 5가 동일하고 다른 범주에 제품 2와 6을 넣을 수 있다고 가정 할 수 있습니다.

이전 질문에서 누군가가 내 기능 추출을 사용하도록 제안했습니다. 사전 정의 된 설명 (모든 하드 드라이브)의 작은 데이터 세트가있을 때 매우 잘 작동하지만 다른 모든 종류의 설명은 어떻습니까? 응용 프로그램이 직면 할 수있는 모든 설명에 대해 Regex 기반 기능 추출기를 쓰고 싶지 않습니다. 이를 달성하는 데 도움이되는 기계 학습 알고리즘이 있습니까? 내가 얻을 수있는 설명의 범위는 매우 넓고, 1 행에서는 냉장고 일 수 있으며 다음 줄에는 하드 드라이브가 될 수 있습니다. 신경망 경로를 가져 가려고해야합니까? 내 입력은 무엇입니까?

도움을 주셔서 감사합니다!

도움이 되었습니까?

해결책

나는 일부를 볼 것이다 베이지안 분류 행동 양식. 제품이 클래스 중 하나에 속할 확률을 나타내는 특정 단어를 인식하도록 분류기를 훈련시키는 것이 포함됩니다. 예를 들어, 훈련을받은 후에는 제품 설명에 "Seagate"가 있다면 하드 드라이브 일 가능성이 99% 인 반면 "Mazda"가 있다면 97%의 확률이 있습니다. "새로운"와 같은 단어는 아마도 어떤 분류에도 많은 기여를하지 않을 것입니다. 이것은 당신이 일하기를 원하는 방식입니다.

이에 대한 단점은 일반적으로 잘 작동하기 전에 상당히 대규모 교육 데이터가 필요하지만 생산 중에 비율을 계속 수정하도록 설정할 수 있습니다 (무언가를 잘못 분류 한 경우 ), 그리고 결국 그것은 매우 효과적이 될 것입니다.

베이지안 기술은 최근에 상당히 많이 사용됩니다 스팸 필터링 애플리케이션, 따라서 거기에서 사용 된 방식에 대해 읽는 것이 좋을 수도 있습니다.

다른 팁

둘 다 봐야합니다 클러스터링 그리고 분류. 카테고리는 개방형으로 보이므로 클러스터링이 문제에 더 잘 맞을 수 있음을 시사합니다. 입력 표현은 단어와 문자를 추출하여 행운을 시도 할 수 있습니다. n- 그램. 유사성 측정 값은 일반적인 N- 그램의 카운트 일 수 있습니다. 더 정교한 것. 결과 클러스터에 수동으로 레이블을 지정해야 할 수도 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top