제품 목록을 분류하기위한 알고리즘? 2를 가져 가라
-
09-09-2019 - |
문제
나는 물었다 비슷한 질문 몇 주 전에 이것에 대해서는 질문을 올바르게 묻지 않았습니다. 그래서 나는 자세한 내용으로 질문을 다시 시작하고 있으며 더 AI 지향적 인 답을 얻고 싶습니다.
나는 다소 동일한 제품을 나타내는 목록이 있습니다. 예를 들어, 아래 목록에서 그들은 모두 Seagate 하드 드라이브입니다.
- 시게이트 하드 드라이브 500GO
- 랩톱 용 씨 게이트 하드 드라이브 120Go
- Seagate Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0GB/S 하드 드라이브
- Seagate의 New and Shinny 500Go 하드 드라이브
- Seagate Barracuda 7200.12
- Seagate Freeagent Desk 500GB 외부 하드 드라이브 실버 7200rpm USB2.0 소매점
- GE Spacemaker Laudry
- Mazda3 2010
- Mazda3 2009 2.3L
인간의 경우 하드 드라이브 3과 5는 동일합니다. 우리는 조금 더 나아가서 제품 1, 3, 4 및 5가 동일하고 다른 범주에 제품 2와 6을 넣을 수 있다고 가정 할 수 있습니다.
이전 질문에서 누군가가 내 기능 추출을 사용하도록 제안했습니다. 사전 정의 된 설명 (모든 하드 드라이브)의 작은 데이터 세트가있을 때 매우 잘 작동하지만 다른 모든 종류의 설명은 어떻습니까? 응용 프로그램이 직면 할 수있는 모든 설명에 대해 Regex 기반 기능 추출기를 쓰고 싶지 않습니다. 이를 달성하는 데 도움이되는 기계 학습 알고리즘이 있습니까? 내가 얻을 수있는 설명의 범위는 매우 넓고, 1 행에서는 냉장고 일 수 있으며 다음 줄에는 하드 드라이브가 될 수 있습니다. 신경망 경로를 가져 가려고해야합니까? 내 입력은 무엇입니까?
도움을 주셔서 감사합니다!
해결책
나는 일부를 볼 것이다 베이지안 분류 행동 양식. 제품이 클래스 중 하나에 속할 확률을 나타내는 특정 단어를 인식하도록 분류기를 훈련시키는 것이 포함됩니다. 예를 들어, 훈련을받은 후에는 제품 설명에 "Seagate"가 있다면 하드 드라이브 일 가능성이 99% 인 반면 "Mazda"가 있다면 97%의 확률이 있습니다. "새로운"와 같은 단어는 아마도 어떤 분류에도 많은 기여를하지 않을 것입니다. 이것은 당신이 일하기를 원하는 방식입니다.
이에 대한 단점은 일반적으로 잘 작동하기 전에 상당히 대규모 교육 데이터가 필요하지만 생산 중에 비율을 계속 수정하도록 설정할 수 있습니다 (무언가를 잘못 분류 한 경우 ), 그리고 결국 그것은 매우 효과적이 될 것입니다.
베이지안 기술은 최근에 상당히 많이 사용됩니다 스팸 필터링 애플리케이션, 따라서 거기에서 사용 된 방식에 대해 읽는 것이 좋을 수도 있습니다.