LSI (Latent Semantic Indexing)는 통계적 분류 알고리즘입니까?

https://stackoverflow.com/questions/1634073

06-07-2019
|

문제

LSI (Latent Semantic Indexing)는 통계적 분류 알고리즘입니까? 그 이유는 무엇?

기본적으로 나는 이유를 알아 내려고 노력하고 있습니다 통계적 분류를위한 위키 백과 페이지 LSI를 언급하지 않습니다. 나는 단지 이것에 들어가고 있으며 무언가를 분류하기위한 다른 모든 접근법이 서로 어떻게 관련되어 있는지 보려고 노력하고 있습니다.

해결책

아니요, 그들은 똑같지 않습니다. 통계적 분류는 항목 X가 그룹 A 또는 그룹 B의 항목과 비슷한 지에 대한 깨끗한 결정을 내리기 위해 항목을 최대한 깨끗하게 범주로 분리하기위한 것입니다.

LSI는 항목이 유사하거나 다른 정도를 보여주고 주로 지정된 항목과 유사한 정도를 보여주는 항목을 찾기위한 것입니다. 이건 그렇습니다 비슷한, 그것은 똑같지 않습니다.

다른 팁

LSI/LSA는 결국 기술입니다 치수 감소, 그리고 일반적으로 가장 가까운 이웃 알고리즘과 결합하여 분류 시스템으로 만들 수 있습니다. 따라서 그 자체로는 SVD를 사용하여 더 낮은 차원의 데이터를 "색인화"하는 유일한 방법입니다.

읽었어요 Wikipedia의 LSI ? 매트릭스 인수 화를 사용한다고 말합니다.SVD), 때때로 분류에 사용됩니다.

기계 학습의 주요 차이점은 "감독"과 "감독되지 않은"모델링 사이입니다.

일반적으로 "통계적 분류"라는 단어는 감독 된 모델을 참조하지만 항상 그런 것은 아닙니다.

감독 된 방법을 사용하여 교육 세트에는 예측할 모델을 작성하는 "지상 진실"레이블이 포함되어 있습니다. 모델을 평가할 때 목표는 평가 시점에없는 실제 레이블의 최상의 추측 (또는 확률 분포)을 예측하는 것입니다. 종종 성능 메트릭이 있으며 올바른 대 잘못된 답변이 무엇인지 분명합니다.

감독되지 않은 분류 방법은 복잡한 방식으로 다른 것으로 보일 수있는 많은 수의 데이터 포인트를 더 적은 수의 "유사한"범주로 클러스터하려고 시도합니다. 각 범주의 데이터는 일종의 '흥미로운'또는 '깊은'방식으로 유사해야합니다. "지상 진실"이 없기 때문에 '옳고 그름'을 평가할 수는 없지만 '더' 'vs'가 덜 '흥미 롭거나 유용합니다.

마찬가지로 평가 시간에도 새로운 예제를 클러스터 중 하나 (Crisp Classification)에 배치하거나 클러스터의 "아키 타입"과 비슷하거나 다른 모습을 정량화 할 수 있습니다.

따라서 어떤면에서 감독 및 감독되지 않은 모델은 "예측"인 클래스/클러스터 레이블의 예측을 생성 할 수 있지만 본질적으로 다릅니다.

감독되지 않은 모델의 목표는 종종 후속 감독 모델을 위해보다 지능적이고 강력한 소형 입력을 제공하는 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow