Lucene 인덱스의 크기를 어떻게 추정합니까?

https://stackoverflow.com/questions/65406

lucene

09-06-2019
|

문제

새 Lucene 인덱스의 크기를 추정하는 데 사용할 수 있는 알려진 수학 공식이 있습니까?인덱싱하려는 필드 수와 각 필드의 크기를 알고 있습니다.그리고 색인이 생성될 항목 수를 알고 있습니다.그렇다면 Lucene에서 처리한 후에는 어떻게 바이트로 변환됩니까?

해결책

여기는 Lucene 인덱스 형식 문서.주요 파일은 복합 색인(.cfs 파일)입니다.용어 통계가 있는 경우 .cfs 파일 크기에 대한 추정치를 얻을 수 있습니다. 이는 사용하는 분석기와 정의하는 필드 유형에 따라 크게 달라집니다.

다른 팁

인덱스는 각 "토큰" 또는 텍스트 필드 등을 한 번만 저장하므로 크기는 인덱스되는 자료의 특성에 따라 달라집니다.거기에 저장되는 것이 무엇이든 추가하세요.한 가지 좋은 접근 방식은 샘플을 가져와서 색인을 생성하고 이를 사용하여 전체 소스 컬렉션에 대해 추정하는 것입니다.그러나 단어가 이미 색인에 있기 때문에 소스 크기에 대한 색인 크기의 비율도 시간이 지남에 따라 감소하므로 샘플을 원본의 적절한 비율로 만드는 것이 좋습니다.

나는 이것이 각 용어의 빈도와도 관련이 있다고 생각합니다(예:동일한 용어의 복사본 10,000개의 인덱스는 완전히 고유한 용어 10,000개의 인덱스보다 훨씬 작아야 합니다.

또한 용어 벡터를 사용하는지 여부와 필드를 저장하는지 여부에 따라 약간의 종속성이 있을 수 있습니다.더 자세한 내용을 제공해 주실 수 있나요?소스 데이터의 용어 빈도를 분석할 수 있습니까?

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow