문제

나는 사용한다 Lucene.net 웹 사이트에서 컨텐츠 및 문서 등을 색인화합니다. 색인은 매우 간단 하고이 형식을 가지고 있습니다.

LuceneId - unique id for Lucene (TypeId + ItemId)
TypeId   - the type of text (eg. page content, product, public doc etc..)
ItemId   - the web page id, document id etc..
Text     - the text indexed
Title    - web page title, document name etc.. to display with the search results

다국적 콘텐츠를 제공하기 위해이 옵션을 조정할 수있는 옵션이 있습니다.

  1. 각 언어에 대해 별도의 색인을 만듭니다. 예 : 루센-엔브, 루센 -FRFR 등 ..
  2. 하나의 색인을 유지하고 추가 '언어'필드를 추가하여 결과를 필터링하십시오.

최선의 선택은 무엇입니까? 아니면 다른 사람이 있습니까? 나는 전에 여러 인덱스를 사용하지 않았으므로 두 번째 인덱스를 기대하고 있습니다.

도움이 되었습니까?

해결책

2]를 수행하지만 한 가지 문제는 언어에 따라 다른 분석기를 사용할 수 없다는 것입니다. 나는 내가 원하는 언어의 스톱워드를 결합했지만 분석기가 줄기 등을 제공하는 고급 재료의 기능을 잃어 버렸습니다.

다른 팁

옵션 1과 2를 제거 할 수 있습니다.
하나의 인덱스를 사용할 수 있고 아랍어 단어가 포함 된 필드를 사용할 수 있습니다.텍스트"아랍어 또는 영어 목차 ==>를 포함 할 수 있습니다

  • "2 개의 필드 생성"텍스트": 1 필드,"텍스트"표준 분석기와 다른 분석기로 색인/검색."텍스트 _ar", 아라비카 닐리저와 함께. 달성하기 위해 사용할 수 있습니다.PrefieldanalyzerWrapper
라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top