Solr- 캐릭터 대체

https://stackoverflow.com/questions/1761674

solr
synonym

21-09-2019
|

문제

인덱스 데이터베이스가있는 Solr이 있습니다. 내 데이터베이스에서 모든 데이터는 라트비아어입니다. 문제는 마치 단어 rīga 인 것처럼 Word Riga를 검색 할 수 있어야한다는 것입니다. 물론, 나는 동의어 -Rīga = riga를 정의 할 수 있지만, 그 글자는 문자 I입니까? 나는 Solr.isolatin1accentfilterfactory에 대해 읽었지만, 내가 이해하는 한, 이것은 UTF-8 인코딩을위한 것이 아닙니다. 조언?

해결책

인덱스 및 쿼리와 함께 사용 된 PatternReplaceFilterFactory. 제대로 작동하는 것 같습니다.

다른 팁

Irolatin1accentFilterFactory는 정확히 당신이 찾고있는 것입니다 ... 라틴 -1 문자 세트에 악센트가 존재하는 한 (UTF-8의 낮은 7 비트는 라틴 -1과 동일합니다). 당신이 언급 한 ī는 ISO-8859-1에 존재하지 않으므로이 특정 경우에는 Irospin1accentFilterFactory가 작동하지 않습니다. 나는 당신이 도움이 될 라트비아 문자가있을 수 있으므로 PatternReplaceFilterFactory를 사용하는 예외 외에도 Irolatin1accentFilterFactory를 사용하는 것이 좋습니다 (Latvian에 대한 경험이 없다고 가정합니다).

참고로, 나는 실제로 Irolatin1accentFilterFactory를 사용하여 Solr 설정에 대해 시도했지만이 경우에 도움이되지 않았습니다.

유니 코드 문자 정규화를 제공하는 icutokenizerfactory를보십시오. 매우 유용하고 매우 쉽습니다.

http://lucene.apache.org/solr/api/org/apache/solr/analysy/icutokenizerfactory.html

http://site.icu-project.org/

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow