루센의 두 문서 사이에서 코사인 유사성을 얻으십시오
-
12-09-2019 - |
문제
나는 루센에서 색인을 만들었습니다. 인덱스의 두 문서 사이에 점수 (코사인 유사성 또는 다른 거리?)를 얻기 위해 쿼리를 지정하지 않고 원합니다.
예를 들어 이전에 열린 INDEXREADER IR에서 IDS 2와 4가있는 문서에서 얻을 수 있습니다. DOCING D1 = IR.DOCUMENT (2); 문서 d2 = ir.document (4);
이 두 문서들 사이에서 코사인 유사성을 어떻게 얻을 수 있습니까?
고맙습니다
해결책
인덱싱시기 주파수 벡터를 저장하는 옵션이 있습니다.
런타임 중에 indexReader.gettermFreqVector ()를 사용하여 두 문서에 대한 용어 주파수 벡터를 찾아보고 indexReader.docfreq ()를 사용하여 각 항의 문서 주파수 데이터를 찾으십시오. 그러면 두 문서 간의 코사인 유사성을 계산하는 데 필요한 모든 구성 요소가 제공됩니다.
더 쉬운 방법은 Doc A를 쿼리로 제출하고 (쿼리에 모든 단어를 쿼리 또는 용어에 추가하고, 각각의 용어 빈도를 높이고) 결과 세트에서 Doc B를 찾는 것입니다.
다른 팁
줄리아가 지적한대로 Sujit Pal의 예 매우 유용하지만 Lucene 4 API에는 상당한 변화가 있습니다. 다음은 Lucene 4 용으로 다시 작성된 버전입니다.
import java.io.IOException;
import java.util.*;
import org.apache.commons.math3.linear.*;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.*;
import org.apache.lucene.store.*;
import org.apache.lucene.util.*;
public class CosineDocumentSimilarity {
public static final String CONTENT = "Content";
private final Set<String> terms = new HashSet<>();
private final RealVector v1;
private final RealVector v2;
CosineDocumentSimilarity(String s1, String s2) throws IOException {
Directory directory = createIndex(s1, s2);
IndexReader reader = DirectoryReader.open(directory);
Map<String, Integer> f1 = getTermFrequencies(reader, 0);
Map<String, Integer> f2 = getTermFrequencies(reader, 1);
reader.close();
v1 = toRealVector(f1);
v2 = toRealVector(f2);
}
Directory createIndex(String s1, String s2) throws IOException {
Directory directory = new RAMDirectory();
Analyzer analyzer = new SimpleAnalyzer(Version.LUCENE_CURRENT);
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_CURRENT,
analyzer);
IndexWriter writer = new IndexWriter(directory, iwc);
addDocument(writer, s1);
addDocument(writer, s2);
writer.close();
return directory;
}
/* Indexed, tokenized, stored. */
public static final FieldType TYPE_STORED = new FieldType();
static {
TYPE_STORED.setIndexed(true);
TYPE_STORED.setTokenized(true);
TYPE_STORED.setStored(true);
TYPE_STORED.setStoreTermVectors(true);
TYPE_STORED.setStoreTermVectorPositions(true);
TYPE_STORED.freeze();
}
void addDocument(IndexWriter writer, String content) throws IOException {
Document doc = new Document();
Field field = new Field(CONTENT, content, TYPE_STORED);
doc.add(field);
writer.addDocument(doc);
}
double getCosineSimilarity() {
return (v1.dotProduct(v2)) / (v1.getNorm() * v2.getNorm());
}
public static double getCosineSimilarity(String s1, String s2)
throws IOException {
return new CosineDocumentSimilarity(s1, s2).getCosineSimilarity();
}
Map<String, Integer> getTermFrequencies(IndexReader reader, int docId)
throws IOException {
Terms vector = reader.getTermVector(docId, CONTENT);
TermsEnum termsEnum = null;
termsEnum = vector.iterator(termsEnum);
Map<String, Integer> frequencies = new HashMap<>();
BytesRef text = null;
while ((text = termsEnum.next()) != null) {
String term = text.utf8ToString();
int freq = (int) termsEnum.totalTermFreq();
frequencies.put(term, freq);
terms.add(term);
}
return frequencies;
}
RealVector toRealVector(Map<String, Integer> map) {
RealVector vector = new ArrayRealVector(terms.size());
int i = 0;
for (String term : terms) {
int value = map.containsKey(term) ? map.get(term) : 0;
vector.setEntry(i++, value);
}
return (RealVector) vector.mapDivide(vector.getL1Norm());
}
}
나는 질문에 대한 답변이 있다는 것을 알고 있지만, 앞으로 여기에 올 수있는 사람들에게는 해결책의 좋은 예가 여기에서 찾을 수 있습니다.
http://sujitpal.blogspot.ch/2011/10/computing-document-similarity-using.html
Mark Butler의 아주 좋은 솔루션이지만 TF/IDF 가중치의 계산이 잘못되었습니다!
용어-주파수 (TF) :이 용어 가이 문서에 얼마나 많이 나타 났는지 (orderenum.totaltermfreq ()가있는 코드와 같이 모든 문서가 아님).
문서 주파수 (DF) :이 용어가 표시된 총 문서 수입니다.
역 문서 주파수 : idf = log (n/df), 여기서 n은 총 문서 수입니다.
주어진 용어와 주어진 문서에 대해 tf/idf weight = tf * idf.
나는 루센을 사용하여 효율적인 계산을 기대하고있었습니다! 올바른 IF/IDF 가중치에 대한 효율적인 계산을 찾을 수 없습니다.
편집하다:이 코드는 가중치를 TF/IDF 가중치로 계산하고 순수한 용어 주파수가 아닌 가중치를 계산했습니다. 그것은 잘 작동하지만 더 효율적인 방법이 있는지 궁금합니다.
import java.io.IOException;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import org.apache.commons.math3.linear.ArrayRealVector;
import org.apache.commons.math3.linear.RealVector;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.core.SimpleAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.FieldType;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.DocsEnum;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.Terms;
import org.apache.lucene.index.TermsEnum;
import org.apache.lucene.search.DocIdSetIterator;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.BytesRef;
import org.apache.lucene.util.Version;
public class CosineSimeTest {
public static void main(String[] args) {
try {
CosineSimeTest cosSim = new
CosineSimeTest( "This is good",
"This is good" );
System.out.println( cosSim.getCosineSimilarity() );
} catch (IOException e) {
e.printStackTrace();
}
}
public static final String CONTENT = "Content";
public static final int N = 2;//Total number of documents
private final Set<String> terms = new HashSet<>();
private final RealVector v1;
private final RealVector v2;
CosineSimeTest(String s1, String s2) throws IOException {
Directory directory = createIndex(s1, s2);
IndexReader reader = DirectoryReader.open(directory);
Map<String, Double> f1 = getWieghts(reader, 0);
Map<String, Double> f2 = getWieghts(reader, 1);
reader.close();
v1 = toRealVector(f1);
System.out.println( "V1: " +v1 );
v2 = toRealVector(f2);
System.out.println( "V2: " +v2 );
}
Directory createIndex(String s1, String s2) throws IOException {
Directory directory = new RAMDirectory();
Analyzer analyzer = new SimpleAnalyzer(Version.LUCENE_CURRENT);
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_CURRENT,
analyzer);
IndexWriter writer = new IndexWriter(directory, iwc);
addDocument(writer, s1);
addDocument(writer, s2);
writer.close();
return directory;
}
/* Indexed, tokenized, stored. */
public static final FieldType TYPE_STORED = new FieldType();
static {
TYPE_STORED.setIndexed(true);
TYPE_STORED.setTokenized(true);
TYPE_STORED.setStored(true);
TYPE_STORED.setStoreTermVectors(true);
TYPE_STORED.setStoreTermVectorPositions(true);
TYPE_STORED.freeze();
}
void addDocument(IndexWriter writer, String content) throws IOException {
Document doc = new Document();
Field field = new Field(CONTENT, content, TYPE_STORED);
doc.add(field);
writer.addDocument(doc);
}
double getCosineSimilarity() {
double dotProduct = v1.dotProduct(v2);
System.out.println( "Dot: " + dotProduct);
System.out.println( "V1_norm: " + v1.getNorm() + ", V2_norm: " + v2.getNorm() );
double normalization = (v1.getNorm() * v2.getNorm());
System.out.println( "Norm: " + normalization);
return dotProduct / normalization;
}
Map<String, Double> getWieghts(IndexReader reader, int docId)
throws IOException {
Terms vector = reader.getTermVector(docId, CONTENT);
Map<String, Integer> docFrequencies = new HashMap<>();
Map<String, Integer> termFrequencies = new HashMap<>();
Map<String, Double> tf_Idf_Weights = new HashMap<>();
TermsEnum termsEnum = null;
DocsEnum docsEnum = null;
termsEnum = vector.iterator(termsEnum);
BytesRef text = null;
while ((text = termsEnum.next()) != null) {
String term = text.utf8ToString();
int docFreq = termsEnum.docFreq();
docFrequencies.put(term, reader.docFreq( new Term( CONTENT, term ) ));
docsEnum = termsEnum.docs(null, null);
while (docsEnum.nextDoc() != DocIdSetIterator.NO_MORE_DOCS) {
termFrequencies.put(term, docsEnum.freq());
}
terms.add(term);
}
for ( String term : docFrequencies.keySet() ) {
int tf = termFrequencies.get(term);
int df = docFrequencies.get(term);
double idf = ( 1 + Math.log(N) - Math.log(df) );
double w = tf * idf;
tf_Idf_Weights.put(term, w);
//System.out.printf("Term: %s - tf: %d, df: %d, idf: %f, w: %f\n", term, tf, df, idf, w);
}
System.out.println( "Printing docFrequencies:" );
printMap(docFrequencies);
System.out.println( "Printing termFrequencies:" );
printMap(termFrequencies);
System.out.println( "Printing if/idf weights:" );
printMapDouble(tf_Idf_Weights);
return tf_Idf_Weights;
}
RealVector toRealVector(Map<String, Double> map) {
RealVector vector = new ArrayRealVector(terms.size());
int i = 0;
double value = 0;
for (String term : terms) {
if ( map.containsKey(term) ) {
value = map.get(term);
}
else {
value = 0;
}
vector.setEntry(i++, value);
}
return vector;
}
public static void printMap(Map<String, Integer> map) {
for ( String key : map.keySet() ) {
System.out.println( "Term: " + key + ", value: " + map.get(key) );
}
}
public static void printMapDouble(Map<String, Double> map) {
for ( String key : map.keySet() ) {
System.out.println( "Term: " + key + ", value: " + map.get(key) );
}
}
}
루센 버전 4.x에서 코사인 유사성을 계산하는 것은 3.x의 것과 다릅니다. 다음 게시물은 루센 4.10.2에서 코사인 유사성을 계산하기위한 모든 필요한 코드에 대한 자세한 설명이 있습니다. Computergodzilla : 루센에서 계산 된 코사인 유사성!
더 나은 솔루션을 찾을 수 있습니다 @ http://darakpanand.wordpress.com/2013/06/01/document-comparison-by-cosine-methodology-using-lucene/#more-53 . 다음 단계는 다음과 같습니다
- Lucene의 도움으로 컨텐츠에서 용어 벡터를 구축하는 Java 코드 (확인 :http://lucene.apache.org/core/).
- Commons-Math.jar 라이브러리 코사인 계산을 사용하여 두 문서 사이에 수행됩니다.
문서를 Lucene에 저장할 필요가없고 두 문서 간의 유사성을 계산하려면 다음은 더 빠른 코드입니다 (내 블로그에서 Scala. http://chepurnoy.org/blog/2014/03/faster-cosine-similarity-between-two-dicuments-with-scala-and-lucene/ )
def extractTerms(content: String): Map[String, Int] = {
val analyzer = new StopAnalyzer(Version.LUCENE_46)
val ts = new EnglishMinimalStemFilter(analyzer.tokenStream("c", content))
val charTermAttribute = ts.addAttribute(classOf[CharTermAttribute])
val m = scala.collection.mutable.Map[String, Int]()
ts.reset()
while (ts.incrementToken()) {
val term = charTermAttribute.toString
val newCount = m.get(term).map(_ + 1).getOrElse(1)
m += term -> newCount
}
m.toMap
}
def similarity(t1: Map[String, Int], t2: Map[String, Int]): Double = {
//word, t1 freq, t2 freq
val m = scala.collection.mutable.HashMap[String, (Int, Int)]()
val sum1 = t1.foldLeft(0d) {case (sum, (word, freq)) =>
m += word ->(freq, 0)
sum + freq
}
val sum2 = t2.foldLeft(0d) {case (sum, (word, freq)) =>
m.get(word) match {
case Some((freq1, _)) => m += word ->(freq1, freq)
case None => m += word ->(0, freq)
}
sum + freq
}
val (p1, p2, p3) = m.foldLeft((0d, 0d, 0d)) {case ((s1, s2, s3), e) =>
val fs = e._2
val f1 = fs._1 / sum1
val f2 = fs._2 / sum2
(s1 + f1 * f2, s2 + f1 * f1, s3 + f2 * f2)
}
val cos = p1 / (Math.sqrt(p2) * Math.sqrt(p3))
cos
}
따라서 Text1과 Text2 간의 유사성을 계산하려면 similarity(extractTerms(text1), extractTerms(text2))