Frage

Gibt es eine bekannte mathematische Formel, die ich die Größe eines neuen Lucene Index abzuschätzen verwenden kann? Ich weiß, wie viele Felder, die ich indiziert haben wollen, und die Größe der einzelnen Felder. Und ich weiß, wie viele Elemente indiziert werden. Also, wenn diese von Lucene verarbeitet werden, wie funktioniert es in Bytes übersetzen?

War es hilfreich?

Lösung

Hier ist die lucene Indexformat Dokumentation . Die Hauptdatei ist die Verbindung Index (.cfs Datei). Wenn Sie Zeitstatistiken haben, können Sie wahrscheinlich eine Schätzung für die .cfs Dateigröße erhalten, Beachten Sie, dass diese stark basierend auf dem Analyzer variiert die Sie verwenden, und auf den Feldtypen Sie definieren.

Andere Tipps

Der Index speichert jedes „Token“ oder Textfeld usw., nur einmal ... so dass die Größe von der Art des Materials abhängig ist indiziert. Hinzu kommt, dass, was auch immer und gespeichert wird. Ein guter Ansatz könnte sein, eine Probe und Index, es zu nehmen, und zu verwenden, die für die vollständige Quellensammlung zur Extrapolation aus. Jedoch verringert sich im Laufe der Zeit das Verhältnis von Indexgröße zu Quellgröße als auch, wie die Worte dort bereits im Index enthalten sind, so dass Sie könnte die Probe ein anständiger Prozentsatz der ursprünglichen machen wollen.

Ich denke, es muss auch mit der Frequenz jeder Begriff tun (das heißt ein Index von 10.000 Exemplaren der sames Begriffe sollten viel kleiner als ein Index von 10.000 ganz einzigartige Bedingungen sein).

Auch gibt es wahrscheinlich eine geringe Abhängigkeit, ob Sie Begriff Vektoren verwenden oder nicht, und schon gar, ob Sie Felder sind oder nicht gespeichert werden. Können Sie weitere Informationen zur Verfügung stellen? Können Sie den Begriff Frequenz Ihrer Quelldaten analysieren?

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top