Ricerca full-text su Heroku, database e o indicizzatore di selezione?

https://stackoverflow.com/questions/9305516

25-10-2019
|

Domanda

Sto cercando di implementare ( free as in beer ) ricerca full text su una piccola applicazione su Heroku (numero minimo di utenti, set di dati limitata). Tuttavia, Ho difficoltà a trovare un migliore modello per farlo, una possibilità è quella di utilizzare il limite di 10 MB di xeround, finché dura (si può superare questo in un prossimo futuro), il secondo è quello di rotolare in qualche modo la mia ricerca a testo integrale su MongoDB o CouchDB.

I documenti di questa applicazione sono le email archiviate che vorrei rendere ricercabili da una mailing list, ci sono circa 10k tali email, testo normale, 700bytes circa per.

Io preferirei funzionalità di ricerca fuzzy, quindi la spinta per Whoosh.

Tra i miei requisiti (avrei detto in precedenza, è per essere libero !)

non ho trovato eventuali modelli per l'utilizzo fruscio con MongoDB in un pitone, applicazione pallone.

Qualcuno può fornire ulteriori informazioni su come gestire ricerca a testo integrale in un piccolo Heroku, applicazione Python?

Soluzione

Quindi io non ho provato, ma http://tenderlove.github.com/texticle/ sembra implicare che è possibile utilizzare nativo di ricerca full-text pgsql se si può rientrare entro i limiti di spazio. Il problema con sibilo è che si sta andando ad incorrere in problemi con lo spazio su disco e la sua persistenza nel Heroku regole.

L'altra cosa da fare è quello di lavorare con i componenti aggiuntivi come suggerito tramite la documentazione dev: http://devcenter.heroku.com/articles/full-text-search

Per quanto riguarda i modelli, che, fondamentalmente, di fare la ricerca full-text e tornare dati / ID di record e quindi interrogare l'archivio dati (Mongo) per l'intero set di dati in base ai risultati full-text. Si tratta di un processo manuale, ma niente che è troppo strano. Se la ricerca non ha bisogno di una documentazione completa, di solito si può ottenere via con stashing i dati importanti con le informazioni full-text, ma che sarà aumentare la dimensione della vostra indicizzazione full-text.

Altri suggerimenti

pysolr risolve il problema.

Hai pensato di usare Apache Solr? Credo che sia la soluzione migliore per un motore di ricerca a testo libero, è libero e open source.

Per utilizzare Solr in pitone vi consiglio il MySolr biblioteca. È abbastanza veloce e più facile da usare rispetto pysolr (è possibile vedere alcune statistiche qui )

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow