Come indicizzare e file .doc di ricerca

https://stackoverflow.com/questions/1148760

18-09-2019
|

Domanda

Ho una domanda che ha bisogno di avere file .doc pubblicati su di esso. Tali documenti dovrebbero poi essere indice e l'intera collezione di documenti dovrebbero essere consultate. Questo verrà eseguito su un server Windows, senza installato Word, utilizzando IIS e SqlServer, ma io piuttosto non essere legato a indicizzazione testo completo di SqlServer.

Stavo pensando di utilizzare Lucene.Net per la parte indicizzazione e chiedevo cosa il modo migliore per ottenere il testo di file .doc sarebbe. Probabilmente potrei estrarre il testo con la lettura in tutto il flusso e quindi utilizzando una regex per tirare fuori tutti i caratteri regolari, ma che sembra pesante e soggetto a errori.

ho visto un articolo sull'uso iFilters che sembra promettente, ma ho pensato di mettere questo là fuori dato che non è una cosa che conosco bene.

P.S. Se è importante, questi file .doc avranno campi di stampa unione in loro e non c'è altra corrente alternata per il formato .doc.

Soluzione

Per quanto riguarda una soluzione che non richiedesse un programma esterno, sembra che la soluzione iFilter è la strada da percorrere (anche se si potrebbe contare che, come un programma esterno).

Ecco un semplice articolo CodePlex e il codice su come si può fare: http: / /www.codeproject.com/KB/cs/IFilter.aspx

Altri suggerimenti

Nelle nostre applicazioni basate su PHP abbiamo sempre usato programmi esterni simili a questo: Doc2Txt . Poi abbiamo preso il testo e salvati nel database. Se si esegue una ricerca su Google per "Doc2Txt" si trovano molti programmi diversi che fanno esattamente la stessa cosa. Basta prendere quello che fa per voi.

Forse ti piacerebbe alla cassa Solr .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow