Pregunta

Tengo una aplicación que necesita tener los archivos .doc subidos a ella. Estos documentos deben entonces ser índice y toda la colección de documentos deben ser consultada. Esto ejecutará en un servidor Windows, sin instalado Word, usando IIS y SqlServer, pero prefiere no ser atado a la indexación de texto completo de SqlServer.

Yo estaba pensando en usar Lucene.Net para la parte de indexación y se preguntaba cuál es la mejor manera de conseguir el texto de los archivos .doc sería. Probablemente podría extraer el texto mediante la lectura de toda la corriente y luego usando una expresión regular para extraer los caracteres regulares, pero que parece fuerte y propenso a errores.

vi un artículo sobre el uso de iFilters que suena prometedor, pero que pensé en poner esto por ahí ya que no es algo que estoy familiarizado.

P.S. Si es importante, estos archivos .doc tendrán campos de combinación de correspondencia en ellos y no hay otra alternativa actual para el formato .doc.

¿Fue útil?

Solución

En cuanto a una solución que no requiere un programa externo, parece que la solución iFilter es el camino a seguir (aunque es posible que registra un nuevo programa externo).

Aquí está un artículo simple CodePlex y el código en la forma en que se puede hacer: http: / /www.codeproject.com/KB/cs/IFilter.aspx

Otros consejos

En nuestras aplicaciones basadas en PHP que siempre utiliza programas externos similares a éste: doc2txt . Luego tomamos el texto y lo ha guardado en la base de datos. Si usted busca en Google de "doc2txt" se pueden encontrar muchos programas diferentes que hacen exactamente lo mismo. Acaba de tomar el que más le convenga.

Tal vez le gustaría a la comprobación Solr .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top