我有需要具有上传到它.doc文件的应用程序。那么这些文件应该是索引和文件的整个集合应搜索。这将在Windows服务器上运行,无需安装Word,使用IIS和SQLServer,但我宁愿不被捆绑到的SqlServer的全文索引。

我在考虑使用Lucene.Net的索引部的,想知道什么是最好的方式来获得文本了.doc文件的会。我可以通过读取整个流中,然后用正则表达式来拉出任何常规字符可能提取文本,但似乎并大幅容易出错。

我看到使用这听起来有希望的IFilter的文章,但我想我把这个在那里,因为它不是我熟悉的。

P.S。如果它的事项,这些.doc文件会在他们的邮件合并域而且也为.doc格式没有其他替代电流

有帮助吗?

解决方案

据,并不需要外部程序的解决方案,它看起来像IFilter的解决方案是去(即使你可能数,作为一个外部程序)的方式。

下面是一个简单的CodePlex文章和代码就可以怎么做: HTTP:/ /www.codeproject.com/KB/cs/IFilter.aspx

其他提示

在我们的基于PHP的应用,我们总是用类似这样的外部程序: doc2txt 。然后我们进行了文本,并将其保存到数据库中。如果你在谷歌搜索“doc2txt”,你会发现正是做同样的事情很多不同的程序。只要看看最适合你的人。

也许你想签 Solr的

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top