题
我有需要具有上传到它.doc文件的应用程序。那么这些文件应该是索引和文件的整个集合应搜索。这将在Windows服务器上运行,无需安装Word,使用IIS和SQLServer,但我宁愿不被捆绑到的SqlServer的全文索引。
我在考虑使用Lucene.Net的索引部的,想知道什么是最好的方式来获得文本了.doc文件的会。我可以通过读取整个流中,然后用正则表达式来拉出任何常规字符可能提取文本,但似乎并大幅容易出错。
我看到使用这听起来有希望的IFilter的文章,但我想我把这个在那里,因为它不是我熟悉的。
P.S。如果它的事项,这些.doc文件会在他们的邮件合并域而且也为.doc格式没有其他替代电流
解决方案
据,并不需要外部程序的解决方案,它看起来像IFilter的解决方案是去(即使你可能数,作为一个外部程序)的方式。
下面是一个简单的CodePlex文章和代码就可以怎么做: HTTP:/ /www.codeproject.com/KB/cs/IFilter.aspx
不隶属于 StackOverflow