我试图提出一种方法来浏览大约一百万个文档,即正式文件(出于争论,是论文文件)。它们并非全部标准化,但足够接近。它们是标题,部分,段落等。可能会出现细微的差异,例如英语,我们称标题为“标题”,但用法语为“滴度”。

因此,在我看来,最好的方法是创建一个具有所有可能组合的EBNF:= title |例如。

我不太关心提出EBNF。我主要关心的是如何实现解析。我看了Antlr,Oslo,Irony和其他其他人,但没有专业知识来判断它们是否适合我的任务。

所以,我对你们中学到的问题是

  1. 您建议使用哪种DSL工具在此规模上解析文档?
  2. DSL工具是在匹配中解析但宽容的最准确的(即。
  3. 我是否没有考虑过您建议您作为DSL的替代方案的过程/算法? (从头开始重写是一个选择,但我想快速工作)。
  4. 是否有人试图将学习和智力添加到通过DSL(考虑遗传算法和神经网络)解析的算法中?
  5. 您会在生产环境中使用这些DSL工具吗?

我选择的开发平台是C#。我之所以提到这一点,是因为理想情况下,我想将DSL工具集成到代码中,以便我们可以从现有应用程序中使用它。

有帮助吗?

解决方案

我遇到了一个叫做的工具 Tinypg. 。它不是完全需要的,但是要查看源代码将使我生成所需的内容。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top