DSLを使用したドキュメントの解析

https://stackoverflow.com/questions/2189943

25-09-2019
|

質問

私は、正式な文書である約100万の文書を通過する方法を考え出しようとしています（議論のために、それらは論文文書です）。それらはすべて標準化されているわけではありませんが、十分に近いです。タイトル、セクション、段落などです。英語などの微妙な違いがあります。タイトル「タイトル」と呼びますが、フランス語では「Titre」です。

したがって、私の考えでは、これを行う最良の方法は、タイトルのすべての可能な組み合わせでEBNFを作成することです。=タイトル|たとえば、脚本。

私はEBNFを思い付くことにあまり関心がありません。私の主な関心事は、解析を達成する方法です。私はANTLR、オスロ、皮肉、そして他の多くの人々を見ましたが、彼らが私の仕事に最適かどうかを判断するための専門知識を持っていません。

だから、あなたの間で学んだ人への私の質問は

このスケールでドキュメントを解析するためにどのDSLツールをお勧めしますか？
DSLツールは、マッチングでの解析で最も正確なものでありながら寛容です（つまり、大文字と小文字のルールを定義する必要がありますか？数字対ローマ数字と外国語（フランス語）
DSLの代替として推奨するとは考えていないプロセス/アルゴリズムはありますか？（ゼロから書き直すことはオプションですが、すぐに何かを機能させたいと思います）。
DSLSを解析するために、アルゴリズムに学習とインテリジェンスを追加しようとした人はいますか（遺伝的アルゴリズムとニューラルネットワークを考えてください）？
これらのDSLツールを生産環境で使用しますか？

私が選択した開発プラットフォームはC＃です。理想的には、既存のアプリから作業できるようにDSLツールをコードに統合したいと思っているからです。

解決

私は呼ばれるツールに出くわしました Tinypg. 。完全に必要なものではありませんが、ソースコードを調べることで、必要なものを生成できます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow