Stanford名前付きエンティティタガー - 矛盾?
-
21-12-2019 - |
質問
私は奇妙な問題を抱えています。
私は、Stanfordという名前のエンティティ認識(NER)タグ付けを使用してタグを付けたい文章のリスト(約0.1百万程度)を持っています。私は、Stanford Ner Demo Webサイト(Java Demo Code)から提供されている次のコード行を使用してタグ付けしていました。
for (String str : List<sentences>) {
System.out.print(classifier.classifyToString(str, "slashTags", false));
}
.
タグ付けされることになっているすべての文章のいくつかについて手動でチェックされるまで、すべてが手動でチェックされることができました。しかし、タグ付けされていないこれらの文章はいくつかのサンプルリストに手を録音し、それらがタグ付けされている上記のコードでテストされています。だから私は間違っているところに混乱しています。正しくタグ付けされていない文は1000~1500文の範囲のようなものです。それで、私がこれらの誤ってタグ付けされた文章を別のリストに走ったとき、それらはタグ付けされています。分類器に影響を与えるデータセットのサイズ(0.1百万)は?
次のように: 次の文を考慮してください - 「IBM Corporationはじめに」 上記のような文は、私の0.1百万のデータセットでかなりの数で存在します。そのため、上記のコードを0.1百万のデータセットで使用してタグ付けをすると、これらのような多くの文はまったくタグ付けされていません。しかし、私が手を選んでリストに入れて、その後タグ付けをするとき、その後タグ付けされています。
私はすべてのアプローチを試してみました、そして私はデータセット全体のタグ付け時に上記のような文のタグ付けなしの同じ結果に終わりました。
私は次の3つの異なる方法を試しました 1. Classifier.ClAssifyToString(InputString、SlashTags "、false) 2. classifier.classify(InputString) 3. Classifier.ClassifyToCharacteroffSets(InputString)
私が間違っているのはどんなアイデアや提案ですか?
ありがとう
解決
下記のリンクから答えを得たと思います:
https://mailman.stanford.edu/PIPERMAIL / JAVA-NLP-user / 2014-7月/ 006045.html