我有一个奇怪的问题。

我有一个句子列表(约0.1百万),想要用斯坦福名为实体识别(ner)标记标记。我正在使用斯坦福德网站(Java演示代码)提供的以下代码编写标记。

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}
.

我认为一切正好到达,直到我手动检查一些根本没有标记的一些句子,该句子应该被标记。但是,当没有标记的这些句子被挑选到一些样本列表中并用上面的代码测试,它们被标记为此。所以我在我错了的地方很困惑。没有正确标记的句子就像1000-1500句子一样。因此,当我在单独的列表中运行这些错误标记的句子时,它们会被标记。是数据集的大小(0.1百万)对分类器有任何影响吗?

例如: 考虑以下句子 - “IBM Corporation介绍” 如上所述的句子在我的0.1百万个数据集中存在于相当数量的数字。因此,当我在01百万个数据集上使用上面的代码进行标记时,许多句子都没有标记。但是当我手中选择那些并放入一个列表然后进行标记然后进行标记。

我已经尝试了所有方法,并且在整个数据集上标记时,我最终在没有像上面的句子的标记的相同结果。

我尝试了以下3种不同的方式 1.分类器.ClassifyToString(InputString,“SlashTags”,False) 2.分类器.Classify(InputString) 3.分类器.ClassifytoCharAutionoSets(InputString)

我出错的任何想法或建议?

感谢

有帮助吗?

解决方案

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top