使用深度学习库从文本中提取关键字/短语
-
16-10-2019 - |
题
也许这太广泛了,但是我正在寻找有关如何在文本摘要任务中使用深度学习的参考。
我已经使用标准的单词频率方法和句子排序实现了文本摘要,但是我想探索使用深度学习技术来完成此任务的可能性。我也经历了一些实现 wildml.com 使用卷积神经网络(CNN)进行情感分析;我想知道如何将诸如TensorFlow或Theano之类的库进行文本摘要和关键字提取。自从我开始尝试神经网以来,大约已经一周了,我很高兴看到这些库的性能如何与我以前的这个问题方法相比。
我特别在寻找与这些框架有关的一些有趣的论文和与文本摘要有关的github项目。谁能为我提供一些参考?
解决方案
这 Google研究博客 应该在 TensorFlow.
在上面的文章中,有参考 注释的英语Gigaword数据集 通常用于文本摘要。
2014年论文 Sutskever等 标题为 通过神经网络序列学习的顺序 事实证明,对于较短的文本,可以通过深度学习技巧端到端地学习摘要,这可能是一个有意义的开始。
最后, 这里 是一个很棒的GitHub存储库,在使用TensorFlow时演示了文本摘要。
其他提示
这是一个开放的研究领域,当然取决于您解决问题的方式。如果您谈论的是多文件摘要,那么问题与您谈论单案摘要的情况略有不同。
提供的链接 U/数据科学家协会 很棒,对 抽象 跨单个文档的汇总任务。还完成了工作 挖掘 汇总,确定要提取的重要句子。
Rush et。 Al有一篇关于抽象性摘要的好论文,, ,这是基于深度学习的。
为了进行提取性摘要,您可以使用LSTM来构建分类器并使用标准的Tensorflow/Torch库,但是对于使用深度学习的方法似乎没有任何当前出版物。
这是一些其他GitHub存储库:
如果您正在寻找关键词,这听起来像是更具提取性的摘要。这里有一些可能具有实施的论文:
另外,Spacy(不关联)有一个很好的 博客 关于文本提取任务的一般体系结构。