Извлечение ключевых слов/фразы из текста с использованием библиотек глубокого обучения
-
16-10-2019 - |
Вопрос
Возможно, это слишком широко, но я ищу ссылки на то, как использовать глубокое обучение в задаче об отскачивании от текста.
Я уже внедрил текстовое обобщение с использованием стандартных словных подходов и ранжирования предложений, но я хотел бы изучить возможность использования методов глубокого обучения для этой задачи. Я также прошел некоторые реализации, данные на Wildml.com Использование сверточных нейронных сетей (CNN) для анализа настроений; Я хотел бы знать, как можно использовать такие библиотеки, как Tensorflow или Theano для обобщения текста и извлечения ключевых слов. Прошло около недели с тех пор, как я начал экспериментировать с нейронными сетями, и я очень рад видеть, как производительность этих библиотек сравнивается с моими предыдущими подходами к этой проблеме.
Я особенно ищу некоторые интересные документы и проекты GitHub, связанные с текстовым суммированием с использованием этих структур. Кто -нибудь может дать мне некоторые ссылки?
Решение
А Google Research Blog должен быть полезен в контексте Tensorflow.
В приведенной выше статье есть ссылка на Аннотированный набор данных английского Gigaword который обычно используется для суммирования текста.
Документ 2014 года Sutskever et al под названием Последовательность в обучение последовательности с нейронными сетями Может быть значимое начало в вашем путешествии, так как выясняется, что для более коротких текстов суммирование может быть изучено скромно с помощью глубокой техники обучения.
Наконец, здесь это отличный репозиторий GitHub, демонстрирующий текстовое суммирование при использовании TensorFlow.
Другие советы
Это открытая область исследований, и это, безусловно, зависит от того, как вы создаете проблему. Если вы говорите о многодокументированном суммировании, то проблема немного отличается от того, что если вы говорили о суммировании одного документа.
Стоит кратко рассмотреть литературу.
Ссылка, предоставленная U/Общество ученых данных великолепно, и это полезно для абстрактивный Задача суммирования в одном документе. Также есть работа на добыча Суммирование, которое определяет важные предложения для извлечения.
Rush et. У AL есть хорошая бумага о абстрактной суммировании с вниманием, который основан на глубоком обучении.
Для добывающей суммирования вы можете использовать LSTM для создания своего классификатора и использовать стандартные библиотеки Tensorflow/Torch, но, похоже, нет никаких текущих публикаций при использовании глубокого обучения для этого подхода.
Вот несколько дополнительных репозиторов GitHub:
Похоже, это более добываемое суммирование, если вы ищете ключевые слова. Вот несколько документов, которые, вероятно, имеют реализации:
Нейронное суммирование путем извлечения предложений и слов
Извлечение суммирования с использованием глубокого обучения
Полуопервизированные сверточные нейронные сети для категоризации текста с помощью региона.
Кроме того, у Spacy (не аффилирован) хорошо блог об общей архитектуре задач извлечения текста.