Mot clé / extraction phrase du texte en utilisant les bibliothèques profondes d'apprentissage

https://datascience.stackexchange.com/questions/10077

16-10-2019
|

Question

Peut-être est trop large, mais je cherche des références sur la façon d'utiliser l'apprentissage en profondeur dans une tâche de texte summarization.

Je l'ai déjà mis en œuvre en utilisant des approches texte summarization mot-fréquence standard et phrase rang, mais je voudrais explorer la possibilité d'utiliser des techniques d'apprentissage profond pour cette tâche. Je suis aussi passé par quelques implémentations données sur wildml.com utilisant convolutif Réseaux de neurones (CNN) pour l'analyse des sentiments; Je voudrais savoir comment on pourrait utiliser des bibliothèques telles que tensorflow ou Théano pour le texte et l'extraction mot-clé summarization. Son été une semaine depuis que je commencé à expérimenter avec des filets neurales, et je suis vraiment excité de voir comment les performances de ces bibliothèques se compare à mes approches précédentes à ce problème.

Je cherche en particulier pour des articles intéressants et des projets de GitHub liés au texte à l'aide de ces cadres summarization. Quelqu'un peut-il me fournir des références?

La solution

Le Google recherche Blog devrait être utile dans le contexte de tensorflow .

Dans l'article ci-dessus, il y a une référence à la ensemble de données annotées anglais Gigaword qui est régulièrement utilisé pour le texte summarization.

Le document 2014 par Sutskever et al intitulé Séquence à la séquence d'apprentissage avec les réseaux de neurones pourrait être un début significatif sur votre voyage comme il se avère que pour les textes plus courts, peut être appris summarization de bout en bout avec une technique d'apprentissage en profondeur.

Enfin, ici est un grand dépôt Github démontrant texte tout en summarization faisant usage de tensorflow.

Autres conseils

est un espace ouvert de la recherche et il dépend certainement de la façon dont vous encadrez le problème. Si vous parlez summarization multi-documents, le problème est légèrement différent que si vous parliez seul summarization document.

brièvement de la peine d'examiner la littérature.

Le lien fourni par u / Société des scientifiques de données est grand et il est utile pour la abstractive tâche dans un seul summarization document. Il y a aussi le travail fait sur extractif récapitulations, qui identifie les phrases importantes à extraire.

Rush et. al a un papier agréable sur le abstractive avec summarization l'attention, qui est basé sur l'apprentissage en profondeur.

Pour une extraction summarization, vous pouvez utiliser un LSTM pour construire votre classificateur et utiliser standards tensorflow / bibliothèques Torch mais il ne semble pas y avoir de publications en cours sur l'utilisation de l'apprentissage en profondeur de cette approche.

Voici quelques repo GitHub supplémentaires:

Les sons comme celui-ci est plus summarization si vous extractif êtes à la recherche des mots clés. Voici quelques articles qui ont probablement mises en œuvre:

Neural Summarization en extrayant phrases et des mots

extractive en utilisant de récapitulation profonde formation

convolutifs Neural Networks semi-supervisé pour Catégorisation texte par région Embedding

En outre, Spacy (non affilié) a une bonne sur la architecture générale des tâches d'extraction de texte.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange