PNL: Creación de corpora (pequeña) o "¿Dónde obtener muchos archivos de texto en inglés no demasiado especializados?"

https://stackoverflow.com/questions/137380

02-07-2019
|

Pregunta

¿Alguien tiene una sugerencia sobre dónde encontrar archivos o colecciones de texto en inglés todos los días para usar en un pequeño corpus? He estado utilizando los libros del Proyecto Gutenberg para un prototipo funcional, y me gustaría incorporar un lenguaje más contemporáneo. Una respuesta reciente aquí señala indirectamente a un gran archivo de reseñas de películas de Usenet , que no se me había ocurrido, y es muy bueno. Para este programa en particular, los archivos de programación técnica o las listas de correo de programación inclinarían los resultados y serían difíciles de analizar, pero cualquier tipo de texto general del blog, o transcripciones de chat, o cualquier cosa que pueda haber sido útil para otros, sería muy útil. Además, un corpus de investigación parcial o descargable que no esté demasiado marcado, o alguna heurística para encontrar un subconjunto apropiado de artículos de wikipedia, o cualquier otra idea, es muy apreciado.

(Por cierto, estoy siendo un buen ciudadano sin descargas, utilizando un script deliberadamente lento que no es exigente en los servidores que alojan este tipo de material, en caso de que perciba un riesgo moral al señalarme algo enorme.)

ACTUALIZACIÓN : el usuario S0rin señala que wikipedia no solicita rastreo y proporciona esta herramienta de exportación en su lugar. El Proyecto Gutenberg tiene una política especificada aquí , línea de fondo, no intente rastrear, pero si debe: " Configurar su robot para que espere al menos 2 segundos entre las solicitudes. "

ACTUALIZACIÓN 2 Los volcados de wikpedia son el camino a seguir, gracias a los encuestados que los señalaron. Terminé usando la versión en inglés desde aquí: http://download.wikimedia.org/enwiki/20090306 / , y un volcado español de aproximadamente la mitad del tamaño. Son algunos trabajos que hay que limpiar, pero vale la pena, y contienen una gran cantidad de datos útiles en los enlaces.

Solución

Utilice los volcados de Wikipedia
- necesita mucha limpieza
Vea si algo en nltk-data lo ayuda a
- los corpus suelen ser bastante pequeños
las Wacky tienen algunos corpus gratis
- etiquetado
- puedes arañar tu propio corpus usando su conjunto de herramientas
Europarl es gratis y es la base de casi todos los sistemas académicos de MT
- idioma hablado, traducido
Reuters Corpora son gratuitos, pero solo están disponibles en CD

Siempre puede obtener el suyo propio, pero tenga cuidado: las páginas HTML a menudo necesitan una gran limpieza, por lo que debe limitarse a las fuentes RSS.

Si lo hace comercialmente, el LDC podría ser una alternativa viable.

Otros consejos

Wikipedia suena como el camino a seguir. Hay una API experimental de Wikipedia que podría ser útil, pero no tengo ni idea de cómo funciona. Hasta ahora solo he raspado Wikipedia con arañas personalizadas o incluso con wget .

Luego, puede buscar páginas que ofrezcan el texto completo de su artículo en canales RSS. RSS, porque ninguna etiqueta HTML se interpone en tu camino.

El raspado de las listas de correo y / o Usenet tiene varias desventajas: obtendrás AOLbonics y Techspeak, y eso hará que tu cuerpo se incline mal.

Los cuerpos clásicos son el Penn Treebank y el British National Corpus, pero están pagados. Puede leer los archivos de listas de Corpora , o incluso preguntarles al respecto. Tal vez encuentre datos útiles utilizando las herramientas Web as Corpus .

En realidad tengo un pequeño proyecto en construcción, que permite el procesamiento lingüístico en páginas web arbitrarias. Debería estar listo para su uso dentro de las próximas semanas, pero hasta ahora no se pretende que sea un raspador. Pero podría escribir un módulo para ello, supongo, la funcionalidad ya está allí.

Si está dispuesto a pagar, debe consultar los datos disponibles en el Consorcio de Datos Lingüísticos, como el Penn Treebank.

Wikipedia parece ser la mejor manera. Sí, tendrías que analizar la salida. Pero gracias a las categorías de wikipedia, fácilmente puedes obtener diferentes tipos de artículos y palabras. p.ej. al analizar todas las categorías de ciencias, podrías obtener muchas palabras de ciencia. Los detalles sobre los lugares se desviarán hacia los nombres geográficos, etc.

Has cubierto los obvios. Las únicas otras áreas en las que puedo pensar también complementan:

1) Artículos de noticias / blogs.

2) Las revistas están publicando una gran cantidad de material gratuito en línea, y puede obtener una buena sección de temas.

Al mirar los datos de la wikipedia, noté que habían hecho algunos análisis En cuerpos de guiones de televisión y películas . Pensé que podría ser un texto interesante pero no accesible, resulta que está en todas partes y es lo suficientemente estructurado y predecible como para poder limpiarlo. Este sitio , titulado "" Un montón de guiones y guiones de películas en una ubicación en el ' net " ;, probablemente sería útil para cualquiera que tropiece en este hilo con una pregunta similar.

Puede obtener el contenido de las citas (en forma limitada) aquí: http://quotationsbook.com/services/

Este contenido también está en Freebase.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow