PNL: Building (pequenos) corpora, ou “Onde obter lotes de arquivos de texto em língua Inglês não muito especializados?”

https://stackoverflow.com/questions/137380

02-07-2019
|

Pergunta

Alguém tem alguma sugestão para onde encontrar arquivos ou coleções de texto todos os dias Inglês para uso em um pequeno corpus? Tenho vindo a utilizar livros Gutenberg projeto para um protótipo de trabalho, e gostaria de incorporar uma linguagem mais contemporânea. A recente resposta aqui apontado indiretamente a um grande Arquivo de revisões de filme usenet , que não tinha me ocorrido, e é muito bom. Para este programa específico arquivos Usenet técnicas ou listas de discussão de programação seria inclinar os resultados e ser difícil de analisar, mas qualquer tipo de texto geral blog, ou transcrições de bate-papo, ou qualquer coisa que pode ter sido útil para os outros, seria muito útil. Além disso, um corpus de pesquisa parcial ou download que não é muito marcado-up, ou alguma heurística para encontrar um subconjunto apropriado de artigos da Wikipédia, ou qualquer outra idéia, é muito apreciado.

(BTW, eu estou sendo um bom cidadão w / r / t download, usando um script deliberadamente lento que não é exigente em servidores de hospedagem tal material, no caso de você perceber um risco moral em mim apontando para algo enorme.)

Atualizar : pontos S0rin usuário que pedidos wikipedia sem rastreamento e fornece esta ferramenta de exportação . Projecto Gutenberg tem uma política especificada aqui , linha de fundo, tente não crawl, mas se você precisa: "Configure o seu robô de esperar pelo menos 2 segundos entre as solicitações."

Update 2 As lixeiras Wikpedia são o caminho a percorrer, graças aos respondentes que os apontados. Acabei usando a versão em Inglês a partir daqui: http://download.wikimedia.org/enwiki/20090306 / , e um despejo Espanhol cerca de metade do tamanho. Eles são algum trabalho para limpar, mas vale a pena, e eles contêm uma grande quantidade de dados úteis nas ligações.

Solução

Use o Wikipedia lixeiras
- precisa de muita limpeza
ver se alguma coisa na NLTK-dados ajuda
- os corpora são normalmente muito pequenos
Wacky ter algum corpora livre
- com a tag
- você pode aranha seu próprio corpus usando seu kit de ferramentas
Europarl é gratuito e base de praticamente todos os sistemas MT acadêmica
- língua falada, traduzido
Reuters Corpora são gratuitos, mas só está disponível em CD

Você sempre pode obter o seu próprio, mas seja advertido:. Páginas HTML muitas vezes precisam de limpeza pesado, então restringir-se a feeds RSS

Se você fizer isso comercialmente, o LDC pode ser uma alternativa viável.

Outras dicas

Wikipedia soa como o caminho a percorrer. Há um experimental API Wikipedia que pode ser de uso, mas não tenho idéia de como funciona. Até agora eu só raspou Wikipedia com aranhas personalizados ou até mesmo wget.

Em seguida, você poderia procurar por páginas que oferecem o seu texto artigo completo em feeds RSS. RSS, porque nenhum HTML tags de entrar em seu caminho.

listas de discussão raspagem e / ou a Usenet tem vários disatvantages:. você estará recebendo AOLbonics e techspeak, e que inclinará sua corpus mal

Os corpora clássicos são a Penn Treebank eo British National Corpus, mas eles são pagos. Você pode ler a lista Corpora arquivos , ou até mesmo pedir-lhes sobre isso. Talvez você vai encontrar dados úteis usando o Web como ferramentas Corpus .

Na verdade, tenho um pequeno projeto em construção, que permite o processamento linguístico em páginas da web arbitrários. Ele deve estar pronto para uso dentro das próximas semanas, mas está tão longe realmente não pretende ser um raspador. Mas eu poderia escrever um módulo para isso, eu acho, a funcionalidade já está lá.

Se você está disposto a dinheiro de pagamento, você deve verificar se os dados disponíveis no Dados Consortium linguística, como a Penn Treebank.

Wikipedia parece ser o melhor caminho. Sim, você teria que analisar a saída. Mas, graças a categorias da Wikipédia você poderia facilmente obter diferentes tipos de artigos e palavras. por exemplo. analisando todas as categorias de ciências você pode obter lotes de palavras de ciência. Detalhes acerca dos locais seria desviada para nomes geográficos, etc.

Você cobriu as mais óbvias. A única outra áreas que eu posso pensar demasiado suplemento:

1) Artigos de notícias / blogs.

2) Revistas está postando um monte de material livre online, e você pode obter um bom cruzamento de tópicos.

Olhando para os dados wikipedia notei que eles tinham feito algumas análises em corpos de roteiros de tV e cinema . Eu pensei que poderia texto interessante, mas não facilmente acessível - verifica-se que é em todos os lugares, e está estruturado e bastante previsível que deve ser possível limpá-lo. Este site , prestativamente intitulado "Um monte de scripts de filmes e roteiros em um local 'na rede ", provavelmente seria útil para qualquer pessoa que tropeça sobre este tópico com uma pergunta similar.

Você pode obter conteúdo citações (de forma limitada) aqui: http://quotationsbook.com/services/

Este conteúdo também acontece a ser em Freebase.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow