DataSet para palavras comuns para construir sentenças básicas

https://stackoverflow.com//questions/10704858

13-12-2019
|

Pergunta

Então estou fazendo um "imã de geladeira" interativo e eu estava tentando descobrir um conjunto de dados válido para que as palavras tenham para o usuário se arrastar.

Eu estou usando este conjunto de dados .. mas não é tão bom

http://en.wikipedia.org/wiki/most_common_words_in_english

e idéias onde encontrar um conjunto mais válido de palavras

Solução

Uma maneira que você pode fazer isso é para baixar um corpus de texto e, em seguida, executar um script que conta o número de cada palavra que aparece. Em seguida, escolha algum valor n e divida cada contagem por n (arredondamento para baixo). Para cada palavra, faça um ímã para cada contagem dividida. Você deve escolher n com base em quantos ímãs você deseja no final.

Isso tem a vantagem de ter a distribuição de ímãs corresponder à distribuição de palavras. Por exemplo, se "o" aparecer 1000 vezes ", o homem" 320 vezes "," anda "150 vezes e" ignora "2 vezes, e você escolhe n para ser 100, então você vai acabar Fazendo 10 "Os" ímãs ", 3" homem ", 1" Walks "e 0" skips ".

Você também pode querer levar o logaritmo das contagens para tentar reduzir o inclinação. Como as distribuições da palavra são Zipfian , você pode acabar com milhares de" os "ímãs para cada" Walks " ").

Finalmente, a coisa boa sobre essa abordagem é que você poderia executá-lo em um determinado domínio para fazer um imã de palavra definido para esse domínio. Por exemplo, se você quiser fazer ímãs de palavra que soam como notícias, então corra em um corpus de notícias. Se você quiser fazer ímãs de palavra que soam como contos de fadas, então executá-lo em um corpus de contos de fadas.

Se você realmente quiser ficar chique, você poderia usar algo como TF-IDF para Escolha as palavras que são mais representativas desse domínio e depois os misture com palavras de função comuns.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow