Pergunta

Eu tenho um banco de dados completo de comentários de vários produtos. Minha tarefa é executar várias cálculo e "criar" outra "de banco de dados / xml-exportação", com dados agregados. Estou pensando em escrever programas de linha de comando em python para fazer isso. Mas eu sei que alguém fez isso antes e eu sei que há alguma solução de código python aberto ou semelhante que provavelmente dá muito mais interessante "Dados agregados", então eu posso possivelmente pensar fora.

O problema é que eu realmente não sei muito sobre esta área outra manipulação de dados, em seguida básica a partir de linha de comando, nem eu sei quais são os termos que eu deveria usar para até mesmo procurar essa coisa .. Eu realmente não estou procurando alguma científica stuff / visualização (não que eu não me importo se a ferramenta fornece), algo simples para começar e gradualmente ver / desenvolver coisas que eu preciso.

A minha única exigência é tanto o "fim dados agregados" estar em um banco de dados ou exportar como arquivo XML coisas não proprietária. É um pouco robusto então meus scripts python como eu tenho que lidar com "lotes" de dados através de 4 máquinas.

Qualquer dica onde devo começar minha pesquisa?

Graças.

Foi útil?

Solução

Parece que você está procurando um Integração de dados solução.
Uma sugestão é a fonte aberta projeto Chaleira parte do Suite Pentaho .
Para python, uma rápida pesquisa rendeu PyDI e SnapLogic

Outras dicas

Que tipo de análise que você está tentando fazer?

Se você está analisando texto dar uma olhada na Natural Language Toolkit (NLTK).

Se você deseja indexar e consultar os dados, dê uma olhada no motor whoosh busca.

Por favor, forneça mais alguns detalhes sobre o tipo de análise que você está procurando fazer.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top