Pergunta

Alguém tem conhecimento de uma maneira de programaticamente imagens de download a partir Wikimedia Commons, sem registrar para uma conta Bot? Parece que a única maneira de obter a aprovação para uma conta Bot é se ele adiciona ou edita informações já no Wikimedia. Se você tentar fazer download de quaisquer imagens, sem uma conta bot, usando algumas das bibliotecas de API lá fora, você recebe mensagens de erro em vez das imagens. Parece que eles bloquear alguém não vindo de um navegador? Alguém tem alguma experiência com isso? Estou faltando alguma coisa aqui?

Foi útil?

Solução

Tente explicar exatamente o que você quer fazer? E o que você já tentou? Que mensagem de erro que você conseguiu? Você não está muito claro ...

O que bibliotecas você já tentou? Se você não é agressivo, não há restrições em download de conteúdo WM. Eu nunca ouvi falar de quaisquer restrições. Alguns User-agentes são proibidos de edição para evitar spam estúpido, mas na verdade, eu nunca ouvi falar de baixar restrições.

Se você está tentando raspar uma enorme quantidade de imagens, baixá-los através Commons, você está fazendo errado (tm). Se você está tentando obter algumas imagens, em qualquer lugar de 10 a 200, você deve ser capaz de escrever uma ferramenta decente em algumas linhas de código, desde que você está respeitando a exigência de estrangulamento: quando a API diz-lhe para abrandar, se você não fizer isso, os administradores de sistemas são susceptíveis de expulsá-lo.

Se você precisa de um despejo de imagem completa, (estamos falando de alguns TBs) tente perguntar em wikitech-l . Tivemos torrentes disponíveis quando havia menos imagens, agora é mais complicado, mas ainda factível .

Sobre contas bot. Quão profundo você olhou no sistema? Você precisa de uma conta bot para um rápido e edições sem supervisão. privilégios Bot também abrir algumas instalações, como tamanhos de consulta aumento. Mas lembre-se: conta bot? é simplesmente um usuário da conta aumentada. Você já tentou a execução de tudo com uma conta clássica?

Outras dicas

Depois de ter acabado de fazer isso mesmo que eu sinto que eu deveria compartilhar:

http://www.mediawiki.org/wiki/API:Allimages

Este documento API faz afirmar que você pode consultar as imagens:

http: // en. wikipedia.org/w/api.php?action=query&list=allimages&aiprop=url&format=xml&ailimit=10&aifrom=Albert

com o aiprop = url-lhe dada a url da imagem que você está procurando.

Note que costumava haver um problema com o uso LWP: não é ideológica, é prático, os agentes podem criar carga enorme sobre servidores já esticados. Existem estratégias sensíveis que os usuários agente pode seguir para reduzir a carga - pergunte sobre www.mediawiki.org, ou en: Bomba Village - Técnico

Se precisar de entre dez e um milhão de arquivos, usando ferramentas de Magnus Manske ao recurse categorias é uma boa escolha. http://tools.wmflabs.org/magnustools/can_i_haz_files.html produz uma lista de comandos UNIX que você pode então basta executar localmente.

Uma alternativa, cuja interface é somente na Alemanha, mas fácil o suficiente, é https: //tools.wmflabs. org / wikilovesdownloads /

Realmente não encontrar a resposta que eu estou procurando .. mas esta página é interessante :: http://www.makeuseof.com/tag/4-free-tools-for-taking-wikipedia-offline/

Especialmente # 4 .. mas parece que a página está em baixo .. projeto morto?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top