dados do site impedem de ser rastreado e rasgado

https://stackoverflow.com/questions/177479

05-07-2019
|

Pergunta

Eu estou olhando para construir um site de conteúdo com possivelmente milhares de entradas diferentes, acessíveis por índice e por pesquisa.

Quais são as medidas que pode tomar para evitar crawlers maliciosos a partir arrancando todos os dados do meu site? Estou menos preocupado com SEO, embora eu não gostaria de bloquear crawlers legítimos todos juntos.

Por exemplo, eu pensei em mudar aleatoriamente pequenos pedaços da estrutura HTML usado para exibir meus dados, mas eu acho que não seria realmente eficaz.

Solução

Qualquer site que visível por olhos humanos é, em teoria, potencialmente rippable. Se você vai mesmo tentar ser acessível então este, por definição, deve ser o caso (de que outra vontade falando navegadores ser capaz de entregar o seu conteúdo se não for legível por máquina).

Sua melhor aposta é a de olhar para watermarking seu conteúdo, de modo que pelo menos se ele não se rasgado que você pode apontar para a marca d'água e reivindicação de propriedade.

Outras dicas

Entre esta:

Quais são as medidas que pode tomar para evitar crawlers maliciosos de rasgar

e este:

Eu não gostaria de bloquear crawlers legítimos todos juntos.

você está pedindo muito. Fato é que, se você estiver indo para tentar bloquear raspadores maliciosos, você vai acabar bloqueando todas as "boas" crawlers também.

Você tem que lembrar que se as pessoas querem raspar o seu conteúdo, eles vão colocar em um grande esforço mais manual do que um bot motor de busca vai ... Então, chegar em suas prioridades. Você tem duas opções:

Deixe os camponeses da internet roubar o seu conteúdo. Mantenha-se atento para isso (busca no Google por alguns dos seus frases mais originais) e envio de take-down pedidos para ISPs. Esta escolha tem quase nenhum impacto em seu aparte do tempo.
Use AJAX e criptografia de rolamento para solicitar todo o seu conteúdo a partir do servidor. Você vai precisar para manter a mudança método, ou mesmo aleatória de modo que cada pageload carrega um esquema de criptografia diferente. Mas mesmo este irá ser quebrada se alguém quiser quebrá-la. Você também vai deixar o rosto dos motores de busca e, portanto, tomar uma batida no tráfego de usuários reais.

Boas crawlers vai seguir as regras especificadas em seu robots.txt, os maliciosos não vai. Você pode configurar uma "armadilha" para robôs maus, como é explicado aqui: http://www.fleiner.com/bots/ .
Mas, novamente, se você colocar seu conteúdo na internet, eu acho que é melhor para todos se é o mais simples possível para encontrar (na verdade, você está postando aqui e não em algum fórum coxo onde Experts Exchange suas opiniões)

Realisticamente você não pode parar crawlers maliciosos - e quaisquer medidas que você colocar no lugar para evitar que eles são susceptíveis de prejudicar seus usuários legítimos (com exceção de talvez adicionar entradas para robots.txt para permitir a detecção)

Então, o que você tem a fazer é plano sobre o conteúdo que está sendo roubada - é mais do que provável que aconteça de uma forma ou de outra - e entender como você vai lidar com a cópia não autorizada.

A prevenção não é possível -. E será um desperdício de seu tempo tentando fazê-lo de modo

A única maneira segura de garantir que o conteúdo em um site não é vulnerável a cópia é desconectar o cabo de rede ...

Para detectá-lo usar algo como http://www.copyscape.com/ pode ajudar.

Não adianta tentar erigir limites na web!

É realmente tão simples quanto isso.

Cada medida potencial para desencorajar rasgando (além de um robots.txt muito rigoroso) irá prejudicar os seus utilizadores. Captchas são mais dor do que ganho. Verificando os fecha agente do usuário fora navegadores inesperados. O mesmo é verdadeiro para truques "inteligentes" com javascript.

Por favor, mantenha a web aberta. Se você não quer nada para ser tirado de seu site, então não publicá-lo lá. Marcas d'água pode ajudá-lo a reivindicar a posse, mas isso só ajuda quando você quer processar após o dano é feito.

A única maneira de parar um site a ser máquina rasgado é fazer com que o usuário provar que eles são humanos.

Você poderia fazer os usuários a executar uma tarefa que é fácil para os seres humanos e difícil para as máquinas, por exemplo: CAPTCHA. Quando um usuário recebe primeiro a seu local presente um CAPTCHA e só lhes permitem proceder, uma vez que foi concluída. Se o usuário começa a se mover de uma página para muito rapidamente re-verificar.

Isto não é 100% eficaz e hackers estão sempre tentando quebrá-las.

Como alternativa, você pode fazer respostas lentas. Você não precisa fazê-los rastreamento, mas escolher uma velocidade que é razoável para os seres humanos (isso seria muito lento para uma máquina). Isso só torna demorar mais tempo para raspar seu site, mas não impossível.

OK. Sem ideias.

Em suma: você não pode evitar rasgar. bots maliciosos usam geralmente os agentes do usuário do IE e são bastante inteligente hoje em dia. Se você quiser ter o seu site acessível para o número máximo (ou seja, leitores de tela, etc) você não pode usar javascript ou um dos plugins populares (flash), simplesmente porque eles podem inibir o acesso de um usuário legítimo.

Talvez você possa ter um trabalho cron que escolhe um trecho aleatório fora de seu banco de dados e googles-se verificar as partidas. Você poderia, então, tentar se apossar do site ofender e exigir que eles tomar o baixo conteúdo.

Você também pode monitorar o número de pedidos de um determinado IP e bloqueá-lo se ele passa um limiar, embora você pode ter que whitelist bots legítimos e seria inútil contra um botnet (mas se você é contra uma botnet, talvez rasgando não é o seu maior problema).

Se você está fazendo um site público, então é muito difícil. Existem métodos que envolvem scripts do lado do servidor para gerar o conteúdo ou o uso de não-texto (Flash, etc) para minimizar a probabilidade de rasgar.

Mas para ser honesto, se você considerar o seu conteúdo para ser tão bom, apenas a senha protege-lo e removê-lo da arena pública.

A minha opinião é que todo o ponto da web é propagar conteúdo útil para tantas pessoas quanto possível.

Se o conteúdo é pública e livremente disponível, mesmo com visualização da página de estrangulamento ou qualquer outra coisa, não há nada que você pode fazer. Se você precisar de registo e / ou de pagamento para acessar os dados, você pode restringi-la um pouco, e, pelo menos, você pode ver quem lê o que e identificar os usuários que parecem estar raspando o seu banco de dados inteiro.

No entanto, eu acho que você deveria encarar o fato de que esta é a forma como as obras líquidos, não há muitas maneiras de prevenir uma máquina para ler o que um ser humano pode. Produzir todo o seu conteúdo como imagens seria, evidentemente desencorajar a maioria, mas, em seguida, o site não é acessível mais, e muito menos o fato de que os usuários até mesmo o não-deficientes não será capaz de copiar e colar qualquer coisa - que pode ser realmente irritante.

Tudo em tudo isso soa como sistemas de protecção DRM / jogo -. Irritando o inferno fora de seus usuários legítimos só para evitar algum mau comportamento que você realmente não pode evitar de qualquer maneira

Você pode tentar usar Flash / Silverlight / Java para exibir todo o conteúdo da página. Que a maioria dos rastreadores provavelmente iria parar em suas trilhas.

Eu costumava ter um sistema que iria bloquear ou permitir com base no cabeçalho User-Agent. Baseia-se na definição de sua User-Agent rastreador mas parece maioria deles para fazer.

não vai funcionar se eles usam um cabeçalho falso para emular um navegador popular do curso.

Use onde sempre é possível validadores humanos e tente usar alguma estrutura (MVC). O software rasgando local é por vezes incapaz de rasgar este tipo de página. Também detectar o agente do usuário, pelo menos ele vai reduzir o número de possíveis rippers

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow