Empêcher les données du site d'être analysées et extraites

https://stackoverflow.com/questions/177479

05-07-2019
|

Question

Je cherche à créer un site de contenu avec éventuellement des milliers d'entrées différentes, accessibles par index et par recherche.

Quelles sont les mesures que je peux prendre pour empêcher les robots d'exploration malveillants d'extraire toutes les données de mon site? Je suis moins inquiet pour le référencement, même si je ne voudrais pas bloquer tous les robots légitimes.

Par exemple, j'ai envisagé de modifier de manière aléatoire de petits fragments de la structure HTML utilisée pour afficher mes données, mais je suppose que cela ne serait pas vraiment efficace.

La solution

Tout site visible par un œil humain est, en théorie, potentiellement déchirable. Si vous essayez même d’être accessible, cela, par définition, doit être le cas (sinon, comment les navigateurs qui parlent peuvent-ils diffuser votre contenu s’il n’est pas lisible par une machine)?

La meilleure solution consiste à appliquer un filigrane à votre contenu afin de pouvoir au moins, le cas échéant, pointer vers le filigrane et revendiquer la propriété.

Autres conseils

Entre ceci:

Quelles sont les mesures que je peux prendre pour empêcher l'extraction de robots d'exploration malveillants

et ceci:

Je ne voudrais pas bloquer les robots légitimes tous ensemble.

vous demandez beaucoup. Le fait est que si vous essayez de bloquer des scrapers malveillants, vous finirez par bloquer tous les "bons" les robots aussi.

N'oubliez pas que si les gens veulent supprimer votre contenu, ils vont faire beaucoup plus de travail manuel qu'un robot de moteur de recherche ... Pour que vos priorités soient claires. Vous avez deux choix:

Laissez les paysans d’Internet voler votre contenu. Surveillez-le (recherchez dans Google certaines de vos phrases les plus uniques) et envoyez des demandes de retrait aux fournisseurs de services Internet. Ce choix n'a pratiquement aucun impact sur votre époque.
Utilisez AJAX et le cryptage progressif pour demander tout votre contenu au serveur. Vous devrez garder la méthode changeante ou même aléatoire afin que chaque pageload porte un schéma de cryptage différent. Mais même cela sera fissuré si quelqu'un veut le résoudre. Vous allez également laisser tomber les moteurs de recherche et donc avoir un impact sur le trafic de vrais utilisateurs.

Les bons robots d'exploration suivront les règles que vous spécifiez dans votre fichier robots.txt, pas les plus malveillants. Vous pouvez configurer un "piège". pour les mauvais robots, comme il est expliqué ici: http://www.fleiner.com/bots/ .
Mais là encore, si vous mettez votre contenu sur Internet, je pense que c'est mieux pour tout le monde s'il est aussi facile à trouver (en fait, vous postez ici et pas sur un forum boiteux où des experts échangent leurs opinions)

En réalité, vous ne pouvez pas arrêter les robots d'exploration malveillants - et toutes les mesures que vous avez mises en place pour les empêcher risquent de nuire à vos utilisateurs légitimes (mis à part l'ajout d'entrées dans le fichier robots.txt pour permettre la détection)

Vous devez donc planifier le vol du contenu (il est plus que probable que cela se produise sous une forme ou une autre) et comprendre comment vous allez gérer les copies non autorisées.

La prévention n’est pas possible - et vous perdez votre temps à essayer de le faire.

Le seul moyen sûr de vous assurer que le contenu d'un site Web n'est pas vulnérable à la copie consiste à débrancher le câble réseau ...

Pour le détecter, utilisez quelque chose comme http://www.copyscape.com/ qui pourrait vous aider.

N'essayez même pas d'ériger des limites sur le Web!

C’est aussi simple que cela.

Toute mesure potentielle pour décourager l'extraction (à part un très rigoureux fichier robots.txt) nuira à vos utilisateurs. Les captchas sont plus douloureux que bénéfiques. La vérification de l'agent utilisateur ferme les navigateurs inattendus. Il en va de même pour " clever " astuces avec javascript.

Veuillez garder le Web ouvert. Si vous ne souhaitez rien extraire de votre site Web, ne le publiez pas ici. Les filigranes peuvent vous aider à revendiquer la propriété, mais cela n’aide que lorsque vous souhaitez intenter une action en justice après que le préjudice a été causé.

Pour empêcher un site en cours d'extraction sur une machine, l'utilisateur doit prouver qu'il est humain.

Vous pouvez faire en sorte que les utilisateurs effectuent une tâche facile pour les humains et difficile pour les machines, par exemple: CAPTCHA. Lorsqu'un utilisateur accède pour la première fois sur votre site, présentez un CAPTCHA et ne lui permettez de continuer qu'une fois terminé. Si l'utilisateur commence à passer d'une page à l'autre, vérifiez à nouveau rapidement.

Cela n’est pas efficace à 100% et les pirates informatiques essaient toujours de les casser.

Sinon, vous pouvez faire des réponses lentes. Vous n'avez pas besoin de les faire ramper, mais choisissez une vitesse raisonnable pour les humains (ce serait très lent pour une machine). Cela leur fait simplement prendre plus de temps pour gratter votre site, mais pas impossible.

OK À court d'idées.

En bref: vous ne pouvez pas empêcher les déchirures. Les robots malveillants utilisent couramment des agents utilisateurs d'IE et sont aujourd'hui assez intelligents. Si vous souhaitez que votre site soit accessible au maximum (lecteurs d’écran, etc.), vous ne pouvez pas utiliser javascript ou l’un des plugins les plus populaires (flash) simplement parce qu’ils peuvent empêcher l’accès d’un utilisateur légitime.

Peut-être pourriez-vous avoir un travail cron qui extrait un fragment aléatoire de votre base de données et le recherche dans Google pour vérifier les correspondances. Vous pouvez alors essayer de mettre la main sur le site incriminé et lui demander de supprimer le contenu.

Vous pouvez également surveiller le nombre de requêtes émanant d’une adresse IP donnée et la bloquer si elle dépasse un seuil, bien que vous deviez peut-être ajouter des robots légitimes à la liste blanche et ne servir à rien contre un botnet ( L’extraction n’est peut-être pas votre plus gros problème).

Si vous créez un site public, c'est très difficile. Il existe des méthodes qui impliquent des scripts côté serveur pour générer du contenu ou l'utilisation de texte non textuel (Flash, etc.) pour réduire les risques d'extraction.

Mais pour être honnête, si vous estimez que votre contenu est aussi bon, protégez-le uniquement à l'aide d'un mot de passe et retirez-le de l'arène publique.

Mon avis est que le but principal du Web est de propager un contenu utile à autant de personnes que possible.

Si le contenu est public et disponible librement, même avec un étranglement de l'affichage des pages ou autre, rien ne peut être fait. Si vous avez besoin d'une inscription et / ou d'un paiement pour accéder aux données, vous pouvez le restreindre un peu et vous pouvez au moins voir qui lit quoi et identifier les utilisateurs qui semblent détruire toute votre base de données.

Cependant, je pense que vous devriez plutôt faire face au fait que c'est comme cela que le réseau fonctionne, il n'y a pas beaucoup de moyens d'empêcher une machine de lire ce qu'un humain peut. Afficher tout votre contenu sous forme d'images découragerait bien sûr la plupart des utilisateurs, mais le site n'est plus accessible, sans parler du fait que même les utilisateurs non handicapés ne pourront rien copier-coller, ce qui peut être vraiment ennuyeux.

Tout compte fait, cela ressemble à des systèmes de protection DRM / jeu - pisser l’enfer de vos utilisateurs légitimes uniquement pour empêcher un mauvais comportement que vous ne pouvez pas empêcher de toute façon.

Vous pouvez essayer d’utiliser Flash / Silverlight / Java pour afficher tout le contenu de votre page. Cela arrêterait probablement la plupart des robots d'exploration.

J'avais un système qui bloquait ou autorisait en fonction de l'en-tête User-Agent. Il dépend du moteur d'exploration qui définit l'agent utilisateur, mais il semble que la plupart d'entre eux le fassent.

Cela ne fonctionnera pas s’ils utilisent bien sûr un faux en-tête pour émuler un navigateur populaire.

Utilisez les validateurs humains partout où vous le pouvez et essayez d’utiliser un framework (MVC). Le logiciel d'extraction de site est parfois incapable d'extraire ce type de page. Détectez également l'agent utilisateur, au moins, cela réduira le nombre de rippers possibles

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow