Question

Je développe un site web et je suis sensible aux gens grattage écran mes données. Je ne suis pas inquiet au sujet de gratter une ou deux pages -. Je suis plus préoccupé par quelqu'un grattant des milliers de pages que l'ensemble de ces données est beaucoup plus précieux qu'un petit pourcentage serait

Je peux imaginer des stratégies pour bloquer les utilisateurs en fonction du trafic lourd à partir d'une adresse IP unique, mais le réseau Tor met en place de nombreux circuits qui signifient essentiellement la circulation d'un seul utilisateur de semble provenir d'adresses IP différentes au fil du temps.

Je sais qu'il est possible de détecter le trafic Tor lorsque j'ai installé Vidalia avec son extension Firefox , google.com m'a présenté un captcha.

Alors, comment puis-je détecter de telles demandes?

(Mon site Web dans ASP.NET MVC 2, mais je pense que toute approche utilisée ici serait indépendant de la langue)

Était-ce utile?

La solution

  

Je développe un site Web et am   sensible aux gens grattant mon écran   données

oublier. Si elle est sur le web et que quelqu'un le veut, il sera impossible pour les empêcher de l'obtenir. Plus restrictions que vous mettez en place, plus vous risquer de ruiner l'expérience utilisateur pour les utilisateurs légitimes, qui nous l'espérons être la majorité de votre public. Il fait également le code plus difficile à maintenir.

Je posterai des contre-mesures à toutes les réponses futures idées proposent.

Autres conseils

Vous pouvez vérifier leur adresse IP à une liste de Tor sortie des nœuds . Je sais que quelqu'un fait, ce ne sera même pas ralentir qui est intéressé par le grattage de votre site. Tor est trop lent, la plupart des grattoirs ne même pas l'envisager. Il y a des dizaines de milliers de serveurs proxy ouverts qui peuvent être facilement scannés pour une liste ou peuvent être achetés. Les serveurs proxy sont bien parce que vous pouvez les enfiler ou tourner si votre chapeau de demande se fait frapper.

Google a été abusé par les utilisateurs tor et la plupart des noeuds de sortie sont sur la liste noire de Google et c'est pourquoi vous obtenez un captcha.

Permettez-moi d'être parfaitement clair:. IL N'Y A RIEN QUE VOUS POUVEZ FAIRE POUR PRÉVENIR DE QUELQU'UN GRATTAGE VOTRE SITE

Par la conception des composants du réseau tor, il est impossible pour le récepteur de savoir si le demandeur est la source d'origine ou si elle est juste une demande relayée.

Le comportement que vous avez vu avec Google a probablement été causé par une autre mesure de sécurité. Google détecte si elle IPs et présente des changements Identifié utilisateur un captcha juste au cas où pour éviter l'interception nuisibles et permettent également la poursuite de la session si un utilisateur authentifié a vraiment changé son adresse IP (par re-connexion à l'ISP, etc.).

Je sais que c'est vieux, mais je je suis arrivé ici d'une recherche Google alors pensé que je serais aller à la racine des préoccupations de la question ici. Je développe des applications web, mais je fais aussi une tonne d'abus et d'exploitation d'autres peuples. Je suis probablement le gars que vous essayez de garder dehors.

trafic tor est vraiment pas Detecting l'itinéraire que vous voulez aller ici. Vous pouvez détecter une bonne quantité de serveurs proxy ouverts par l'analyse des en-têtes de demande, mais vous avez tor, proxies élevé d'anonymat, les procurations chaussettes, réseaux privés virtuels bon marché vendus directement aux spammeurs, les réseaux de zombies et d'innombrables autres façons de briser les limites de taux. Vous avez également

Si votre principale préoccupation est un effet DDoS, ne vous inquiétez pas. attaques DDoS réelles prennent soit le muscle ou une vulnérabilité qui met à rude épreuve sur votre serveur. Peu importe quel type de site que vous avez, vous allez être inondé de coups de araignées, ainsi que de mauvaises personnes scanning des exploits. Juste un fait de la vie. En fait, ce genre de logique sur le serveur des échelles presque jamais bien et peut être le point de défaillance unique qui vous laisse ouvert à une véritable attaque DDoS.

Cela peut aussi être un point de défaillance unique pour vos utilisateurs finaux (y compris les robots sympathiques). Si un utilisateur légitime ou client obtient bloqué que vous avez un cauchemar de service à la clientèle et si le mauvais robot vous est bloqué dire au revoir à votre trafic de recherche.

Si vous ne voulez vraiment pas que quiconque saisir vos données, il y a certaines choses que vous pouvez faire. Si c'est un contenu de blog ou quelque chose, je dis généralement soit ne vous inquiétez pas à ce sujet ou avoir résumé les flux RSS que si vous avez besoin des aliments du tout. Le danger avec le contenu du blog gratté est qu'il est en fait assez facile de prendre une copie exacte d'un article, des liens de spam pour et le rang tout en frappant l'origine sur des résultats de recherche. En même temps, parce qu'il est facile pour que les gens ne vont pas faire des efforts dans le ciblage des sites spécifiques quand ils peuvent gratter les flux RSS en vrac.

Si votre site est plus d'un service avec un contenu dynamique qui est une toute autre histoire. Je gratter en fait un grand nombre de sites comme celui-ci à « voler » d'énormes quantités de données structurées propriétaires, mais il y a des options pour le rendre plus difficile. Vous pouvez limiter la demande par IP, mais c'est facile de se déplacer avec des mandataires. Pour une réelle protection obscurcissement relativement simple va un long chemin. Si vous essayez de faire quelque chose comme Google ou Gratter les résultats de télécharger des vidéos YouTube, vous découvrirez qu'il ya beaucoup à désosser. Je fais ces deux, mais 99% des gens qui essaient échouent parce qu'ils manquent de connaissances pour le faire. Ils peuvent gratter proxies pour contourner les limites IP, mais ils ne sont pas briser tout cryptage.

À titre d'exemple, pour autant que je me souviens d'une page de résultat Google est livré avec Obfuscated javscript qui obtient injecté dans les DOM de la charge de page, puis une sorte de jetons sont mis en sorte que vous devez les analyser sur. Ensuite, il y a une demande de paiement ajax avec ces jetons que les rendements obscurcie JS ou JSON qui est décodés pour construire les résultats et ainsi de suite et ainsi de suite. Ce n'est pas difficile à faire sur votre fin en tant que développeur, mais la grande majorité des voleurs potentiels ne peut pas le manipuler. La plupart de ceux qui peuvent ne faire l'effort. Je le fais pour envelopper des services vraiment utiles Google, mais pour la plupart des autres services je passe juste à quelques fruits de suspension inférieure à différents fournisseurs.

Espérons que cela est utile pour tous ceux qui viennent à travers elle.

Je pense que l'accent mis sur la façon dont il est « impossible » pour empêcher un utilisateur déterminé et techniquement avertis de grattage d'un site Web est donné trop d'importance. @Drew Noakes indique que le site contient des informations que lorsqu'ils sont pris dans leur ensemble a une « valeur ». Si un site Web contient des données agrégées qui est facilement accessible par les utilisateurs anonymes sans contrainte, alors oui, ce qui empêche le grattage peut être près « impossible ».

Je suggère le problème à résoudre est comment empêcher les utilisateurs de grattage des données agrégées, mais plutôt quelles approches pourraient être utilisées pour supprimer les données agrégées de l'accès du public; éliminant ainsi la cible des racleurs sans qu'il soit nécessaire de faire le « impossible », telles que le scrapping.

Les données agrégées doivent être traitées comme des informations confidentielles de l'entreprise. informations sur la société propriétaire en général ne sont pas accessibles au public aux utilisateurs anonymes sous une forme globale ou brute. Je dirais que la solution pour empêcher la prise de données précieuses serait de limiter l'accès et Contraindre aux données, à ne pas empêcher la mise au rebut de celui-ci lorsqu'il est présenté à l'utilisateur.

1] comptes / d'accès utilisateur - personne ne devrait jamais avoir accès à toutes les données dans un dans un laps de temps donné (spécifique des données / domaine). Les utilisateurs doivent être en mesure d'accéder aux données qui les concernent, mais clairement de la question, aucun utilisateur aurait un but légitime d'interroger toutes les données agrégées. Sans connaître les spécificités du site, je pense qu'un utilisateur légitime peut avoir besoin que un petit sous-ensemble des données dans un certain laps de temps. Demande que dépassent largement les besoins des utilisateurs typiques doivent être bloqués ou bien étranglé, de manière à faire gratter le temps long et les prohibitive données mises au rebut potentiellement obsolètes.

2] équipes Opérations surveillent souvent des mesures pour assurer que les grands systèmes distribués et complexes sont en bonne santé. Malheureusement, il devient très difficile d'identifier les causes des problèmes sporadiques et intermittents, et souvent il est même difficile d'identifier qu'il ya un problème, par rapport aux fluctuations normales de fonctionnement. les équipes opérationnelles traitent souvent avec des données historiques analysées statistiques issues de nombreux de nombreux paramètres, et en les comparant aux valeurs actuelles pour aider à identifier les écarts importants dans la santé du système, que ce soit le système le temps, la charge, l'utilisation du processeur, etc.

De même, les demandes des utilisateurs des données dans des quantités nettement supérieure à la norme pourrait aider à identifier les personnes qui sont susceptibles d'être données déchirage; une telle approche peut même être automatisé et même étendu encore à regarder à travers plusieurs comptes pour les modèles qui indiquent la casse. 1 utilisateur écorchures 10%, l'utilisateur 2 écorchures les 10% suivants, l'utilisateur 3 écorchures les 10% suivants, etc ... De tels modèles que (et d'autres) pourraient fournir des indicateurs forts de l'utilisation malveillante du système par un seul individu ou d'un groupe utilisant plusieurs comptes

3] Ne pas faire les données agrégées brutes directement accessibles aux utilisateurs finaux. Specifics d'importance ici, mais simplement, les données doivent résider sur des serveurs d'extrémité arrière, et récupérés en utilisant une API de domaine spécifique. Encore une fois, je suppose que vous n'êtes pas seulement des données brutes qui servent des, mais plutôt de répondre aux demandes des utilisateurs pour des sous-ensembles de données. Par exemple, si les données que vous avez est détaillé la démographie de la population pour une région donnée, un utilisateur final légitime serait intéressé que dans un sous-ensemble de ces données. Par exemple, un utilisateur final peut vouloir savoir adresses des ménages avec des adolescents qui résident avec leurs deux parents dans des logements collectifs ou des données sur une ville ou un comté spécifique. demande d'un tel nécessiterait le traitement des données agrégées pour produire un ensemble de données résultant qui est d'intérêt pour l'utilisateur final. Il serait excessivement difficile de gratter chaque ensemble de données résultant récupéré de nombreuses permutations possibles de la requête d'entrée et de reconstruire les données agrégées dans son entirety. Un grattoir serait également contraint par la sécurité des sites, compte tenu de la # de demandes / heure, la taille totale des données de l'ensemble de données résultant, et d'autres marqueurs potentiels. Une API bien développé intégrant les connaissances spécifiques de domaine serait essentiel pour assurer que l'API est assez complet pour atteindre son objectif, mais pas trop général pour retourner les grandes décharges de données brutes.

L'intégration des comptes d'utilisateurs dans le site, la mise en place des lignes de base d'utilisation pour les utilisateurs, l'identification et la limitation des utilisateurs (ou autres mesures d'atténuation des approches) qui diffèrent considérablement des schémas d'utilisation typiques, et la création d'une interface pour demander traitée / jeux de résultats digérées (vs données agrégées brutes) créeraient complexités importantes pour les individus malveillants intention de voler vos données. Il peut être impossible d'empêcher la mise au rebut des données du site Web, mais la « impossibilité » est fondée sur les données agrégées étant facilement accessibles au grattoir. Vous ne pouvez pas gratter ce que vous ne pouvez pas voir. Donc, à moins que votre données agrégées est un texte non traité brut (par exemple bibliothèque de livres électroniques) les utilisateurs finaux ne devraient pas avoir accès aux données agrégées brutes. Même dans l'exemple bibliothèque e-book, écart significatif des schémas d'utilisation acceptables tels que la demande grand nombre de livres dans leur intégralité doit être bloqué ou étranglé.

Vous pouvez détecter les utilisateurs de Tor en utilisant TorDNSEL - https://www.torproject.org /projects/tordnsel.html.en .

Vous pouvez simplement utiliser cette ligne de commande / bibliothèque - https://github.com/assafmo/IsTorExit .

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top