Question

Je sais qu'il est impossible d'empêcher les gens de voler nos données, mais j'ai une grande base de données et je veux au moins empêcher les scripts automatisés de voler ma base de données.

Mes idées à ce jour:

  • utiliser JavaScript ou HTML encode = lourd et pourrait facilement être décodés
  • recaptcha pour la recherche = aucun moyen, les utilisateurs vont tout simplement quitter mon site web
  • insérer des données aléatoires et des balises dans le site HTML pour éviter rip regex = bon?

Toutes les idées sont appréciés.

Était-ce utile?

La solution

Je pense que Alexa insère des balises aléatoires dans le balisage, et il m'a donné un mal fou quand j'ai essayé de la mienne ... ils ont mis des balises supplémentaires dans le classement Alexa, comme <span class="a5r">35</span><span class="et4">52</span><span class="arer">16</span> et à moins que vous avez téléchargé la feuille de style aussi, et examiné les règles de rendu, on ne pouvait pas comprendre ce chiffre qui était censé être.

Mais ... si j'étais assez patient, je aurais pu « rendu » les chiffres, puis extrait, mais il était tout simplement pas la peine pour moi. Limiter les demandes de page à un montant humainement possible serait probablement bien fonctionner (50 / min ou quelque chose).

Autres conseils

Pourquoi les gens veulent voler votre base de données? Pourquoi est-ce important s'ils le font? Would leur demandant de ne pas être suffisant?

Faites votre politique claire et assurez-vous que votre entreprise de service juridique ont vérifié le libellé. Décourager syndication non autorisée en faisant clairement comprendre qu'il ne soit pas permis et que vous prendre des mesures juridiques pour l'empêcher.

Ou mieux encore, encourager la syndication autorisée. Les gens ne réalisent la syndication non autorisée s'il n'y a aucun moyen raisonnable pour eux de le faire d'une manière autorisée.

Mesures techniques pourraient avoir un certain effet, mais il ne dissuader ceux qui ne sont pas particulièrement compétent ou déterminée.

Aucune de ces solutions que vous proposez fonctionnerait. Un écrivain bon script pourrait facilement contourner ceux-ci. Mais, il y a une solution technique à ce sur le côté du serveur d'applications: mettre en œuvre une limite de vitesse. Autoriser seulement une recherche à partir d'une adresse IP donnée une fois, disons, 10 secondes. Cela rendra automatisé l'extraction de données à partir de votre site très lent.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top