Quelqu'un a-t-il déjà essayé de filtrer des données de scrap sur des sites construits avec SharePoint?

StackOverflow https://stackoverflow.com/questions/1803991

  •  05-07-2019
  •  | 
  •  

Question

Ou du moins, est-ce que quelqu'un pourrait m'indiquer des docs à propos de ses paramètres d'URL propriétaires fous et de l'obscurcissement du nom de champ html? Je ne peux que supposer que cela est causé par SharePoint ...

Le problème principal est qu'avec une page de démarrage créée avec SharePoint, je ne peux pas recréer une publication de formulaire avec un client programmatif, car:

  • les noms de champs varient, ils sont ajoutés avec une sorte d’identifiant, hash, peu importe (je pense que session.wise? Pas sûr)
  • traçant le trafic HTTP de mon côté, je constate que la requête HTTP est remplie de paramètres étranges tels que __ REQUESTDIGEST , __ VIEWSTATE et de nombreux autres

S'agit-il d'un dispositif de protection intentionnelle mis en place par SharePoint? Quelle est l'architecture sous-jacente et quels objets sont impliqués (callbacks de script, ...)?

(En passant, je ne fais rien de mal, j'essaie simplement d'extraire des données gouvernementales publiques d'un site Web).

Merci.

Était-ce utile?

La solution

SharePoint n’est rien de plus qu’une application ASP.NET, SharePoint complètement construit sur ASP.NET 2.0. Cela dit, __ VIEWSTATE n'est rien d'autre qu'un champ masqué dont le Afficher l'état Informations

En ce qui concerne __ REQUESTDIGEST , il s'agit d'une protection intentionnelle. Elle comporte en quelque sorte validation de securito appelée FormDigest

Enfin, pour répondre à votre question, vous ne pourrez deviner les champs et les fichiers que si vous avez le contrôle pour modifier le code source de l'application. La raison pour laquelle le nom des champs ressemble à obscurci est que ces contrôles ne sont pas manuscrits mais générés par le code du moteur ASP.NET et de l'analyseur. Le champ Reason ayant un tel nom appelé Conteneur de dénomination

Une suggestion que je dirais est que, plutôt que d'essayer de supprimer les données d'écran, vous pouvez essayer d'autres approches, comme si chacune des listes de SharePoint comportait un flux XML incorporé, essayez de les consommer, si vous avez accès à sur le site, essayez de récupérer les informations en utilisant export pour exceller, etc.

Autres conseils

En plus du RSS, SharePoint possède également une interface de services Web que vous pouvez utiliser pour accéder aux données stockées dans SharePoint et interagir avec elles de manière programmatique.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top