Frage

Ich versuche, eine Webseite zu analysieren, aber wenn ich ein Text auf der Seite abrufen möchte.Jsoup bekommt mir ein falsches Dokument, wenn ich jsoup.parse () und jsoup.connect () nenne. GET () -Methoden.

Dies ist ein Stück der Webseite und mein Code.Der doc var hat einen falschen dom.

generasacodicetagpre.

Das DOC1-Variablenergebnis ist:

generasacodicetagpre.

Hat ich etwas falsch gemacht?

War es hilfreich?

Lösung

Wenn Sie die - und -Tags beziehen, die nur jsoup Ihr Fragment in der Hülle eines ordnungsgemäßen Dokuments umwickelt.

Ihr Start XML jedoch:

generasacodicetagpre.

enthält verschachtelte

-Elemente - das ist nicht gültiges HTML & Jsoup wird es für Sie beheben.Verschachtelungsabschnitte wird ausführlich erläutert hier - kurz - sie sind automatisch geschlossen, was dazu führt, dass Ihr Dom von dem, was Sie erwartet haben.

Erwägen Sie das Umwandeln des äußeren

in eine und Sie sollten in Ordnung sein.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top