Perché jsoup analizza il mio codice HTML?
-
13-12-2019 - |
Domanda
Sto cercando di analizzare una pagina Web, ma quando voglio ottenere un pezzo di testo nella pagina.JSOUP mi prende un documento sbagliato quando chiamo Jsoup.Parsese () e Jsoup.Connect (). Get () Metodi.
Questo è un pezzo della pagina web e il mio codice.Il DOC VAR ha un DOM sbagliato.
Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href=\"http://www.twanight.org/newTWAN/index.asp\" target=\"_blank\">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría \"Belleza del Cielo Nocturno\".</p></p>");
String summary = doc1.select("p.texto p").text();
.
Il risultato della variabile DOC1 è:
<html>
<head></head>
<body>
<p class="texto"></p>
<p>El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href="http://www.twanight.org/newTWAN/index.asp" target="_blank">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría "Belleza del Cielo Nocturno".</p>
<p></p>
</body>
</html>
.
Ho fatto qualcosa di sbagliato?
Soluzione
Se si sta facendo riferimento ai tag e che è solo jsoup che avvolge il frammento all'interno della shell di un documento corretto.
Il tuo XML di avvio comunque:
<p class="texto">
<p>
El concurso fotográfico internacional <em>Earth and Sky Photo Contest</em> ya tiene <a href="http://www.twanight.org/newTWAN/index.asp" target="_blank">ganadores</a> en su tercera edición. Bajo el tema “La Importancia del cielo oscuro”, las fotos galardonadas este año son aquellas que mejor transmiten la belleza de un cielo estrellado y el problema de la contaminación lumínica. Como recuerdan los organizadores, hoy día el exceso de luz artificial en las ciudades hace que las estrellas desaparezcan del cielo urbano. Esta foto del cometa Lovejoy sobre Australia, de Jia Hao, se hizo con el primer premio en la categoría "Belleza del Cielo Nocturno".
</p>
</p>
.
contiene annidato
elementi - questo non HTML valido e JSOUP valido lo risolverà per te.I paragrafi nidificanti sono spiegati in dettaglio qui - In breve - sono automaticamente chiusi, causando il tuo DOM differisci da ciò che ti aspettavi.
Considerare la conversione dell'esterno
in un e dovresti stare bene.