Domanda

Sto cercando di eseguire l'analisi XHTML DOM con JTidy e sembra un compito piuttosto controintuitivo. In particolare, esiste un metodo per analizzare HTML:

Node Tidy.parse(Reader, Writer)

E per ottenere il < body / > di quel nodo, suppongo, dovrei usare

Node Node.findBody(TagTable)

Dove devo trovare un'istanza di quella TagTable? (Il costruttore è protetto e non ho trovato una fabbrica per produrlo.)

Uso JTidy 8.0-SNAPSHOT.

È stato utile?

Soluzione

Ho scoperto che esiste un molto metodo più semplice per estrarre il corpo:

tidy = new Tidy();
tidy.setXHTML(true);
tidy.setPrintBodyOnly(true);

E poi usa l'ordine sulla coppia Reader-Writer.

Semplice come dovrebbe essere.

Altri suggerimenti

Puoi usare invece il metodo parseDOM , che ti darebbe un org.w3c.dom.Document indietro:

Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top