Domanda

(che ho visto domande simili, ma penso che nessuno di loro soddisfare le mie esigenze specifiche, quindi ...)

Vorrei sapere se c'è una libreria Java per l'analisi del mondo reale (leggi: incompleta mal formati,) HTML. Con analisi, voglio dire le cose come:

  • capire il colore più importante in un pezzo HTML
  • cambiare quel colore a un altro colore (quindi, deve supportare la modifica del HTML pure)
  • potatura i tag indesiderati
  • fissare il codice HTML al risultato in un frammento di codice HTML ben formato

Parti gli ultimi due sono fatto da librerie come Gerico, e jTidy. 'Plugins' in cima a questi sarebbe grande.

Grazie in anticipo!

È stato utile?

Soluzione

Si potrebbe voler controllare TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

Altri suggerimenti

Beh vorrei riordinare in primo luogo in XML valido, quindi utilizzando XSLT fare una copia profonda condizionale in cui vorrei fare il più-di primo piano-colore / potature / qualunque cosa di elaborazione necessaria.

Date un'occhiata a JTidy , una porta Java di HTML Tidy . Sarà, in base alle opzioni che si sceglie, fissare HTML non ben formato e il resto pulito in su.

Avrete bisogno di qualcosa di diverso per la roba cambiare colore.

Forse troverete qualcosa in questa lista (provate TagSoup, NekoHTML , VietSpider HTMLParser).

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top