Domanda

Data una pagina HTML che è un pesante articolo di testo, vorrei identificare ed analizzare il contenuto principale.

Utilizzo di http: //www.fivethirtyeight. com / 2009/08 / chavismo-obama-and-monroe-doctrine.html come esempio, desidero identificare div # post-4438372351887392855, che contiene il titolo e l'articolo.

So che nulla può essere perfetto o funzionare il 100% delle volte, ma esiste un approccio che può darmi il risultato desiderato in un numero ragionevole di circostanze?

Il mio pensiero attuale è quello di scorrere ogni div, rimuovendo il markup, quindi trovando il div più interno che contiene la maggior parte del testo.

A questo punto, ho appena iniziato, quindi alla ricerca di input che posso mettere in un approccio concettuale. Oppure, se c'è qualcosa là fuori, una libreria open source sarebbe carina.

Grazie in anticipo per gli approfondimenti.

È stato utile?

Soluzione

Alcune persone di arc90 hanno fatto un lavoro davvero impressionante con questo con il loro bookmarklet di leggibilità . Sembra fare un ottimo lavoro nel trovare il contenuto "principale": funziona perfettamente sulla pagina che elenchi.
Puoi guardare il loro javascript ben commentato (collegato al bookmarklet), ma potresti voler contattare gli sviluppatori per le loro idee e il permesso di usarli.

Altri suggerimenti

L'elenco compilato più completo di risorse per l'estrazione del contenuto primario sono:

  1. Estrazione del testo dell'articolo da documenti html
  2. Elenco delle risorse: articolo estrazione di testo da documenti html

Guarda anche i commenti poiché ci sono suggerimenti extra.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top