Domanda

Dato una pagina HTML Mi piacerebbe avere tutti i file 'x' che sono incorporati nel file HTML o collegati da esso, dove 'x' è uguale a:

  • Immagini (JPG, PNG, GIF ...)
  • Documenti (Word, PowerPoint, PDF ...)
  • Flash (.flv, .swf)

Come posso fare questo?

  1. Così le immagini sono facili da estrarre, perché sono entrambi legati a con un link che termina in un (.png | jpg | ....) oppure sono integrati con un tag img.
  2. I documenti non possono essere incorporati, che può essere collegato solo a (con un link che termina in un .doc | .ppt | .pdf | ...). Così essi sono anche facili da ottenere.

Ecco il mio problema:

Come faccio ad avere i file flash che sono incorporati nelle pagine web?

Per favore mi dia una pseudo-algoritmo o un'espressione regolare.

Se mi sbaglio nei miei punti di cui sopra (1. e 2.) la prego di dirmi in modo troppo.

Grazie!

È stato utile?

Soluzione

L'estensione per Firefox DownThemAll consente di fare clic destro una pagina e scaricare tutti i mezzi di comunicazione di un determinato estensione. E 'open source, quindi si potrebbe desiderare di guardare il loro codice e vedere come hanno implementato esso.

Altri suggerimenti

mi piacerebbe utilizzare un parser XML basato sugli eventi (come SAX) e scrivere le regole per i tag e per ottenere gli attributi src e href.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top