Analizzare i file multimediali da una pagina HTML (qualsiasi lingua)
-
12-09-2019 - |
Domanda
Dato una pagina HTML Mi piacerebbe avere tutti i file 'x' che sono incorporati nel file HTML o collegati da esso, dove 'x' è uguale a:
- Immagini (JPG, PNG, GIF ...)
- Documenti (Word, PowerPoint, PDF ...)
- Flash (.flv, .swf)
Come posso fare questo?
- Così le immagini sono facili da estrarre, perché sono entrambi legati a con un link che termina in un (.png | jpg | ....) oppure sono integrati con un tag img.
- I documenti non possono essere incorporati, che può essere collegato solo a (con un link che termina in un .doc | .ppt | .pdf | ...). Così essi sono anche facili da ottenere.
Ecco il mio problema:
Come faccio ad avere i file flash che sono incorporati nelle pagine web?
Per favore mi dia una pseudo-algoritmo o un'espressione regolare.
Se mi sbaglio nei miei punti di cui sopra (1. e 2.) la prego di dirmi in modo troppo.
Grazie!
Soluzione
L'estensione per Firefox DownThemAll consente di fare clic destro una pagina e scaricare tutti i mezzi di comunicazione di un determinato estensione. E 'open source, quindi si potrebbe desiderare di guardare il loro codice e vedere come hanno implementato esso.
Altri suggerimenti
mi piacerebbe utilizzare un parser XML basato sugli eventi (come SAX) e scrivere le regole per i tag e per ottenere gli attributi src e href.