Domanda

Ho bisogno di prendere una pagina web ed estrarre le informazioni di indirizzo della pagina.Alcuni sono più facili di altri.Sto cercando un plugin per firefox, windows app, o VB.NET il codice che mi aiuteranno a ottenere questo fatto.

Idealmente mi piacerebbe avere una pagina web sul nostro admin (ASP.NET/VB.NET), dove si immette un URL e scarti di pagina e restituisce un Dataset che posso mettere in una Griglia.

È stato utile?

Soluzione

Se si conosce il formato della pagina (per esempio, se sono tutti come quello ashnha.com pagina), quindi è abbastanza facile da scrivere VB.NET codice che fa questo:

  1. Creare un Sistema.Net.WebRequest e leggere la risposta in una stringa.
  2. Quindi creare un Sistema.Di testo.RegularExpressions.Regex e iterare la collezione di Le partite tra quella e la stringa appena recuperati.Per ogni partita, creare una nuova riga in una DataTable.

Il duro bit è scrivere l'espressione regolare, che è un po ' di magia nera.Vedere regexlib.com per i carichi di strumenti, libri, etc su espressioni regolari.

Se il formato HTML non è ben definito, abbastanza per una regex, allora probabilmente stai andando ad avere a che fare affidamento su una certa quantità di intervento da parte dell'utente, al fine di identificare quali bit sono gli indirizzi...

Altri suggerimenti

Che tipo di informazioni di indirizzo si riferisce?

Ci sono un paio di plugin di FireFox Operatore & Code che consentono di estrarre e visualizzare i microformati da pagine web.

Aza Raskin ha parlato di riconoscere quando il testo selezionato è un indirizzo nel suo Firefox Proposta:Meglio La Nuova Scheda Schermo.Nessun codice di sicurezza, ma dico come ci può essere il codice di firefox per fare questo in futuro.

In alternativa, si potrebbe guardare utilizzando il mappa comando Ubiquità, anche se è necessario selezionare gli indirizzi di te.

Generale per l'HTML screen scraping in VB.NET, check-out HTML Agilità Pack.Molto più facile che cercare di Regex (a meno che non vi capita di essere una Regex ninja già!)

La pagina che hai citato nella tua risposta sarebbe facile da automatizzare, come gli indirizzi sono in un formato coerente.

Ma per consentire agli utenti di scegliere una qualsiasi pagina, che è molto più difficile del lavoro.I dati potrebbero essere in qualsiasi formato, a tutti.Si potrebbe scrivere qualcosa di scaricare tutto il testo, indovinate come sono divisi, cercare e riconoscere i bit come paese e stato di nomi, numeri di telefono, ecc, e di ottenere poi mostrare i risultati con un'interfaccia che consente agli utenti di completamento dei tratti mancanti, spostare i divisori, e identificare i bit hai perso o non hanno voluto.

Non è semplice, però, e la creazione di un'interfaccia che fornisce un grande vantaggio rispetto a un semplice copia e incolla in convalidato campi del modulo sarebbe un bel risultato, credo - sarei interessato a sapere come si ottiene!

EDIT:Appena notato quest'altra domanda che potrebbe coprire un po ' di quello che vuoi fare:Analizzare utilizzabile Indirizzo, Città, Stato, Zip da una stringa

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top