Pregunta

Necesito tener una página web y extraer la información de la dirección de la página.Algunos son más fáciles que otros.Estoy buscando un plugin de firefox, aplicación de windows, o VB.NET el código que me ayude a hacer esto.

Idealmente me gustaría tener una página web en nuestro admin (ASP.NET/VB.NET) donde introducir una dirección URL y restos de la página y devuelve un conjunto de datos que puede poner en una Rejilla.

¿Fue útil?

Solución

Si usted sabe que el formato de la página (por ejemplo, si todos son como el que ashnha.com página), entonces es bastante fácil de escribir VB.NET el código que hace esto:

  1. Crear un Sistema.Net.WebRequest y la lectura de la respuesta en una cadena.
  2. A continuación, crear un Sistema.Texto.Clase regularexpressions.Regex y iterar a través de la colección de Los partidos entre eso y la cadena usted acaba de recuperar.Para cada partido, crear una nueva fila en una tabla de datos.

La dura poco es la escritura de la expresión regular, que es un poco de un arte negro.Ver regexlib.com para la carga de herramientas, libros etc sobre expresiones regulares.

Si el formato HTML no está bien definido lo suficiente para una expresión regular, entonces usted está probablemente va a tener que depender de una cierta cantidad de la intervención del usuario con el fin de identificar qué bits de la dirección...

Otros consejos

¿Qué tipo de información de la dirección se refiere?

Hay un par de plugins de FireFox Operador & Colas que permiten extraer y ver los microformatos de las páginas web.

Aza Raskin, ha hablado de reconocer cuando el texto seleccionado es una dirección en su Firefox Propuesta:Mejor Nueva Pestaña De La Pantalla.Ningún código, pero la menciono como puede ser el código en firefox para hacer esto en el futuro.

Alternativamente, usted puede mirar en el uso de la mapa de comandos en la Ubicuidad, aunque tendrías que seleccionar las direcciones de sí mismo.

Para HTML pantalla raspado en VB.NET, echa un vistazo HTML Agilidad Pack.Mucho más fácil que tratar de Regex (a menos que pasar a ser un Regex ninja ya!)

La página que usted menciona en su respuesta sería fácil de automatizar, como las direcciones están en un formato consistente.

Pero para permitir a los usuarios a cualquier punto de la página, que es mucho más difícil.Los datos podrían estar en cualquier formato a todos.Podría escribir algo para el volcado de todo el texto, supongo que cómo se dividen, tratar y reconocer bits como el país o el estado de nombres, números de teléfono, etc, y obtener, a continuación, mostrar sus resultados con una interfaz que le permite a los usuarios completar las secciones que falten, mover los divisores, e identificar los bits que se perdió o no querían.

No es simple, sin embargo, y haciendo una interfaz que proporciona una gran ventaja con respecto a simplemente cortar y pegar en validan los campos del formulario sería todo un logro, creo yo - me interesaría saber como le va!

EDITAR:Acabo de notar esta otra pregunta que podría cubrir un poco de lo que quieres hacer:Analizar utilizable Dirección de la Calle, Ciudad, Estado, código Postal a partir de una cadena

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top