Pregunta

Si estoy creando un simple raspador de web (URL desde la raíz, agarrar todos los enlaces, a continuación, a partir de esos enlaces agarrar todos los correos electrónicos) sería la pena utilizar HTML agilidad Pack? No estoy realmente mirando a través de las etiquetas HTML, simplemente estoy buscando para escanear los correos electrónicos dentro de todo el documento.

¿Sería más eficiente de usar paquete de agilidad HTML?

Los estoy Decapado estrictamente porque es necesario tengo estos mensajes de correo electrónico, y hay alrededor de 100 enlaces. Se rasparon sólo alrededor de 500 correos electrónicos. No se preocupe, me quedo con la ética en cuenta aquí.

¿Fue útil?

Solución

Hay muchas preguntas sobre lo que alrededor de esto - la mayoría de los que he leído dicen -. No utilice expresiones regulares para el desguace web

Por otro lado - si lo que quieres es de análisis de texto, independientemente de la naturaleza del HTML del texto (que puede hacer si he entendido bien), puede ser mejor usar expresiones regulares

.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top