Pregunta

Sólo quiero saber cuál es su opinión acerca de cómo tomar las huellas dactilares / verificar estructura HTML / enlaces.

El problema que quiero resolver es: huella digital, por ejemplo, 10 sitios diferentes, páginas html. Y después de algún tiempo yo quiero tener la posibilidad de verificarlas, por lo que es, si el sitio se ha cambiado, enlaces cambian, la verificación falla, el éxito de verificación othervise. Mi idea de base es analizar la estructura de enlaces mediante el fraccionamiento de alguna manera, haciendo una especie de árbol, ya partir de ese árbol de generar algún tipo de código. Pero todavía estoy en la etapa de lluvia de ideas, donde tengo que hablar de esto con alguien, y conocer otras ideas.

Así que cualquier idea, algos y sugerencias sería muy útil.

¿Fue útil?

Solución

Cualquiera que sea la estructura de datos o tiene la intención de hachís, resumir y huella digital de lo contrario, asegúrese de dar cuenta de las diversas formas de ruido en muchos de los sitios web "fuera de allí".

ejemplo de tal ruido o contenido aleatorio son:

  • valor de cotización bursátil de la empresa
  • Estado del tiempo en cualquier lugar de la ciudad que son
  • varias páginas tienen una corriente (ahora) fecha y hora en algún lugar de pies de página o encabezados
  • contenido de Publicidad (cada vez más estos se hacen para buscar indígena al sitio para derrotar a los bloqueadores de anuncios en los navegadores web)

Otros consejos

Siempre se puede desmenuzar el HTML puro del sitio y compararlo. Creo que los sitios pueden mantener un "último editado" fecha, pero no estoy seguro si esto está siempre actualizado.

Editar:. Mi error, esto es simplemente una manera de comparar la página web a una versión anterior, pero no realmente huella digital en la forma en que quiere decir

Simplemente tirar esto hacia fuera allí:

¿Por qué no rastrear el sitio, poner todos los enlaces en un documento XML que representaría el mapa del sitio.

Crea una suma de comprobación MD5 en ese archivo y almacenarlo. Entonces, en cualquier momento en el futuro se podría volver a rastrear, vuelva a crear el XML, rehacer la suma de comprobación y compararlo con su suma de control anterior.

Si no coinciden, la estructura de enlaces ha cambiado -. Aunque no necesariamente saber dónde

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top