Pregunta

En webpiders / crawlers, ¿cómo puedo obtener el tamaño real inicial de la fuente que un usuario ve en un documento HTML, teniendo en cuenta CSS.

¿Fue útil?

Solución

¿Tamaño de texto representado? Un usuario puede cambiar el tamaño del texto a voluntad utilizando la configuración de su navegador. Sin mencionar que diferentes navegadores procesan el mismo contenido de forma ligeramente diferente.

Otros consejos

Si está satisfecho con la respuesta para el 'valor predeterminado', no hay vista de personalización del usuario para este propósito (lo que parece probable), creo que está viendo un escenario bastante doloroso:

  • Incrustar un motor de renderizado con CSS apoyo en tu araña. Prefiero el uso de un motor que coincida con la mayoría de sus usuarios, o alternativamente usan los tres motores comunes y tienda la información para todos ellos los la facilidad de incrustación varía ampliamente en Su tecnología de consumo.

  • Cargue el URI que se está arañando en el motor (es) de representación.

  • Usando la API del motor, consulta métricas de fuente para un elemento que contiene lo que consideras texto representativo (elegir esto es un ejercicio para el cual ni siquiera comenzar a predecir una estrategia). Como tu acceder a esto dependerá por completo de el escenario de incrustación para su motor.

Espero que este sea el "camino difícil", pero no estoy seguro de que haya un camino "fácil".

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top