Pergunta

Em webspiders / crawlers como posso obter o real inicial tamanho processado da fonte um usuário vê em um documento HTML, manter CSS em mente.

Foi útil?

Solução

tamanho do texto prestados? Um usuário pode alterar o tamanho do texto à vontade usando seus / configurações seus navegadores. Sem mencionar que diferentes navegadores processar o mesmo conteúdo de forma ligeiramente diferente.

Outras dicas

Se você estiver satisfeito com a resposta sendo para o 'default', sem vista personalização do usuário para esta finalidade (o que parece provável), eu acredito que você está olhando para um cenário bastante dolorosa:

  • Integrar um motor de renderização com CSS apoiar em sua aranha. prefere o usar de um motor que mais se de seus usuários, ou, alternativamente, o uso todos os três motores comuns e loja a informação para todos eles. o facilidade de incorporar varia muito em sua tecnologia de consumo.

  • Coloque o URI a ser spidered no motor de renderização (s).

  • Usando a API do motor, consulta é métricas de fonte para um elemento contendo o que você considera texto representativo (escolhendo este é um exercício para o qual eu não vou nem começar a prever uma estratégia). Como você acessar esta dependerá inteiramente o cenário de incorporação para o seu motor.

Espero que este é o 'caminho difícil', mas não tenho certeza há uma maneira 'fácil'.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top