Tags canônicas e UTF8
-
27-09-2019 - |
Pergunta
As duas tags de link canônicas a seguir seriam vistas por aranhas como apontando para o mesmo URL?
<link rel="canonical" href="http://www.example.com/ŷ" />
- codificado
<link rel="canonical" href="http://www.example.com/ŷ" />
- não codificado
Solução
ŷ
é uma entidade HTML que representa o caractere unicode com o ponto 375 do código na notação decimal. Em hexadecimal, seria 0x177, então estamos falando sobre u+0177, o que é ŷ
.
- http://en.wikipedia.org/wiki/list_of_xml_and_html_character_entity_references
- http://inamidst.com/stuff/unidata/
- http://www.fileformat.info/info/unicode/char/0177/index.htm
Isso significa que ambos os URLs são exatamente os mesmos se:
- Eles são exibidos no contexto de um documento HTML.
- O documento declara um conjunto de caracteres adequado que suporta esse símbolo e o editor que você usou para digitá -lo inseriu o código certo.
Se o navegador exibir ŷ em ambos os casos, é provável que o conjunto de personagens esteja correto, mas você deve garantir que seja.
Outras dicas
Não tem 100% de certeza, mas acho que os dois apontariam para o mesmo URL. Mas lembre -se de que, olhando para os padrões W3, eles geralmente sugerem links a serem codificados.
Se você comunicar seu HTML como UTF-8, o URL é visto como o mesmo.
Mesmo que você possa esperar que funcione nos navegadores modernos, http://www.example.com/ŷ
é um URL inválido.
Você sempre deve codificar por codificar caracteres unicode.