Question

Avant que quiconque ne recommande que je fasse une recherche sur Google à ce sujet, je l’ai. J'ai juste besoin d'un peu plus de clarté sur les pages de code et les codages.

Si j'utilise le codage UTF8 et une page de code italienne, puis une page de code française, cela signifie-t-il que les caractères seront différents même si les octets n'ont pas changé?

Était-ce utile?

La solution

Joel en a un bon résumé:
http://www.joelonsoftware.com/articles/Unicode.html

Et non. si je comprends bien votre question, cela ne veut pas dire cela. Lorsque vous convertissez UTF-8 en une page de code spécifique, il est possible que seuls certains caractères soient convertis. Ce qui arrive à ceux qui ne sont pas convertis dépend de la façon dont vous appelez la conversion. Un résultat possible est que les caractères qui ne pouvaient pas être mappés à la page de code seraient convertis en caractères de point d'interrogation.

Autres conseils

Un encodage est simplement un mappage entre des valeurs numériques et des "caractères".

US-ASCII mappe le nombre 65 à la lettre A, 32 à un espace et 49 au chiffre "1". (La façon dont ces choses sont rendues est une autre affaire.) En fait, UTF-8 fait la même chose! Mais il existe d'autres valeurs que UTF-8 traite différemment de l'ASCII. Il s’agit d’un codage de longueur variable, c’est-à-dire qu’un caractère peut être codé avec 1, 2, 3 ou 4 octets; les caractères communs consomment généralement moins d'octets.

Les fichiers de texte brut, y compris les pages Web, sont stockés et transmis sous forme de séquences d'octets. Ces octets sont supposés représenter quelque chose de textuel. Les applications logicielles (telles que les éditeurs de texte et les navigateurs Web) sont responsables de la restitution des informations contenues dans ces fichiers à l'écran. Ils utilisent généralement des fonctions de bibliothèque ou de système d’exploitation.

Si le logiciel suppose un codage différent de celui qui a créé le fichier, les caractères incorrects risquent de s'afficher!

Notez qu'il est possible de convertir entre différents encodages. Toutefois, si vous convertissez en un codage ne contenant pas un certain caractère, le logiciel doit choisir ce qu'il doit utiliser. Cette conversion se produit souvent de manière transparente (lorsque vous enregistrez un fichier avec un certain encodage, tout ce que vous avez tapé doit être remplacé par cet encodage).

UTF-8 inclut tous les caractères de votre page de codes française et italienne, mais les pages de codes spécifiques à une langue n'incluent pas tous les caractères les uns des autres.

Vous pouvez donc saisir les entrées de chaque langue et les convertir au format UTF-8 pour le stockage, mais vous ne pouvez pas être certain que vous obtiendrez les bons caractères si vous saisissez l'italien et le présentez en français.

Utilisez UTF-8 jusqu'au bout si vous le pouvez.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top