Frage

Bevor jemand empfiehlt, dass ich auf diese eine Google-Suche zu tun, habe ich. Ich brauche nur ein bisschen mehr Klarheit um das, was Codepages und Kodierungen.

Wenn ich UTF8-Codierung verwenden, und verwenden Sie einen italienischen Codepage und dann eine französisch-Codepage, bedeutet die krank verschiedene Charaktere erhalten, auch wenn der Bytes geändert hat?

War es hilfreich?

Lösung

Joel hat eine schöne Übersicht über diese:
http://www.joelonsoftware.com/articles/Unicode.html

Und nein. Wenn ich Ihre Frage richtig verstanden bedeutet es nicht, dass. Wenn Sie konvertieren UTF-8 in einer bestimmten Codepage, ist es möglich, dass nur umgerechnet einige der Charaktere zu gehen. Was zu denen geschieht, die nicht bekommen, konvertiert hängt davon ab, wie Sie die Umwandlung nennen. Ein mögliches Ergebnis ist, dass die Zeichen, die nicht auf die Codepage zugeordnet werden könnten, würden umgewandelt werden, um Zeichen Zeichen in Frage stellen.

Andere Tipps

Eine Codierung ist einfach eine Abbildung zwischen numerischen Werten und „Zeichen“.

US-ASCII ordnet die Zahl 65 in die Buchstaben A, 32 in einen Raum und 49 mit der Ziffer "1". (Wie diese Dinge gemacht werden, ist eine andere Sache.) In der Tat, UTF-8 macht das gleiche! Aber es gibt auch andere Werte, die UTF-8 unterschiedlich behandelt zu ASCII. Es ist eine Codierung mit variabler Länge, das heißt ein Zeichen mit 1, 2, 3 oder 4 Bytes codiert werden kann; gemeinsame Zeichen verbrauchen im Allgemeinen weniger Bytes.

Plain Text-Dateien, einschließlich Web-Seiten, werden gespeichert und als Sequenzen von Bytes übertragen. Dieses Bytes soll etwas Text darzustellen. Software-Anwendungen (wie Texteditoren und Web-Browser) sind verantwortlich für zerreißend die Informationen innerhalb dieser Dateien auf dem Bildschirm. Normalerweise machen sie Gebrauch von Bibliothek oder OS-Funktionen.

Wenn die Software eine andere Kodierung zur Software geht davon aus, dass die Datei erstellt hat, können die falschen Zeichen angezeigt werden!

Beachten Sie, dass es möglich ist, zwischen verschiedenen Kodierungen zu konvertieren; aber wenn Sie eine Codierung konvertieren, die nicht einen bestimmten Charakter enthalten, muss die Software eine Wahl treffen, was stattdessen zu verwenden. Diese Umwandlung geschieht oft transparent (wenn Sie eine Datei mit einer bestimmten Codierung speichern, was Sie eingegeben haben muss in diese Codierung geändert werden).

UTF-8 enthält alle Zeichen aus Französisch und Italienisch-Codepage, aber die sprachspezifischen Codeseiten nicht alle jeweils anderen Zeichen beinhalten.

So Eingabe von jeder Sprache nehmen und wandelt es in UTF-8 für die Lagerung, aber man kann nicht sicher sein, dass Sie die richtigen Zeichen erhalten, wenn Sie Italienisch Eingang und zeigen sie als Französisch.

Verwenden Sie UTF-8 den ganzen Weg, wenn Sie können.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top