Вопрос

У меня есть вопрос кодирования, и я хотел бы попросить о помощи. Я заметил, что если я выберу «UTF-8» в качестве кодирования, есть (по крайней мере) две двойные цитаты " а также . Анкет Но когда я выбираю «ISO-8859-1» в качестве кодирования, я вижу, что последняя двойная цитата становится ¡°, или иногда, например “.

Может ли кто -нибудь объяснить, почему это так? Как может соответствовать и замените его на " Использование REGEXP в Perl?

Большое спасибо.

Это было полезно?

Решение

ISO-8859-1-это кодирование с одним байтом на характер. Причудливые двойные цитаты Unicode не находятся в наборе символов ISO-8859-1. Так что вы видите, это мульти-байтовый символ, представленный как последовательность байтов ISO-8859-1.

Чтобы соответствовать этим странным вещам, увидеть Perlunicode Человеческая страница, особенно x {...} и n {...} Escape.

Чтобы ответить на ваш вопрос, попробуйте x {201c}, чтобы соответствовать левой двойной катировочной марке Unicode и x {201d}, чтобы соответствовать правой двойной оценке. Вы пропустили последнее в своем вопросе :-).

Обновить

Я должен был предоставить свою ссылку ... какой -то хороший джентльмен в Великобритании имеет страницу на Ascii и кавычки Unicode. Анкет Простая ванильная ASCII/ISO-8859-1 Двойной категории только что называется кавычками.

Другие советы

Может быть, это Old post поможет..

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top