кодирование вопроса в Perl
Вопрос
У меня есть вопрос кодирования, и я хотел бы попросить о помощи. Я заметил, что если я выберу «UTF-8» в качестве кодирования, есть (по крайней мере) две двойные цитаты "
а также “
. Анкет Но когда я выбираю «ISO-8859-1» в качестве кодирования, я вижу, что последняя двойная цитата становится ¡°
, или иногда, например “
.
Может ли кто -нибудь объяснить, почему это так? Как может соответствовать “
и замените его на "
Использование REGEXP в Perl?
Большое спасибо.
Решение
ISO-8859-1-это кодирование с одним байтом на характер. Причудливые двойные цитаты Unicode не находятся в наборе символов ISO-8859-1. Так что вы видите, это мульти-байтовый символ, представленный как последовательность байтов ISO-8859-1.
Чтобы соответствовать этим странным вещам, увидеть Perlunicode Человеческая страница, особенно x {...} и n {...} Escape.
Чтобы ответить на ваш вопрос, попробуйте x {201c}, чтобы соответствовать левой двойной катировочной марке Unicode и x {201d}, чтобы соответствовать правой двойной оценке. Вы пропустили последнее в своем вопросе :-).
Обновить
Я должен был предоставить свою ссылку ... какой -то хороший джентльмен в Великобритании имеет страницу на Ascii и кавычки Unicode. Анкет Простая ванильная ASCII/ISO-8859-1 Двойной категории только что называется кавычками.
Другие советы
Может быть, это Old post
поможет..