Perl - Read File с помощью метода кодирования?
Вопрос
Я не слишком хорош, когда дело доходит до кодирования, и я хочу выяснить, как вернуть данные в качестве той же кодирования, что началось с ...
У меня есть файл с некоторыми символами в таких как '»'
К тому времени, когда я отредактировал и вставил в базу данных, они превратились в ».
decode_entities () ничего не делает, и Encode_entities снова кодирует ChARS. Поэтому я создал свой собственный подвод, чтобы исправить это, но она обоптает, что при получении данных из файла они не получают в правильном формате.
my $file = "c:/perlscripts/" . md5_hex($md5Con) . "-code.php";
{
local( $/ ); # undefine the record seperator
open FILE, "<", $file or die "Cannot open:$!\n";
my $fileContents = unicodeConvert(<FILE>);
...
..
нет ли такого варианта кодирования, как;
my $file = "c:/perlscripts/" . md5_hex($md5Con) . "-code.php";
{
local( $/ ); # undefine the record seperator
open FILE, "<", $file or die "Cannot open:$!\n", "UTF-8";
my $fileContents = unicodeConvert(<FILE>);
...
..
И мой сабвуфель;
sub unicodeConvert($) {
my $str = shift;
my %entityRef = ("&" => "&", '¢' => "¢", '¤' => "¤", '¦' => "¦", '¨' => "¨", 'ª' => "ª", '¬' => "¬", '®' => "®", '°' => "°", '²' => "²", '´' => "´", '¶' => "¶", '¸' => "¸", 'º' => "º", '¼' => "¼", '¾' => "¾", 'À' => "À", 'Â' => "Â", 'Ä' => "Ä", 'Æ' => "Æ", 'È' => "È", 'Ê' => "Ê", 'Ì' => "Ì", 'Î' => "Î", 'Ð' => "Ð", 'Ò' => "Ò", 'Ô' => "Ô", 'Ö' => "Ö", 'Ø' => "Ø", 'Ú' => "Ú", 'Ü' => "Ü", 'Þ' => "Þ", 'à' => "à", 'â' => "â", 'ä' => "ä", 'æ' => "æ", 'è' => "è", 'ê' => "ê", 'ì' => "ì", 'î' => "î", 'ð' => "ð", 'ò' => "ò", 'ô' => "ô", 'ö' => "ö", 'ø' => "ø", 'ú' => "ú", 'ü' => "ü", 'þ' => "þ", '¡' => "¡", '£' => "£", '¥' => "¥", '§' => "§", '©' => "©", '«' => "«", '¯' => "¯", '±' => "±", '³' => "³", 'µ' => "µ", '·' => "·", '¹' => "¹", '»' => "»", '½' => "½", '¿' => "¿", 'Á' => "Á", 'Ã' => "Ã", 'Å' => "Å", 'Ç' => "Ç", 'É' => "É", 'Ë' => "Ë", 'Í' => "Í", 'Ï' => "Ï", 'Ñ' => "Ñ", 'Ó' => "Ó", 'Õ' => "Õ", '×' => "×", 'Ù' => "Ù", 'Û' => "Û", 'Ý' => "Ý", 'ß' => "ß", 'á' => "á", 'ã' => "ã", 'å' => "å", 'ç' => "ç", 'é' => "é", 'ë' => "ë", 'í' => "í", 'ï' => "ï", 'ñ' => "ñ", 'ó' => "ó", 'õ' => "õ", '÷' => "÷", 'ù' => "ù", 'û' => "û", 'ý' => "ý", 'ÿ' => "ÿ");
while( ( my $key, my $obj ) = each( %entityRef ) ) {
if( $key ne '&' ) {
$str =~ s/$key/$obj/gis
} else {
$str =~ s#&((?!(quot;)|(amp;)|(cent;)|(curren;)|(brvbar;)|(uml;)|(ordf;)|(not;)|(reg;)|(deg;)|(sup2;)|(acute;)|(para;)|(cedil;)|(ordm;)|(frac14;)|(frac34;)|(Agrave;)|(Acirc;)|(Auml;)|(AElig;)|(Egrave;)|(Ecirc;)|(Igrave;)|(Icirc;)|(ETH;)|(Ograve;)|(Ocirc;)|(Ouml;)|(Oslash;)|(Uacute;)|(Uuml;)|(THORN;)|(agrave;)|(acirc;)|(auml;)|(aelig;)|(egrave;)|(ecirc;)|(igrave;)|(icirc;)|(eth;)|(ograve;)|(ocirc;)|(ouml;)|(oslash;)|(uacute;)|(uuml;)|(thorn;)|(iexcl;)|(pound;)|(yen;)|(sect;)|(copy;)|(laquo;)|(macr;)|(plusmn;)|(sup3;)|(micro;)|(middot;)|(sup1;)|(raquo;)|(frac12;)|(iquest;)|(Aacute;)|(Atilde;)|(Aring;)|(Ccedil;)|(Eacute;)|(Euml;)|(Iacute;)|(Iuml;)|(Ntilde;)|(Oacute;)|(Otilde;)|(times;)|(Ugrave;)|(Ucirc;)|(Yacute;)|(szlig;)|(aacute;)|(atilde;)|(aring;)|(ccedil;)|(eacute;)|(euml;)|(iacute;)|(iuml;)|(ntilde;)|(oacute;)|(otilde;)|(divide;)|(ugrave;)|(ucirc;)|(yacute;)|(yuml;)|(nbsp;)))#$obj#gis;
}
}
return $str;
}
Решение
Как отмечалось в комментарии по вашему вопросу, я не уверен, что именно вы спрашиваете.
Так что я предполагаю, что вы пытаетесь преобразовать символы Unicode в HTML -сущности. В этом случае использование одного из готовых модулей должно быть лучше. Если это не работает из -за проблем кодирования (которые довольно сложно в Perl), то ответ на ваш вопрос:
Нет ли такого варианта кодирования, как
open FILE, "<", $file or die "Cannot open:$!\n", "UTF-8";
... вероятно, решит это, и это, вероятно, также сделает вашу собственную попытку работать, но лучше использовать готовый ;-) (кстати, то, как вы его написали, в качестве «UTF-8 "Вариант на die
Что затрудняло понять, о чем вы спрашивали ;-)
Да, есть вариант UTF-8, при условии, что у вас есть недавний perl
(> = v5.8):
open(my $fh,'<:encoding(UTF-8)', $file) or die "Error opening $file: $!";
(пример адаптирован из Perluniintro)
Вы также можете использовать binmode
Чтобы изменить уже открытый файл (например, stdin/out).
binmode(STDOUT, ":encoding(UTF-8)");
Вы также можете установить кодирование по умолчанию с открытым Прагма.
Но для этого я предлагаю попытаться binmode
или изменить вашу открытую линию, чтобы увидеть, решает ли это.
Если у тебя есть perl
Меньше v5.8, все сложнее, но, возможно, разрешается, если вы сообщите нам версию.
Кстати, пара других вещей:
- Не обязательно, но считается, что лучше использовать лексическую атмосферу FileHandle (
my $fh
вместоFILE
). - Когда вы поставите новую линию на
die
Строка, он подавляет информацию о номере строки, которая обычно добавляется, чтобы помочь вам найти проблему. - Если вы поместите имя файла, который не может быть открыт (или SQL, который не удался, или что -то еще) в сообщение Die будет проще отладить.
- Не используйте субтотипы в Perl (5) : (
sub unicodeConvert($)
) Не ставит$
/@
/%
и т.д. там. Это не просто проверяет вещи, это может изменить смысл в запутанных способах. Это необходимо только для создания новых операторов «встроенного стиля».
Другие советы
Я подозреваю, что вы разница в Charsets вашего терминала (который может быть UTF-8) и исходный код вашего сценария PERL (который вы, возможно, редактируете в каком-то редакторе AHRETE-AWARE в 8859-1). Если вы уверены, что ваш терминал и ваш исходный код находятся в одном и том же Charset, попробуйте поместить use utf8;
к заголовку сценария (см. Человек Перлуникод) Если это не помогает, попробуйте распечатать данные, которые хранятся в вашей базе данных (увеличение журнала отладки для DBI) (возможно, неправдообразно, поскольку вы не храните данные как UTF8). Как правило, старайтесь предоставить:
- Кодекс вашего терминала (
locale
) Если вы выполняете свой скрипт для терминала (или локали системы, который используется вашим сервером, если вы запустите его из EG Apache) - Charset вашего исходного кода.
- MySQL Connection Codepage (вы выпускаете
SET NAMES 'utf8'
?)
Также для кодирования HTML вы можете найти легче в повторном использовании HTML::Entities::decode()
/ HTML::Entities::encode()
вместо того, чтобы реализовать это самостоятельно.