Синтаксический анализ CSV-файла с помощью gawk
Вопрос
Как вы анализируете CSV-файл с помощью gawk?Простая настройка FS=","
этого недостаточно, так как поле, заключенное в кавычки с запятой внутри, будет обрабатываться как несколько полей.
Пример использования FS=","
который не работает:
содержимое файла:
one,two,"three, four",five
"six, seven",eight,"nine"
сценарий gawk:
BEGIN { FS="," }
{
for (i=1; i<=NF; i++) printf "field #%d: %s\n", i, $(i)
printf "---------------------------\n"
}
плохой результат:
field #1: one
field #2: two
field #3: "three
field #4: four"
field #5: five
---------------------------
field #1: "six
field #2: seven"
field #3: eight
field #4: "nine"
---------------------------
желаемый результат:
field #1: one
field #2: two
field #3: "three, four"
field #4: five
---------------------------
field #1: "six, seven"
field #2: eight
field #3: "nine"
---------------------------
Решение
Краткий ответ: «Я бы не использовал gawk для анализа CSV, если CSV содержит неуклюжие данные», где «неуклюжие» означает такие вещи, как запятые в полевых данных CSV.
Следующий вопрос: «Какую другую обработку вы собираетесь выполнять», поскольку это повлияет на то, какие альтернативы вы используете.
Я бы, вероятно, использовал Perl и модули Text :: CSV или Text :: CSV_XS для чтения и обработки данных. Помните, что Perl изначально был написан частично как awk
и sed
killer - следовательно, программы a2p
и s2p
по-прежнему распространяется с Perl, который конвертирует скрипты awk
и sed
(соответственно) в Perl.
Другие советы
Руководство gawk версии 4 говорит использовать FPAT = " ([^,] *) | (\ " [^ \ "] + \ ") "
Когда FPAT
определен, он отключает FS
и определяет поля по содержимому, а не по разделителю.
Вы можете использовать простую функцию-оболочку под названием csvquote для очистки входных данных и восстановления их после завершения обработки awk.Передавайте свои данные через него в начале и в конце, и все должно получиться нормально:
до того, как:
gawk -f mypgoram.awk input.csv
после:
csvquote input.csv | gawk -f mypgoram.awk | csvquote -u
Видишь https://github.com/dbro/csvquote для кода и документации.
Если это допустимо, я бы использовал модуль Python csv , заплатив специальный внимание на используемый диалект и необходимые параметры форматирования , чтобы проанализировать ваш CSV-файл.
csv2delim.awk
# csv2delim.awk converts comma delimited files with optional quotes to delim separated file
# delim can be any character, defaults to tab
# assumes no repl characters in text, any delim in line converts to repl
# repl can be any character, defaults to ~
# changes two consecutive quotes within quotes to '
# usage: gawk -f csv2delim.awk [-v delim=d] [-v repl=`"] input-file > output-file
# -v delim delimiter, defaults to tab
# -v repl replacement char, defaults to ~
# e.g. gawk -v delim=; -v repl=` -f csv2delim.awk test.csv > test.txt
# abe 2-28-7
# abe 8-8-8 1.0 fixed empty fields, added replacement option
# abe 8-27-8 1.1 used split
# abe 8-27-8 1.2 inline rpl and "" = '
# abe 8-27-8 1.3 revert to 1.0 as it is much faster, split most of the time
# abe 8-29-8 1.4 better message if delim present
BEGIN {
if (delim == "") delim = "\t"
if (repl == "") repl = "~"
print "csv2delim.awk v.m 1.4 run at " strftime() > "/dev/stderr" ###########################################
}
{
#if ("first","second","third"
"fir,st","second","third"
"first","sec""ond","third"
" first ",sec ond,"third"
"first" , "second","th ird"
"first","sec;ond","third"
"first","second","th;ird"
1,2,3
,2,3
1,2,
,2,
1,,2
1,"2",3
"1",2,"3"
"1",,"3"
1,"",3
"","",""
"","""aiyn","oh"""
"""","""",""""
11,2~2,3
~ repl) {
# print "Replacement character " repl " is on line " FNR ":" lineIn ";" > "/dev/stderr"
#}
if (rem test csv2delim
rem default is: -v delim={tab} -v repl=~
gawk -f csv2delim.awk test.csv > test.txt
gawk -v delim=; -f csv2delim.awk test.csv > testd.txt
gawk -v delim=; -v repl=` -f csv2delim.awk test.csv > testdr.txt
gawk -v repl=` -f csv2delim.awk test.csv > testr.txt
~ delim) {
print "Temp delimiter character " delim " is on line " FNR ":" lineIn ";" > "/dev/stderr"
print " replaced by " repl > "/dev/stderr"
}
gsub(delim, repl)
<*> = gensub(/([^,])\"\"/, "\\1'", "g")
# <*> = gensub(/\"\"([^,])/, "'\\1", "g") # not needed above covers all cases
out = ""
#for (i = 1; i <= length(<*>); i++)
n = length(<*>)
for (i = 1; i <= n; i++)
if ((ch = substr(<*>, i, 1)) == "\"")
inString = (inString) ? 0 : 1 # toggle inString
else
out = out ((ch == "," && ! inString) ? delim : ch)
print out
}
END {
print NR " records processed from " FILENAME " at " strftime() > "/dev/stderr"
}
test.csv
<*>test.bat
<*>Я не совсем уверен, правильно ли это делать. Я бы предпочел работать с CSV-файлом, в котором либо все значения указаны в кавычках, либо отсутствуют. Кстати, awk позволяет регулярным выражениям быть разделителями полей. Проверьте, полезно ли это.
{
ColumnCount = 0
<*> = <*> "," # Assures all fields end with comma
while(<*>) # Get fields by pattern, not by delimiter
{
match(<*>, / *"[^"]*" *,|[^,]*,/) # Find a field with its delimiter suffix
Field = substr(<*>, RSTART, RLENGTH) # Get the located field with its delimiter
gsub(/^ *"?|"? *,$/, "", Field) # Strip delimiter text: comma/space/quote
Column[++ColumnCount] = Field # Save field without delimiter in an array
<*> = substr(<*>, RLENGTH + 1) # Remove processed text from the raw data
}
}
Шаблоны, следующие за этим, могут получить доступ к полям в столбце []. ColumnCount указывает количество найденных элементов в Column []. Если не все строки содержат одинаковое количество столбцов, Column [] содержит дополнительные данные после Column [ColumnCount] при обработке более коротких строк.
Эта реализация медленная, но, похоже, она эмулирует функцию FPAT
/ patsplit ()
, найденную в gawk > = 4.0.0, упомянутую в предыдущем ответе. р>
Вот что я придумала. Любые комментарии и / или лучшие решения будут оценены.
BEGIN { FS="," }
{
for (i=1; i<=NF; i++) {
f[++n] = $i
if (substr(f[n],1,1)=="\"") {
while (substr(f[n], length(f[n]))!="\"" || substr(f[n], length(f[n])-1, 1)=="\\") {
f[n] = sprintf("%s,%s", f[n], $(++i))
}
}
}
for (i=1; i<=n; i++) printf "field #%d: %s\n", i, f[i]
print "----------------------------------\n"
}
Основная идея состоит в том, что я перебираю поля, и любое поле, которое начинается с кавычки, но не заканчивается кавычкой, получает следующее поле, добавленное к нему.
В Perl есть модуль Text :: CSV_XS, специально созданный для обработки странностей, заключенных в кавычки.
Поочередно попробуйте модуль Text :: CSV.
perl -MText :: CSV_XS -ne 'BEGIN {$ csv = Text :: CSV_XS- > new ()} if ($ csv- > parse ($ _)) {@ f = $ csv - > fields (); для файла $ n (0 .. $ # f) {print " поле # $ n: $ f [$ n] \ n "}; файл print " --- \ n "} ' .csv код>
Создает этот вывод:
field #0: one
field #1: two
field #2: three, four
field #3: five
---
field #0: six, seven
field #1: eight
field #2: nine
---
Вот читабельная версия.
Сохраните его как parsecsv, chmod + x и запустите его как " parsecsv file.csv "
#!/usr/bin/perl
use warnings;
use strict;
use Text::CSV_XS;
my $csv = Text::CSV_XS->new();
open(my $data, '<', $ARGV[0]) or die "Could not open '$ARGV[0]' $!\n";
while (my $line = <$data>) {
if ($csv->parse($line)) {
my @f = $csv->fields();
for my $n (0..$#f) {
print "field #$n: $f[$n]\n";
}
print "---\n";
}
}
Возможно, вам потребуется указать другую версию perl на вашем компьютере, поскольку модуль Text :: CSV_XS может быть не установлен в вашей версии perl по умолчанию.
Can't locate Text/CSV_XS.pm in @INC (@INC contains: /home/gnu/lib/perl5/5.6.1/i686-linux /home/gnu/lib/perl5/5.6.1 /home/gnu/lib/perl5/site_perl/5.6.1/i686-linux /home/gnu/lib/perl5/site_perl/5.6.1 /home/gnu/lib/perl5/site_perl .).
BEGIN failed--compilation aborted.
Если ни в одной из ваших версий Perl не установлен Text :: CSV_XS, вам необходимо:
sudo apt-get установить cpanminus
Текст sudo cpanm :: CSV_XS