Reformatar um grande arquivo de texto em strings de uma linha (via bash)
Pergunta
File1:
hello
- dictionary definitions:
hi
hello
hallo
greetings
salutations
no more hello for you
-
world
- dictionary definitions:
universe
everything
the globe
the biggest tree
planet
cess pool of organic life
-
Eu preciso formatar este (para uma lista enorme de palavras) em um termo para o formato de definição (uma linha por prazo). Como se pode conseguir isso? Nenhuma das palavras são as mesmas, apenas a estrutura acima é visto. O arquivo resultante seria algo parecido com isto:
hello - dictionary definitions: hi hello hallo greetings salutations no more hello for you -
world - dictionary definitions: universe everything the globe the biggest tree planet cess pool of organic life -
Awk / Sed / Grep / Cat são os candidatos usuais.
Solução
awk 'BEGIN {FS="\n"; RS="-\n"}{for(i=1;i<=NF;i++) printf("%s ",$i); if($1)print"-";}' dict.txt
saídas:
hello - dictionary definitions: hi hello hallo greetings salutations no more hello for you -
world - dictionary definitions: universe everything the globe the biggest tree planet cess pool of organic life -
Outras dicas
e quem diz que só Perl pode fazê-lo com elegância? :)
$ gawk -vRS="-\n" '{gsub(/\n/," ")}1' file
hello - dictionary definitions: hi hello hallo greetings salutations no more hello for you
world - dictionary definitions: universe everything the globe the biggest tree planet cess pool of organic life
ou
# gawk 'BEGIN{RS="-\n";FS="\n";OFS=" "}{$1=$1}1' file
hello - dictionary definitions: hi hello hallo greetings salutations no more hello for you
world - dictionary definitions: universe everything the globe the biggest tree planet cess pool of organic life
A perl one-liner:
perl -pe 'chomp;s/^-$/\n/;print " "' File1
dá
hello - dictionary definitions: hi hello hallo greetings salutations no more hello for you
world - dictionary definitions: universe everything the globe the biggest tree planet cess pool of organic life
Esta é a algo como 'sua saída necessária.
Não tenho certeza a linguagem de script que será utilizado, código pseudo aqui:
for each line
if line is "-"
create new line
else
append separator to previous line
append line to previous line
end if
end for loop
Tente este funciona forro em um condições que theer sempre será de 6 linhas para uma palavra
sed 'N;N;N;N;N;N;N;N;s/\n/ /g' test_3
sed -ne'1{x;d};/^-$/{g;s/\n/ /g;p;n;x;d};H'
awk -v'RS=\n-\n' '{gsub(/\n/," ")}1'
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow