Como contar o número de linhas em cada arquivo de um corpus em R
Pergunta
Questão simples...dado por exemplo:
data("crude")
que é um corpus com 20 documentos de texto, como faço para obter algo como:
1 4
2 6
3 5
4 3
etc...
onde a segunda coluna é o número de linhas de cada documento do corpus “bruto”?Ou mesmo um vetor de números de linhas funcionaria.
NROW/nrow parece não funcionar.
Obrigado por olhar!
Solução
Olá, você pode contar o avanço de linha (LF) com
library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11
crude[[1]]
tenho 12 linhas no meu computador, então para todo o corpus você pode fazer isso:
sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)
Outras dicas
Além da linha, se seus dados reais forem data.frame, você poderá descobrir o número de itens.Verifique isso
data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]]
#Output
1
1
1
lapply(corp,length)
#Output
$`1`
[1] 3
$`2`
[1] 3
$`3`
[1] 3
$`4`
[1] 3
$`5`
[1] 3
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow