Pergunta

Questão simples...dado por exemplo:

data("crude")

que é um corpus com 20 documentos de texto, como faço para obter algo como:

1  4
2  6
3  5
4  3
etc...

onde a segunda coluna é o número de linhas de cada documento do corpus “bruto”?Ou mesmo um vetor de números de linhas funcionaria.

NROW/nrow parece não funcionar.

Obrigado por olhar!

Foi útil?

Solução

Olá, você pode contar o avanço de linha (LF) com

library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11

crude[[1]] tenho 12 linhas no meu computador, então para todo o corpus você pode fazer isso:

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)

Outras dicas

Além da linha, se seus dados reais forem data.frame, você poderá descobrir o número de itens.Verifique isso

data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]] 
#Output
 1
 1
 1

lapply(corp,length)
#Output
 $`1`
 [1] 3

 $`2`
 [1] 3

 $`3`
 [1] 3

 $`4`
 [1] 3

 $`5`
 [1] 3
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top