Question

Question simple...donné par exemple :

data("crude")

qui est un corpus de 20 documents texte, comment obtenir quelque chose comme :

1  4
2  6
3  5
4  3
etc...

où la deuxième colonne est le nombre de lignes de chaque document dans le corpus « brut » ?Ou même un vecteur de numéros de lignes fonctionnerait.

NROW/nrow ne semble pas fonctionner.

Merci d'avoir cherché !

Était-ce utile?

La solution

Salut, vous pouvez compter le saut de ligne (LF) avec

library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11

crude[[1]] j'ai 12 lignes sur mon ordinateur, donc pour tout le corpus vous pouvez faire ceci :

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)

Autres conseils

En dehors de la ligne si vos données réelles étaient données.frame, vous pouvez trouver le nombre d'éléments.Vérifiez ceci

data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]] 
#Output
 1
 1
 1

lapply(corp,length)
#Output
 $`1`
 [1] 3

 $`2`
 [1] 3

 $`3`
 [1] 3

 $`4`
 [1] 3

 $`5`
 [1] 3

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top