Comment compter le nombre de lignes dans chaque fichier d'un corpus dans R
Question
Question simple...donné par exemple :
data("crude")
qui est un corpus de 20 documents texte, comment obtenir quelque chose comme :
1 4
2 6
3 5
4 3
etc...
où la deuxième colonne est le nombre de lignes de chaque document dans le corpus « brut » ?Ou même un vecteur de numéros de lignes fonctionnerait.
NROW/nrow ne semble pas fonctionner.
Merci d'avoir cherché !
La solution
Salut, vous pouvez compter le saut de ligne (LF) avec
library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11
crude[[1]]
j'ai 12 lignes sur mon ordinateur, donc pour tout le corpus vous pouvez faire ceci :
sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)
Autres conseils
En dehors de la ligne si vos données réelles étaient données.frame, vous pouvez trouver le nombre d'éléments.Vérifiez ceci
data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]]
#Output
1
1
1
lapply(corp,length)
#Output
$`1`
[1] 3
$`2`
[1] 3
$`3`
[1] 3
$`4`
[1] 3
$`5`
[1] 3
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow