Wie man NA (fehlende Werte) in einem Datenrahmen mit benachbarten Werten ersetzen
-
12-09-2019 - |
Frage
862 2006-05-19 6.241603 5.774208
863 2006-05-20 NA NA
864 2006-05-21 NA NA
865 2006-05-22 6.383929 5.906426
866 2006-05-23 6.782068 6.268758
867 2006-05-24 6.534616 6.013767
868 2006-05-25 6.370312 5.856366
869 2006-05-26 6.225175 5.781617
870 2006-05-27 NA NA
Ich habe einen Datenrahmen x wie oben mit einigen NA, die ich es avg von 19 & 22
wird den benachbarten Nicht-NA-Werte wie für 2006-05-20 mit füllen möchtenWie es ist die Frage?
Lösung
Richtig formatiert die Daten wie folgt aussieht
862 2006-05-19 6.241603 5.774208
863 2006-05-20 NA NA
864 2006-05-21 NA NA
865 2006-05-22 6.383929 5.906426
866 2006-05-23 6.782068 6.268758
867 2006-05-24 6.534616 6.013767
868 2006-05-25 6.370312 5.856366
869 2006-05-26 6.225175 5.781617
870 2006-05-27 NA NA
und ist von einer Zeitreihe der Natur. So würde ich in ein Objekt der Klasse zoo
laden (aus dem Zoo Paket), wie das Ihnen erlaubt, eine Reihe von Strategien zur Auswahl - siehe unten. Welche Sie wählen, hängt von der Art Ihrer Daten und Anwendungen. Im Allgemeinen ist das Gebiet der ‚Bezifferung Daten verpasste‘ heißt Daten Anrechnungs
und es gibt eine ziemlich große Literatur.
R> x <- zoo(X[,3:4], order.by=as.Date(X[,2]))
R> x
x y
2006-05-19 6.242 5.774
2006-05-20 NA NA
2006-05-21 NA NA
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27 NA NA
R> na.locf(x) # last observation carried forward
x y
2006-05-19 6.242 5.774
2006-05-20 6.242 5.774
2006-05-21 6.242 5.774
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27 6.225 5.782
R> na.approx(x) # approximation based on before/after values
x y
2006-05-19 6.242 5.774
2006-05-20 6.289 5.818
2006-05-21 6.336 5.862
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
R> na.spline(x) # spline fit ...
x y
2006-05-19 6.242 5.774
2006-05-20 5.585 5.159
2006-05-21 5.797 5.358
2006-05-22 6.384 5.906
2006-05-23 6.782 6.269
2006-05-24 6.535 6.014
2006-05-25 6.370 5.856
2006-05-26 6.225 5.782
2006-05-27 5.973 5.716
R>
Andere Tipps
Je nach Daten tidyr::fill()
könnte eine Option sein:
library(tidyverse)
df %>% fill(x) # single column x
df %>% fill(x, y) # multiple columns, x and y
df %>% fill(x, .direction = 'up') # filling from the bottom up rather than top down
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow