Вопрос
Я хотел проверить, есть ли какой-нибудь уже существующий трюк для na.locf
(от zoo
упаковка), rle
и inverse.rle
в RCpp
?
Я написал цикл для реализации, например.Я сделал реализацию na.locf(x, na.rm=FALSE, fromLast=FALSE)
следующее:
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
NumericVector naLocf(NumericVector x) {
int n=x.size();
for (int i=1;i<n;i++) {
if (R_IsNA(x[i]) & !R_IsNA(x[i-1])) {
x[i]=x[i-1];
}
}
return x;
}
Мне просто интересно, что, поскольку это довольно простые функции, возможно, кто-то уже реализовал их в RCpp
лучшим способом (можно избежать цикла) ИЛИ более быстрым способом?
Решение
Единственное, что я бы сказал, это то, что вы проверяете NA
дважды для каждого значения, хотя вам нужно сделать это только один раз.Тестирование на NA
это не бесплатная операция.Возможно, что-то вроде этого:
//[[Rcpp::export]]
NumericVector naLocf(NumericVector x) {
int n = x.size() ;
double v = x[0]
for( int i=1; i<n; i++){
if( NumericVector::is_na(x[i]) ) {
x[i] = v ;
} else {
v = x[i] ;
}
}
return x;
}
Однако это все еще делает ненужные вещи, такие как установка v
каждый раз, когда мы могли это сделать только в последний раз, когда мы не видим NA
.Мы можем попробовать что-то вроде этого:
//[[Rcpp::export]]
NumericVector naLocf3(NumericVector x) {
double *p=x.begin(), *end = x.end() ;
double v = *p ; p++ ;
while( p < end ){
while( p<end && !NumericVector::is_na(*p) ) p++ ;
v = *(p-1) ;
while( p<end && NumericVector::is_na(*p) ) {
*p = v ;
p++ ;
}
}
return x;
}
Теперь мы можем попробовать некоторые тесты:
x <- rnorm(1e6)
x[sample(1:1e6, 1000)] <- NA
require(microbenchmark)
microbenchmark( naLocf1(x), naLocf2(x), naLocf3(x) )
# Unit: milliseconds
# expr min lq median uq max neval
# naLocf1(x) 6.296135 6.323142 6.339132 6.354798 6.749864 100
# naLocf2(x) 4.097829 4.123418 4.139589 4.151527 4.266292 100
# naLocf3(x) 3.467858 3.486582 3.507802 3.521673 3.569041 100