データフレーム列を数値タイプに変換する方法は?
-
21-09-2019 - |
質問
データフレーム列を数値タイプにどのように変換しますか?
解決
(まだ)チェックマークを持っていないので、私はあなたがいくつかの実際的な問題を念頭に置いていると思います。 numeric
. 。応募することをお勧めします transform
タスクを完了するための機能。
今、私は特定の「変換異常」を実証しようとしています:
# create dummy data.frame
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
一目見ましょう data.frame
> d
char fake_char fac char_fac num
1 a 1 1 a 1
2 b 2 2 b 2
3 c 3 3 c 3
4 d 4 4 d 4
5 e 5 5 e 5
そして、私たちを実行しましょう:
> sapply(d, mode)
char fake_char fac char_fac num
"character" "character" "numeric" "numeric" "numeric"
> sapply(d, class)
char fake_char fac char_fac num
"character" "character" "factor" "factor" "integer"
今、あなたはおそらく自問してください 「異常はどこですか?」 まあ、私はrで非常に独特なものにぶつかりました、そしてこれはそうではありません 最も混乱することですが、特にベッドに転がる前にこれを読んだ場合は、あなたを混乱させることができます。
ここにあります:最初の2つの列は次のとおりです character
. 。私は故意に2と呼びましたnd 1 fake_char
. 。これの類似性を見つけてください character
Dirkが彼の返信で作成した変数。それは実際にです numerical
に変換されたベクトル character
. 3rd および4th 列です factor
, 、そして最後のものは「純粋に」です numeric
.
利用する場合 transform
関数、変換できます fake_char
の中へ numeric
, 、しかしそうではありません char
変数自体。
> transform(d, char = as.numeric(char))
char fake_char fac char_fac num
1 NA 1 1 a 1
2 NA 2 2 b 2
3 NA 3 3 c 3
4 NA 4 4 d 4
5 NA 5 5 e 5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion
しかし、あなたが同じことをするなら fake_char
と char_fac
, 、あなたは幸運になり、Na'sのいないことで逃げます:
> transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
char fake_char fac char_fac num
1 a 1 1 1 1
2 b 2 2 2 2
3 c 3 3 3 3
4 d 4 4 4 4
5 e 5 5 5 5
変換された場合 data.frame
そして、チェックしてください mode
と class
, 、あなたは得る:
> D <- transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
> sapply(D, mode)
char fake_char fac char_fac num
"character" "numeric" "numeric" "numeric" "numeric"
> sapply(D, class)
char fake_char fac char_fac num
"character" "numeric" "factor" "numeric" "integer"
だから、結論は次のとおりです。 はい、変換できます character
aへのベクトル numeric
1つですが、それが要素である場合にのみ numeric
. 1つしかない場合 character
ベクトルの要素は、そのベクトルをに変換しようとするときにエラーが発生します numerical
1。
そして、私の主張を証明するために:
> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion
> char
[1] 1 NA 3 4 NA
そして今、楽しみ(または練習)のために、これらのコマンドの出力を推測してみてください。
> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???
パトリック・バーンズによると! =)
他のヒント
私を助けたもの:変換する変数の範囲がある場合(またはそれ以上)、あなたは使用できます sapply
.
少し無意味ですが、たとえば:
data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)
データフレームの列3、6-15、および37は、数値に変換する必要があるとします。
dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
もしも x
データフレームの列名です dat
, 、 と x
タイプの要因です、使用してください:
as.numeric(as.character(dat$x))
コメントを追加したでしょう(低評価はできません)
user276042とpangratzを追加するだけです
dat$x = as.numeric(as.character(dat$x))
これにより、既存の列xの値がオーバーライドされます
ティムは正しいです、そして、シェーンは省略を持っています。追加の例があります:
R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a),
numchr = as.numeric(as.character(df$a)))
R> df
a num numchr
1 10 1 10
2 11 2 11
3 12 3 12
4 13 4 13
5 14 5 14
6 15 6 15
R> summary(df)
a num numchr
10:1 Min. :1.00 Min. :10.0
11:1 1st Qu.:2.25 1st Qu.:11.2
12:1 Median :3.50 Median :12.5
13:1 Mean :3.50 Mean :12.5
14:1 3rd Qu.:4.75 3rd Qu.:13.8
15:1 Max. :6.00 Max. :15.0
R>
私たちの data.frame
係数列(カウント)と数値の概要の概要があります。 as.numeric()
---それは 違う 数値係数レベルが得られたため---および(正しい)概要 as.numeric(as.character())
.
次のコードを使用すると、すべてのデータフレーム列を数値に変換できます(xは、列を変換するデータフレームです):
as.data.frame(lapply(X, as.numeric))
そして、マトリックス全体を数値に変換するには、次の2つの方法があります。
mode(X) <- "numeric"
また:
X <- apply(X, 2, as.numeric)
または、使用することもできます data.matrix
すべてを数値に変換するように機能しますが、要因が正しく変換されない可能性があることに注意してください。したがって、すべてを変換する方が安全です character
最初:
X <- sapply(X, as.character)
X <- data.matrix(X)
私は通常使用します この最後のもの 私がしたい場合 マトリックスと数値に同時に変換します
あなたの質問は厳密に数値にありますが、Rを開始するときに理解するのが難しい多くの変換があります。私は支援する方法に対処することを目指します。この質問はに似ています この質問.
タイプ変換はRの痛みになる可能性があります。(1)因子を数値に直接変換することはできません。最初にキャラクタークラスに変換する必要があり、(2)日付は通常、個別に対処する必要がある特別なケースであり、 (3)データフレーム列を横切るループは難しい場合があります。幸いなことに、「Tidyverse」はほとんどの問題を解決しました。
このソリューションは使用します mutate_each()
データフレーム内のすべての列に関数を適用します。この場合、適用します type.convert()
関数。文字列をできる場合は数値に変換します。 Rは、キャラクターを維持する必要がある要因(理由はわからない)を愛しているためです。これを修正するために、 mutate_if()
関数は、要因であり、文字に変化する列を検出するために使用されます。最後に、これは多くの場合、初心者にとっても執着ブロックであるため、キャラクタークラスのタイムスタンプをキャラクタークラスのタイムスタンプを変更する方法を示したかったのです。
library(tidyverse)
library(lubridate)
# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
# Converting columns to numeric using "tidyverse"
data_df %>%
mutate_all(type.convert) %>%
mutate_if(is.factor, as.character) %>%
mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
#> 1 2012-05-04 09:30:00 BAC T 7.890 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.885 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.890 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.890 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.890 85053 F 7.88 108101 7.90
あなたが問題に遭遇した場合:
as.numeric(as.character(dat$x))
小数マークをご覧ください。 「代わりに」である場合。 (例:「5,3」)上記は機能しません。
潜在的な解決策は次のとおりです。
as.numeric(gsub(",", ".", dat$x))
これは、英語以外の一部の国では非常に一般的だと思います。
普遍的な方法を使用 type.convert()
と rapply()
:
convert_types <- function(x) {
stopifnot(is.list(x))
x[] <- rapply(x, utils::type.convert, classes = "character",
how = "replace", as.is = TRUE)
return(x)
}
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#> char fake_char fac char_fac num
#> "character" "character" "factor" "factor" "integer"
sapply(convert_types(d), class)
#> char fake_char fac char_fac num
#> "character" "integer" "factor" "factor" "integer"
データフレーム列を数値に変換するには、ただしなければなりません: -
数値への要因: -
data_frame$column <- as.numeric(as.character(data_frame$column))
他の人はトピックをかなりうまくカバーしていますが、この追加の簡単な考え/ヒントを追加したいと思います。 regexpを使用して、文字が潜在的に数字のみで構成されているかどうかを事前に確認できます。
for(i in seq_along(names(df)){
potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)
より洗練された正規表現と、彼らの力を学ぶ/体験する理由については、この本当に素晴らしいウェブサイトを見てください: http://regexr.com/
私のPC(R V.3.2.3)で、 apply
また sapply
エラーを与えます。 lapply
うまく機能します。
dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))
データフレームに複数のタイプの列がある場合、一部の文字、一部の数値は次のものを試して、数値を含む列のみを数値に変換します。
for (i in 1:length(data[1,])){
if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
else {
data[,i]<-as.numeric(data[,i])
}
}
と hablar :: convert
複数の列を簡単に異なるデータ型に変換するには、使用できます hablar::convert
. 。単純な構文: df %>% convert(num(a))
列AをDFから数値に変換します。
詳細な例
のすべての列を変換しましょう mtcars
キャラクターに。
df <- mtcars %>% mutate_all(as.character) %>% as_tibble()
> df
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.875 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
と hablar::convert
:
library(hablar)
# Convert columns to integer, numeric and factor
df %>%
convert(int(cyl, vs),
num(disp:wt),
fct(gear))
結果:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.88 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
4 21.4 6 258 110 3.08 3.22 19.44 1 0 3 1
char列が存在する可能性があることを考えると、これは@abdouに基づいています Excelシートの列タイプを自動的に取得します 答え:
makenumcols<-function(df){
df<-as.data.frame(df)
df[] <- lapply(df, as.character)
cond <- apply(df, 2, function(x) {
x <- x[!is.na(x)]
all(suppressWarnings(!is.na(as.numeric(x))))
})
numeric_cols <- names(df)[cond]
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
return(df)
}
df<-makenumcols(df)
文字を数値に変換するには、適用して因子に変換する必要があります
BankFinal1 <- transform(BankLoan, LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))
1つの列が数値に変換できないため、同じデータで2つの列を作成する必要があります。 1つの変換を行うと、以下のエラーが得られます
transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message: In eval(substitute(list(...)), `_data`, parent.frame()) : NAs introduced by coercion
したがって、同じデータの2つの列を実行した後、適用されます
BankFinal1 <- transform(BankFinal1, LoanApp = as.numeric(LoanApp),
LoanApproval = as.numeric(LoanApproval))
文字を正常に数値に変換します