كيفية تحويل عمود إطار البيانات إلى نوع رقمي؟
-
21-09-2019 - |
سؤال
كيف يمكنك تحويل عمود إطار البيانات إلى نوع رقمي؟
المحلول
بما أنه (لا يزال) لا أحد يحصل على علامة فحص ، أفترض أن لديك مشكلة عملية في الاعتبار ، في الغالب لأنك لم تحدد نوع المتجه الذي تريد تحويله إلى numeric
. أقترح عليك التقديم transform
وظيفة لإكمال مهمتك.
الآن أنا على وشك إظهار بعض "الشذوذ التحويل":
# create dummy data.frame
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
دعونا نلقي نظرة على data.frame
> d
char fake_char fac char_fac num
1 a 1 1 a 1
2 b 2 2 b 2
3 c 3 3 c 3
4 d 4 4 d 4
5 e 5 5 e 5
ودعونا نركض:
> sapply(d, mode)
char fake_char fac char_fac num
"character" "character" "numeric" "numeric" "numeric"
> sapply(d, class)
char fake_char fac char_fac num
"character" "character" "factor" "factor" "integer"
الآن ربما تسأل نفسك "أين شذوذ؟" حسنًا ، لقد اصطدمت بأشياء غريبة جدًا في R ، وهذا ليس كذلك ال الشيء الأكثر إرباكًا ، ولكنه يمكن أن يربكك ، خاصة إذا قرأت هذا قبل التدحرج في السرير.
هنا يذهب: العمودين الأولين character
. لقد اتصلت عمدا 2اختصار الثاني واحد fake_char
. اكتشف تشابه هذا character
متغير مع واحد الذي أنشأه ديرك في رده. إنه في الواقع numerical
ناقلات تحولت إلى character
. 3بحث وتطوير و 4العاشر العمود factor
, والآخر هو "بحت" numeric
.
إذا كنت تستخدم transform
وظيفة ، يمكنك تحويل fake_char
داخل numeric
, ، ولكن ليس char
متغير نفسه.
> transform(d, char = as.numeric(char))
char fake_char fac char_fac num
1 NA 1 1 a 1
2 NA 2 2 b 2
3 NA 3 3 c 3
4 NA 4 4 d 4
5 NA 5 5 e 5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion
ولكن إذا فعلت نفس الشيء على fake_char
و char_fac
, ، ستكون محظوظًا ، وستفلت من NO NA:
> transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
char fake_char fac char_fac num
1 a 1 1 1 1
2 b 2 2 2 2
3 c 3 3 3 3
4 d 4 4 4 4
5 e 5 5 5 5
إذا قمت بحفظ التحويل data.frame
والتحقق من mode
و class
, ، ستحصل على:
> D <- transform(d, fake_char = as.numeric(fake_char),
char_fac = as.numeric(char_fac))
> sapply(D, mode)
char fake_char fac char_fac num
"character" "numeric" "numeric" "numeric" "numeric"
> sapply(D, class)
char fake_char fac char_fac num
"character" "numeric" "factor" "numeric" "integer"
لذلك ، الاستنتاج هو: نعم ، يمكنك تحويل character
ناقلات في numeric
واحد ، ولكن فقط إذا كانت العناصر "قابلة للتحويل" إلى numeric
. إذا كان هناك واحد فقط character
العنصر في المتجه ، ستحصل على خطأ عند محاولة تحويل هذا المتجه إلى numerical
واحد.
وفقط لإثبات وجهة نظري:
> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion
> char
[1] 1 NA 3 4 NA
والآن ، فقط من أجل المتعة (أو الممارسة) ، حاول تخمين إخراج هذه الأوامر:
> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???
تحياتي لباتريك بيرنز! =)
نصائح أخرى
شيء ساعدني: إذا كان لديك نطاقات من المتغيرات لتحويلها (أو أكثر من ذلك فقط) ، فيمكنك استخدامها sapply
.
قليلا غير منطقي ولكن فقط على سبيل المثال:
data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)
قل الأعمدة 3 و 6-15 و 37 من DataFrame يجب تحويلها إلى رقم واحد يمكن:
dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
إذا x
هو اسم عمود DataFrame dat
, ، و x
من عامل النوع ، والاستخدام:
as.numeric(as.character(dat$x))
كنت قد أضفت تعليقًا (تصنيفًا منخفضًا)
فقط لإضافة user276042 و pangratz
dat$x = as.numeric(as.character(dat$x))
سيؤدي هذا إلى تجاوز قيم العمود الحالي x
تيم صحيح ، وشين لديه إغفال. فيما يلي أمثلة إضافية:
R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a),
numchr = as.numeric(as.character(df$a)))
R> df
a num numchr
1 10 1 10
2 11 2 11
3 12 3 12
4 13 4 13
5 14 5 14
6 15 6 15
R> summary(df)
a num numchr
10:1 Min. :1.00 Min. :10.0
11:1 1st Qu.:2.25 1st Qu.:11.2
12:1 Median :3.50 Median :12.5
13:1 Mean :3.50 Mean :12.5
14:1 3rd Qu.:4.75 3rd Qu.:13.8
15:1 Max. :6.00 Max. :15.0
R>
ملكنا data.frame
الآن لديه ملخص لعمود العامل (التهم) وملخصات رقمية as.numeric()
--- الذي خاطئ - ظلم - يظلم كما حصلت على مستويات العوامل الرقمية --- وملخص (الصحيح) من as.numeric(as.character())
.
باستخدام الكود التالي ، يمكنك تحويل جميع أعمدة إطار البيانات إلى Numeric (X هو إطار البيانات الذي نريد تحويله إلى أعمدةه):
as.data.frame(lapply(X, as.numeric))
ولتحويل المصفوفة بأكملها إلى رقمي ، لديك طريقتان: إما:
mode(X) <- "numeric"
أو:
X <- apply(X, 2, as.numeric)
بدلاً من ذلك يمكنك استخدامه data.matrix
وظيفة لتحويل كل شيء إلى رقمي ، على الرغم من أن تكون على دراية بأن العوامل قد لا يتم تحويلها بشكل صحيح ، لذلك من المماثلة تحويل كل شيء إلى character
أول:
X <- sapply(X, as.character)
X <- data.matrix(X)
عادة ما أستخدم هذا الأخير إذا أريد للتحويل إلى المصفوفة والرقم في وقت واحد
على الرغم من أن سؤالك على الرقم بشكل صارم ، إلا أن هناك العديد من التحويلات التي يصعب فهمها عند البدء R. سأهدف إلى معالجة أساليب المساعدة. هذا السؤال مشابه ل هذا السؤال.
يمكن أن يكون تحويل النوع ألمًا في R لأنه لا يمكن تحويل العوامل (1) مباشرة إلى رقمي ، فهي بحاجة إلى تحويلها إلى فئة الأحرف أولاً ، (2) تواريخ خاصة تحتاج عادة إلى التعامل معها بشكل منفصل ، و (3) يمكن أن يكون الحلق عبر أعمدة إطار البيانات أمرًا صعبًا. لحسن الحظ ، فإن "Tidyverse" قد حل معظم القضايا.
يستخدم هذا الحل mutate_each()
لتطبيق وظيفة على جميع الأعمدة في إطار البيانات. في هذه الحالة ، نريد تطبيق type.convert()
الوظيفة ، التي تحول السلاسل إلى الرقم حيث يمكن. لأن R يحب العوامل (غير متأكد من السبب) ، يتم تغيير أعمدة الأحرف التي يجب أن تبقى الشخصية إلى عامل. لإصلاح هذا ، mutate_if()
يتم استخدام الوظيفة لاكتشاف الأعمدة التي هي عوامل وتغيير إلى الشخصية. أخيرًا ، أردت أن أوضح كيف يمكن استخدام Lubridate لتغيير الطابع الزمني في فئة الأحرف حتى الوقت لأن هذا غالبًا ما يكون كتلة ملتصقة للمبتدئين.
library(tidyverse)
library(lubridate)
# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 2012-05-04 09:30:00 BAC T 7.8900 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.8850 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.8900 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.8900 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.8900 85053 F 7.88 108101 7.90
# Converting columns to numeric using "tidyverse"
data_df %>%
mutate_all(type.convert) %>%
mutate_if(is.factor, as.character) %>%
mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#> TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR
#> <dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl>
#> 1 2012-05-04 09:30:00 BAC T 7.890 38538 F 7.89 523 7.90
#> 2 2012-05-04 09:30:01 BAC Z 7.885 288 @ 7.88 61033 7.90
#> 3 2012-05-04 09:30:03 BAC X 7.890 1000 @ 7.88 1974 7.89
#> 4 2012-05-04 09:30:07 BAC T 7.890 19052 F 7.88 1058 7.89
#> 5 2012-05-04 09:30:08 BAC Y 7.890 85053 F 7.88 108101 7.90
إذا واجهت مشاكل مع:
as.numeric(as.character(dat$x))
ألقِ نظرة على علاماتك العشرية. إذا كانوا "،" بدلاً من ". (على سبيل المثال "5،3") ما سبق لن يعمل.
الحل المحتمل هو:
as.numeric(gsub(",", ".", dat$x))
أعتقد أن هذا أمر شائع جدًا في بعض البلدان غير الإنجليزية غير الإنجليزية.
طريقة عالمية باستخدام type.convert()
و rapply()
:
convert_types <- function(x) {
stopifnot(is.list(x))
x[] <- rapply(x, utils::type.convert, classes = "character",
how = "replace", as.is = TRUE)
return(x)
}
d <- data.frame(char = letters[1:5],
fake_char = as.character(1:5),
fac = factor(1:5),
char_fac = factor(letters[1:5]),
num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#> char fake_char fac char_fac num
#> "character" "character" "factor" "factor" "integer"
sapply(convert_types(d), class)
#> char fake_char fac char_fac num
#> "character" "integer" "factor" "factor" "integer"
لتحويل عمود إطار البيانات إلى الرقم ، عليك فقط القيام:-
عامل الرقم:-
data_frame$column <- as.numeric(as.character(data_frame$column))
على الرغم من أن الآخرين قاموا بتغطية الموضوع جيدًا ، إلا أنني أرغب في إضافة هذا الفكر/التلميح الإضافي. يمكنك استخدام REGEXP للتحقق مسبقًا ما إذا كان من المحتمل أن تتكون الأحرف من الأرقام.
for(i in seq_along(names(df)){
potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)
للحصول على تعبيرات منتظمة أكثر تطوراً ، ولماذا يتعلم/تجربة قوتهم ، انظر هذا الموقع الجميل حقًا: http://regexr.com/
في جهاز الكمبيوتر الخاص بي (R v.3.2.3) ، apply
أو sapply
أعط خطأ. lapply
يعمل بشكل جيد.
dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))
إذا كانت DataFrame تحتوي على أنواع متعددة من الأعمدة ، وبعض الأحرف ، فإن بعضها يحاول ما يلي لتحويل الأعمدة التي تحتوي على قيم رقمية إلى رقمية:
for (i in 1:length(data[1,])){
if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
else {
data[,i]<-as.numeric(data[,i])
}
}
مع هابلار :: تحويل
لتحويل أعمدة متعددة بسهولة إلى أنواع بيانات مختلفة يمكنك استخدامها hablar::convert
. بناء جملة بسيط: df %>% convert(num(a))
يحول العمود A من DF إلى Numeric.
مثال مفصل
يتيح تحويل جميع أعمدة mtcars
للشخصية.
df <- mtcars %>% mutate_all(as.character) %>% as_tibble()
> df
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.875 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
مع hablar::convert
:
library(hablar)
# Convert columns to integer, numeric and factor
df %>%
convert(int(cyl, vs),
num(disp:wt),
fct(gear))
النتائج في:
# A tibble: 32 x 11
mpg cyl disp hp drat wt qsec vs am gear carb
<chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
1 21 6 160 110 3.9 2.62 16.46 0 1 4 4
2 21 6 160 110 3.9 2.88 17.02 0 1 4 4
3 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
4 21.4 6 258 110 3.08 3.22 19.44 1 0 3 1
النظر في وجود أعمدة char ، وهذا يعتمد على abdou في احصل على أنواع الأعمدة من ورقة Excel تلقائيًا إجابه:
makenumcols<-function(df){
df<-as.data.frame(df)
df[] <- lapply(df, as.character)
cond <- apply(df, 2, function(x) {
x <- x[!is.na(x)]
all(suppressWarnings(!is.na(as.numeric(x))))
})
numeric_cols <- names(df)[cond]
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
return(df)
}
df<-makenumcols(df)
لتحويل الحرف إلى Numeric ، عليك تحويلها إلى عامل من خلال التقديم
BankFinal1 <- transform(BankLoan, LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))
يجب عليك إنشاء عمودين بنفس البيانات ، لأنه لا يمكن تحويل عمود إلى رقمي. إذا قمت بتحويل واحد ، فإنه يعطي الخطأ أدناه
transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message: In eval(substitute(list(...)), `_data`, parent.frame()) : NAs introduced by coercion
لذلك ، بعد تطبيق عمود من نفس البيانات
BankFinal1 <- transform(BankFinal1, LoanApp = as.numeric(LoanApp),
LoanApproval = as.numeric(LoanApproval))
سوف يحول الشخصية إلى الرقم بنجاح