كيفية تحويل عمود إطار البيانات إلى نوع رقمي؟

StackOverflow https://stackoverflow.com/questions/2288485

  •  21-09-2019
  •  | 
  •  

سؤال

كيف يمكنك تحويل عمود إطار البيانات إلى نوع رقمي؟

هل كانت مفيدة؟

المحلول

بما أنه (لا يزال) لا أحد يحصل على علامة فحص ، أفترض أن لديك مشكلة عملية في الاعتبار ، في الغالب لأنك لم تحدد نوع المتجه الذي تريد تحويله إلى numeric. أقترح عليك التقديم transform وظيفة لإكمال مهمتك.

الآن أنا على وشك إظهار بعض "الشذوذ التحويل":

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

دعونا نلقي نظرة على data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

ودعونا نركض:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

الآن ربما تسأل نفسك "أين شذوذ؟" حسنًا ، لقد اصطدمت بأشياء غريبة جدًا في R ، وهذا ليس كذلك ال الشيء الأكثر إرباكًا ، ولكنه يمكن أن يربكك ، خاصة إذا قرأت هذا قبل التدحرج في السرير.

هنا يذهب: العمودين الأولين character. لقد اتصلت عمدا 2اختصار الثاني واحد fake_char. اكتشف تشابه هذا character متغير مع واحد الذي أنشأه ديرك في رده. إنه في الواقع numerical ناقلات تحولت إلى character. 3بحث وتطوير و 4العاشر العمود factor, والآخر هو "بحت" numeric.

إذا كنت تستخدم transform وظيفة ، يمكنك تحويل fake_char داخل numeric, ، ولكن ليس char متغير نفسه.

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

ولكن إذا فعلت نفس الشيء على fake_char و char_fac, ، ستكون محظوظًا ، وستفلت من NO NA:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

إذا قمت بحفظ التحويل data.frame والتحقق من mode و class, ، ستحصل على:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

لذلك ، الاستنتاج هو: نعم ، يمكنك تحويل character ناقلات في numeric واحد ، ولكن فقط إذا كانت العناصر "قابلة للتحويل" إلى numeric. إذا كان هناك واحد فقط character العنصر في المتجه ، ستحصل على خطأ عند محاولة تحويل هذا المتجه إلى numerical واحد.

وفقط لإثبات وجهة نظري:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

والآن ، فقط من أجل المتعة (أو الممارسة) ، حاول تخمين إخراج هذه الأوامر:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

تحياتي لباتريك بيرنز! =)

نصائح أخرى

شيء ساعدني: إذا كان لديك نطاقات من المتغيرات لتحويلها (أو أكثر من ذلك فقط) ، فيمكنك استخدامها sapply.

قليلا غير منطقي ولكن فقط على سبيل المثال:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

قل الأعمدة 3 و 6-15 و 37 من DataFrame يجب تحويلها إلى رقم واحد يمكن:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

إذا x هو اسم عمود DataFrame dat, ، و x من عامل النوع ، والاستخدام:

as.numeric(as.character(dat$x))

كنت قد أضفت تعليقًا (تصنيفًا منخفضًا)

فقط لإضافة user276042 و pangratz

dat$x = as.numeric(as.character(dat$x))

سيؤدي هذا إلى تجاوز قيم العمود الحالي x

تيم صحيح ، وشين لديه إغفال. فيما يلي أمثلة إضافية:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

ملكنا data.frame الآن لديه ملخص لعمود العامل (التهم) وملخصات رقمية as.numeric() --- الذي خاطئ - ظلم - يظلم كما حصلت على مستويات العوامل الرقمية --- وملخص (الصحيح) من as.numeric(as.character()).

باستخدام الكود التالي ، يمكنك تحويل جميع أعمدة إطار البيانات إلى Numeric (X هو إطار البيانات الذي نريد تحويله إلى أعمدةه):

as.data.frame(lapply(X, as.numeric))

ولتحويل المصفوفة بأكملها إلى رقمي ، لديك طريقتان: إما:

mode(X) <- "numeric"

أو:

X <- apply(X, 2, as.numeric)

بدلاً من ذلك يمكنك استخدامه data.matrix وظيفة لتحويل كل شيء إلى رقمي ، على الرغم من أن تكون على دراية بأن العوامل قد لا يتم تحويلها بشكل صحيح ، لذلك من المماثلة تحويل كل شيء إلى character أول:

X <- sapply(X, as.character)
X <- data.matrix(X)

عادة ما أستخدم هذا الأخير إذا أريد للتحويل إلى المصفوفة والرقم في وقت واحد

على الرغم من أن سؤالك على الرقم بشكل صارم ، إلا أن هناك العديد من التحويلات التي يصعب فهمها عند البدء R. سأهدف إلى معالجة أساليب المساعدة. هذا السؤال مشابه ل هذا السؤال.

يمكن أن يكون تحويل النوع ألمًا في R لأنه لا يمكن تحويل العوامل (1) مباشرة إلى رقمي ، فهي بحاجة إلى تحويلها إلى فئة الأحرف أولاً ، (2) تواريخ خاصة تحتاج عادة إلى التعامل معها بشكل منفصل ، و (3) يمكن أن يكون الحلق عبر أعمدة إطار البيانات أمرًا صعبًا. لحسن الحظ ، فإن "Tidyverse" قد حل معظم القضايا.

يستخدم هذا الحل mutate_each() لتطبيق وظيفة على جميع الأعمدة في إطار البيانات. في هذه الحالة ، نريد تطبيق type.convert() الوظيفة ، التي تحول السلاسل إلى الرقم حيث يمكن. لأن R يحب العوامل (غير متأكد من السبب) ، يتم تغيير أعمدة الأحرف التي يجب أن تبقى الشخصية إلى عامل. لإصلاح هذا ، mutate_if() يتم استخدام الوظيفة لاكتشاف الأعمدة التي هي عوامل وتغيير إلى الشخصية. أخيرًا ، أردت أن أوضح كيف يمكن استخدام Lubridate لتغيير الطابع الزمني في فئة الأحرف حتى الوقت لأن هذا غالبًا ما يكون كتلة ملتصقة للمبتدئين.


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

إذا واجهت مشاكل مع:

as.numeric(as.character(dat$x))

ألقِ نظرة على علاماتك العشرية. إذا كانوا "،" بدلاً من ". (على سبيل المثال "5،3") ما سبق لن يعمل.

الحل المحتمل هو:

as.numeric(gsub(",", ".", dat$x))

أعتقد أن هذا أمر شائع جدًا في بعض البلدان غير الإنجليزية غير الإنجليزية.

طريقة عالمية باستخدام type.convert() و rapply():

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

لتحويل عمود إطار البيانات إلى الرقم ، عليك فقط القيام:-

عامل الرقم:-

data_frame$column <- as.numeric(as.character(data_frame$column))

على الرغم من أن الآخرين قاموا بتغطية الموضوع جيدًا ، إلا أنني أرغب في إضافة هذا الفكر/التلميح الإضافي. يمكنك استخدام REGEXP للتحقق مسبقًا ما إذا كان من المحتمل أن تتكون الأحرف من الأرقام.

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

للحصول على تعبيرات منتظمة أكثر تطوراً ، ولماذا يتعلم/تجربة قوتهم ، انظر هذا الموقع الجميل حقًا: http://regexr.com/

في جهاز الكمبيوتر الخاص بي (R v.3.2.3) ، apply أو sapply أعط خطأ. lapply يعمل بشكل جيد.

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

إذا كانت DataFrame تحتوي على أنواع متعددة من الأعمدة ، وبعض الأحرف ، فإن بعضها يحاول ما يلي لتحويل الأعمدة التي تحتوي على قيم رقمية إلى رقمية:

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

مع هابلار :: تحويل

لتحويل أعمدة متعددة بسهولة إلى أنواع بيانات مختلفة يمكنك استخدامها hablar::convert. بناء جملة بسيط: df %>% convert(num(a)) يحول العمود A من DF إلى Numeric.

مثال مفصل

يتيح تحويل جميع أعمدة mtcars للشخصية.

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

مع hablar::convert:

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

النتائج في:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

النظر في وجود أعمدة char ، وهذا يعتمد على abdou في احصل على أنواع الأعمدة من ورقة Excel تلقائيًا إجابه:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

لتحويل الحرف إلى Numeric ، عليك تحويلها إلى عامل من خلال التقديم

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

يجب عليك إنشاء عمودين بنفس البيانات ، لأنه لا يمكن تحويل عمود إلى رقمي. إذا قمت بتحويل واحد ، فإنه يعطي الخطأ أدناه

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

لذلك ، بعد تطبيق عمود من نفس البيانات

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

سوف يحول الشخصية إلى الرقم بنجاح

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top