data.tableの列クラスの制限は何ですか？

https://stackoverflow.com/questions/7828428

r
data.table

27-10-2019
|

質問

アップデート この問題はもう関連していません data.table バージョン1.8.0以上。ニュースファイルから：

キャラクター列がキーで許可され、因子を考慮に入れるよりも優先されます。 data.table（）およびsetKey（）は、因子に文字を強制しなくなりました。要因はまだサポートされています。 FR＃1493、FR＃1224、および（部分的に）FR＃951を実装します。

元の質問

2つのdata.tablesに参加しようとします。ただし、参加の成功は、data.tablesと一致するために使用する列のクラスに依存します。より正確には、列にはクラス「文字」がないように思われます。理由はよくわかりませんが、ここで明白な何かが欠けていると確信しています。助けてくれて本当に感謝しています。

これが例です：

#Objective: Select all rows from DT for which Region=="US", Year >= 5 & Year<=8, Cat="A"                 
library(data.table)
#Set-up data.table DT
DT <- data.table(Year=1:20, value=rnorm(20), Region=c(rep("US", 10), rep("EU", 10)),     Cat=c(rep("A", 7), rep("B", 7), rep("C", 6)))
setkey(DT, Region, Cat, Year)
#Set-up data.table int_DT to join with DT
years   <- 5:8
df      <- data.frame(Region=c("US", "EU"), Categ=c("A", "B"))
int_DT <- J(cbind(df[1, ], years))
#Join them: Works like a charm!
DT[int_DT]

#Let's assume that for any reason the columns in df are of class "character"
df$Region <- as.character(df$Region)
df$Categ  <- as.character(df$Categ)
#Rebuild int_DT
int_DT    <- J(cbind(df[1, ], years))
DT[int_DT]    
#Error in `[.data.table`(DT, int_DT) : 
#  unsorted column Region of i is not internally type integer.

#OK, maybe the problem is that the column classes in DT are factors, so change those:
DT[, Cat:=as.character(Cat)]
DT[, Region:=as.character(Region)]

DT[int_DT]
#Error in `[.data.table`(DT, int_DT) : 
#  When i is a data.table, x must be sorted to avoid a vector scan of x per row of i

それでもうまくいきません。なんで？制限とは何ですか？何が恋しいですか？さらに情報：私はプラットフォームでデータを使用しています。テーブル1.6.6およびRバージョン2.13.2（2011-09-30）：x86_64-pc-linux-gnu（64ビット）。

解決

希望する結果を得るために参加操作は必要ありません。あなたが言った：'目的：dtからすべての行を選択します== "us"、year> = 5＆year <= 8、cat = "a"'

DT[Region=="US" & Year>=5 & Year <= 8 & Categ=="A"]
     Year       value Region Categ
[1,]    5 -0.18631697     US     A
[2,]    6  1.40059083     US     A
[3,]    7  0.01848557     US     A

しかし、列のクラスに関するあなたの質問に答えること。このコードを機能させることができました。これは、基本的に上記のコードを反映しています。

> setkey(DT, Region, Categ, Year)
> df      <- data.frame(Region=c("US", "EU"), Categ=c("A", "B"))
> dt2 <- data.table(data.frame(df[1, ], Year=5:8))
Warning message:
In data.frame(df[1, ], Year = 5:8) :
  row names were found from a short variable and have been discarded
> dt1[dt2]
     Region Categ Year      value
[1,]     US     A    5 -0.5565422
[2,]     US     A    6 -0.1805841
[3,]     US     A    7  1.4474403
[4,]     US     A    8         NA

同じ、列クラスがあります character:

df$Region <- as.character(df$Region)
df$Categ  <- as.character(df$Categ)
#Rebuild int_DT
dt2    <- J(cbind(df[1, ], Year=5:8))

Warning message:
In data.frame(..., check.names = FALSE) :
  row names were found from a short variable and have been discarded

setkey(dt2, Region)
dt1[dt2]
   Region Year       value Categ Categ.1 Year.1
       US    1  1.20152558     A       A      5
       US    2  1.89391079     A       A      5
       US    3 -1.76022634     A       A      5
       US    4  0.92454680     A       A      5
       US    5 -0.55654217     A       A      5
       ...
       snip 
       ...
       US    9  0.67936243     B       A      8
       US   10 -0.09355764     B       A      8

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow