Eu gosto desse material data.table, uniformemente por sua velocidade de execução e por sua maneira parcimoniosa de script.
Eu uso mesmo em mesas pequenas também.
Eu regularmente subconjunto tabelas desta forma: DT[, .(id1, id5)]
e não desta forma: DT[, c("id1", "id5")]
Hoje medi a velocidade dos dois e me surpreendi com a diferença de velocidade em mesas pequenas. O método parcimonioso é muito mais lento.
Essa diferença é algo pretendido?
Existe a aspiração de fazer convergir a forma parcimoniosa em termos de velocidade de execução para a outra?
(Conta quando tenho que dividir várias tabelas pequenas de maneira repetitiva.)
Ubuntu 18.04
Versão R 3.5.3 (2019-03-11)
dados.tabela 1.12.0
RAM 32 GB
CPU Intel® Core™ i7-8565U @ 1,80 GHz × 8
library(data.table)
library(microbenchmark)
N <- 2e8
K <- 100
set.seed(1)
DT <- data.table(
id1 = sample(sprintf("id%03d", 1:K), N, TRUE), # large groups (char)
id2 = sample(sprintf("id%03d", 1:K), N, TRUE), # large groups (char)
id3 = sample(sprintf("id%010d", 1:(N/K)), N, TRUE), # small groups (char)
id4 = sample(K, N, TRUE), # large groups (int)
id5 = sample(K, N, TRUE), # large groups (int)
id6 = sample(N/K, N, TRUE), # small groups (int)
v1 = sample(5, N, TRUE), # int in range [1,5]
v2 = sample(5, N, TRUE), # int in range [1,5]
v3 = sample(round(runif(100, max = 100), 4), N, TRUE) # numeric e.g. 23.5749
)
microbenchmark(
DT[, .(id1, id5)],
DT[, c("id1", "id5")]
)
Unit: seconds
expr min lq mean median uq max neval
DT[, .(id1, id5)] 1.588367 1.614645 1.929348 1.626847 1.659698 12.33872 100
DT[, c("id1", "id5")] 1.592154 1.613800 1.937548 1.628082 2.184456 11.74581 100
N <- 2e5
DT2 <- data.table(
id1 = sample(sprintf("id%03d", 1:K), N, TRUE), # large groups (char)
id2 = sample(sprintf("id%03d", 1:K), N, TRUE), # large groups (char)
id3 = sample(sprintf("id%010d", 1:(N/K)), N, TRUE), # small groups (char)
id4 = sample(K, N, TRUE), # large groups (int)
id5 = sample(K, N, TRUE), # large groups (int)
id6 = sample(N/K, N, TRUE), # small groups (int)
v1 = sample(5, N, TRUE), # int in range [1,5]
v2 = sample(5, N, TRUE), # int in range [1,5]
v3 = sample(round(runif(100, max = 100), 4), N, TRUE) # numeric e.g. 23.5749
)
microbenchmark(
DT2[, .(id1, id5)],
DT2[, c("id1", "id5")]
)
Unit: microseconds
expr min lq mean median uq max neval
DT2[, .(id1, id5)] 1405.042 1461.561 1525.5314 1491.7885 1527.8955 2220.860 100
DT2[, c("id1", "id5")] 614.624 640.617 666.2426 659.0175 676.9355 906.966 100
Você pode corrigir a formatação do seu post usando uma única linha de três acentos graves antes e depois do trecho de código:
```
code
```
Conta quando eu tenho que subconjunto de várias tabelas pequenas de maneira repetitiva.
Eu acho que selecionar repetidamente colunas de tabelas pequenas é algo que deve e na maioria dos casos pode ser evitado...? Como j
em DT[i, j, by]
suporta e otimiza uma grande variedade de entradas, acho natural que haja alguma sobrecarga na análise.
Em relação a outras maneiras de abordar seu problema (e talvez isso seja mais adequado para o Stack Overflow se você quiser falar mais sobre isso) ... , DT[, setdiff(names(DT), cols) := NULL]
e continue usando o DT diretamente.
Se você ainda preferir pegar o subconjunto, pegar ponteiros de coluna é muito mais rápido do que qualquer uma das opções que você considerou aqui, embora desta forma as edições no resultado afetem a tabela original:
library(data.table)
library(microbenchmark)
N <- 2e8
K <- 100
set.seed(1)
DT <- data.table(
id1 = sprintf("id%03d", 1:K), # large groups (char)
id2 = sprintf("id%03d", 1:K), # large groups (char)
id3 = sprintf("id%010d", 1:(N/K)), # small groups (char)
id4 = sample(K), # large groups (int)
id5 = sample(K), # large groups (int)
id6 = sample(N/K), # small groups (int)
v1 = sample(5), # int in range [1,5]
v2 = sample(5), # int in range [1,5]
v3 = round(runif(100, max = 100), 4), # numeric e.g. 23.5749
row = seq_len(N)
)
cols = c("id1", "id5")
microbenchmark(times = 3,
expression = DT[, .(id1, id5)],
index = DT[, c("id1", "id5")],
dotdot = DT[, ..cols],
oddball = setDT(lapply(setNames(cols, cols), function(x) DT[[x]]))[],
oddball2 = setDT(unclass(DT)[cols])[]
)
Unit: microseconds
expr min lq mean median uq max neval
expression 1249753.580 1304355.3415 1417166.9297 1358957.103 1500873.6045 1642790.106 3
index 1184056.302 1191334.4835 1396372.3483 1198612.665 1502530.3715 1806448.078 3
dotdot 1084521.234 1240062.2370 1439680.6980 1395603.240 1617260.4300 1838917.620 3
oddball 92.659 171.8635 568.5317 251.068 806.4680 1361.868 3
oddball2 66.582 125.9505 150.7337 185.319 192.8095 200.300 3
(Retirei a randomização do seu exemplo e reduzi # vezes no benchmark porque estava impaciente.)
Eu nunca encontrei uma maneira de chamar diretamente o subconjunto de lista de R (que é usado após o unclass
acima).
Em relação a "edições no resultado modificarão a tabela original", quero dizer:
myDT = data.table(a = 1:2, b = 3:4)
# standard way
res <- myDT[, "a"]
res[, a := 0]
myDT
# a b
# 1: 1 3
# 2: 2 4
# oddball, grabbing pointers
res2 <- setDT(unclass(myDT)["a"])
res2[, a := 0]
myDT
# a b
# 1: 0 3
# 2: 0 4
Ok, aprendi algo novo e rápido (os excêntricos) hoje e tenho observado que há uma troca entre velocidade e codificação parcimoniosa. Então o copo está meio cheio! Obrigado!
Acho que #852 relacionado
Comentários muito úteis
Você pode corrigir a formatação do seu post usando uma única linha de três acentos graves antes e depois do trecho de código:
Eu acho que selecionar repetidamente colunas de tabelas pequenas é algo que deve e na maioria dos casos pode ser evitado...? Como
j
emDT[i, j, by]
suporta e otimiza uma grande variedade de entradas, acho natural que haja alguma sobrecarga na análise.Em relação a outras maneiras de abordar seu problema (e talvez isso seja mais adequado para o Stack Overflow se você quiser falar mais sobre isso) ... ,
DT[, setdiff(names(DT), cols) := NULL]
e continue usando o DT diretamente.Se você ainda preferir pegar o subconjunto, pegar ponteiros de coluna é muito mais rápido do que qualquer uma das opções que você considerou aqui, embora desta forma as edições no resultado afetem a tabela original:
(Retirei a randomização do seu exemplo e reduzi # vezes no benchmark porque estava impaciente.)
Eu nunca encontrei uma maneira de chamar diretamente o subconjunto de lista de R (que é usado após o
unclass
acima).Em relação a "edições no resultado modificarão a tabela original", quero dizer: