dplyr 🚀 - 長さゼロのグループを保持する

この号を開いてくれてありがとうハドリー。

eipi10 2014年03月20日

：+1：今日同じ問題に遭遇しました、 drop = FALSEは私にとって大きな助けになるでしょう！

statwonk 2014年04月28日

👍1

.drop = FALSEに相当するものをdplyrに入れるための時間枠に関するアイデアはありますか？特定のrChartを正しくレンダリングするには、これが必要です。

その間に、私はあなたのリンクで答えを得ました。
http://stackoverflow.com/questions/22523131

私は2つの変数でグループ化しました。

wsurles 2014年07月09日

空のグループを削除しないオプションの+1

jennybc 2014年07月23日

＃486および＃413と一部重複している可能性があります。

hadley 2014年08月01日

空のグループを削除しないと非常に便利です。サマリーテーブルを作成するときによく必要になります。

slackline 2014年08月30日

+ 1-これは多くの分析にとって大きな問題です

mcfrank 2014年10月29日

👍4

私は上記のすべてに同意します-非常に役立つでしょう。

bpbond 2014年11月11日

@romainfrancois現在、 build_index_cpp()はdrop属性を尊重していません。

t1 <- data_frame(
  x = runif(10),
  g1 = rep(1:2, each = 5),
  g2 = factor(g1, 1:3)
)
g1 <- grouped_df(t1, list(quote(g2)), drop = FALSE)
attr(g1, "group_size")
# should be c(5L, 5L, 0L)
attr(g1, "indices")
# shoud be list(0:4, 5:9, integer(0))

ドロップ属性は、因子でグループ化する場合にのみ適用されます。この場合、レベルが実際にデータに適用されるかどうかに関係なく、因子レベルごとに1つのグループが必要です。

これは、次の方法で単一テーブルの動詞にも影響します。

select() ：効果なし
arrange() ：効果なし
summarise() ：ゼロ行グループに適用される関数には0レベルの整数を指定する必要があります。 n()は0を返し、 mean(x)はNaNを返す必要があります
filter() ：一部のグループに行がない場合でも、グループのセットは一定のままである必要があります
mutate() ：空のグループの式を評価する必要はありません

最終的にはdrop = FALSEがデフォルトになり、 drop = FALSEとdrop = TRUE両方のブランチを作成するのが面倒な場合は、 drop = FALSEサポートを喜んで中止します（いつでも自分で因子を再平準化するか、代わりに文字ベクトルを使用できるため）。

それは理にかなっていますか？大変な作業の場合は、0.4まで延期できます。

@statwonk、@wsurles、@jennybc、@slackline、@mcfrank、@ eipi10あなたが助けしたい場合は、行うための最善のことは、異なる動詞が相互作用する可能性のあるすべての方法を行使したテストケースのセットで動作するようになります長さがゼロのグループ。

hadley 2014年11月20日

ああ。 dropが何をするのかわからなかったと思います。それはそれを明らかにします。大変な作業ではないと思います。

romainfrancois 2014年11月27日

上記の単一のテーブル動詞が長さゼロのグループを正しく処理するかどうかをテストするプルリクエスト＃833を開きました。もちろん、dplyrは現在テストに失敗しているため、ほとんどのテストはコメント化されています。

bpbond 2014年12月04日

+1、ここでステータスの更新はありますか？要約が大好きで、空のレベルを維持する必要があります！

ebergelson 2015年05月28日

@ebergelson 、これが長さゼロのグループを取得するための私の現在のハックです。棒グラフが積み重なるように、これが必要になることがよくあります。

ここで、dfには、名前、グループ、メトリックの3つの列があります。

df2 <- expand.grid(name = unique(df$name), group = unique(df$group)) %>%
    left_join(df, by=c("name","group")) %>%
    mutate(metric = ifelse(is.na(metric),0,metric))

wsurles 2015年05月28日

私も同様のことをします。欠落しているグループをチェックしてから、すべての組み合わせとleft_joinます。

残念ながら、この問題があまり愛されていないようです...おそらくこの簡単な回避策があるためです。

bpbond 2015年05月28日

@ wsurles 、 @ bpbondありがとう、はい、私はあなたが提案したものと同様の回避策を使用しました！ .dropのような組み込みの修正を見てみたいです。

ebergelson 2015年05月29日

上記のすべての人を追加して同意するだけです。これは、多くの分析の非常に重要な側面です。実装を見たいです。

jalapic 2015年06月18日

ここで必要な詳細：

私がこれを持っている場合：

> df <- data_frame( x = c(1,1,1,2,2), f = factor( c(1,2,3,1,1) ) )
> df
Source: local data frame [5 x 2]

  x f
1 1 1
2 1 2
3 1 3
4 2 1
5 2 1

そして、 x 、次にfでグループ化すると、グループ(2, 2)と(2,3)が空の6（2x3）グループになります。それで大丈夫です。なんとか実装できると思います。

今、私がこれを持っている場合はどうなりますか？

> df <- data_frame( f = factor( c(1,1,2,2), levels = 1:3), x = c(1,2,1,4) )
> df
Source: local data frame [4 x 2]

  f x
1 1 1
2 1 2
3 2 1
4 2 4

f 、次にxグループ化します。グループは何でしょうか？ @hadley

romainfrancois 2015年07月14日

この場合、 stats::aggregateとplyr::ddply両方が4つのグループ（1,1; 1,2; 2,1;および2,4）を返すので、これが準拠する動作であることをお勧めします。。

bpbond 2015年07月14日

代わりにtable()に同意するべきではありませんか、つまり、9つのグループを返しますか？

> table(df$f, df$x)
  1 2 4
1 1 1 0
2 1 0 1
3 0 0 0

df %>% group_by(f, x) %>% tally 、基本的にwith(df, as.data.frame(table(f, x)))およびddply(df, .(f, x), nrow, .drop=FALSE)と同じ結果になると思います。

huftis 2015年07月14日

👍1

私たちの望ましい振る舞いは、長さがゼロのグループが要因である場合（.drop in plyrなど）を保持することだと思ったので、 @ huftisの提案が必要だと思います。ただし、デフォルトの動作が変更されないように、デフォルトをdrop = TRUEにすることをお勧めします。これについては、 @ bpbondの提案を参照してください。

mcfrank 2015年07月20日

うーん、行動がどうあるべきか正確に頭を包むのは難しいです。これらの非常に単純な思考実験は正しいように見えますか？

df <- data_frame(x = 1, y = factor(1, levels = 2))
df %>% group_by(x) %>% summarise(n())
#> x n
#> 1 1  

df %>% group_by(y) %>% summarise(n())
#> y n
#> 1 1
#> 2 0

df %>% group_by(x, y) %>% summarise(n()
#> x y n
#> 1 1 1
#> 1 2 0

しかし、 xに複数の値がある場合はどうなりますか？このように動作する必要がありますか？

df <- data_frame(x = 1:2, y = factor(1, levels = 2))
df %>% group_by(x, y) %>% summarise(n()
#> x y n
#> 1 1 1
#> 2 1 1
#> 1 1 0
#> 2 2 0

空のグループを保持することは、単一の変数でグループ化する場合にのみ意味がありますか？より現実的にフレーム化する場合、たとえばdata_frame(age_group = c(40, 60), sex = factor(M, levels = c("F", "M"))は、本当に女性のカウントが必要ですか？時々そうすることもあれば、そうしないこともあると思います。すべての組み合わせを展開することは、私には多少異なる操作のように思えます（そして因子の使用とは無関係です）。

たぶんgroup_byはdropとexpand両方の引数が必要ですか？ drop = FALSEは、データに表示されない因子レベルによって生成されたすべてのサイズゼロのグループを保持します。 expand = TRUEは、データに表示されない値の組み合わせによって生成されたすべてのサイズゼロのグループを保持します。

hadley 2015年07月21日

👍1

@hadleyあなたの例は私には正しく見えます（あなたがlevels = 1:2ではなくlevels = 2 levels = 1:2を意味していると仮定します）。また、いくつかの変数でグループ化する場合でも、空のグループを保持することは理にかなっていると思います。たとえば、変数がsex （ maleとfemale ）とanswer （アンケートで、レベルdisagree 、 neutral 、 agree ）、性別ごとに各回答の頻度をカウントしたい場合（たとえば、テーブルの場合、または後でプロットする場合）、回答カテゴリを削除するだけでは不十分です。女性がそれに答えなかったので。

また、因子変数は、結果のdata_frame （文字列に変換されない）で、_元のレベル_で因子変数のままであると予想します。（したがって、データをプロットする場合、回答カテゴリは、アルファベット順のagree 、 disagree 、 neutralではなく、正しい順序になります）。

最後の例では、 sex変数を削除するのが自然な場合（たとえば、意図的に女性が調査されなかった場合）、そうでない場合（たとえば、次のように層化された先天性欠損症の数を数える場合）です。性別（そしておそらく年））。しかし、これはデータを集約した後でも簡単に処理できます（そしてそうすべきです）。（別の解決策は、_vector-valued_ .drop引数を受け入れることです。それは素晴らしいことですが、複雑になる可能性があると思いますか？）

huftis 2015年07月21日

👍2

（別の解決策は、ベクトル値の.drop引数を受け入れることです。それは素晴らしいことですが、複雑になる可能性があると思いますか？）

はい、おそらく複雑すぎます。それ以外の場合は、 @ huftisのコメントに同意します。

bpbond 2015年07月24日

@hadley
私が思うに
YES値のすべての組み合わせがデータに存在する場合は、group_byに展開されます。
いいえ、存在しない因子レベルでは拡張しません。

私の最も頻繁な使用例は、グラフ用に要約されたデータのセットを準備することです（探索中）。また、グラフにはすべての値の組み合わせが必要です。ただし、すべてのグループに対して0の因子レベルを持つ必要はありません。たとえば、すべての組み合わせがないと棒グラフを積み重ねることはできません。ただし、データに存在しない因子値は必要ありません。スタックすると0になり、凡例には空の値になります。

必要に応じて、グループ化後の0ケースをフィルタリングする方がはるかに簡単（かつ直感的）であるため、すべての値をgroup_byに展開することがデフォルトであると思います。 .drop引数は必要ないと思います。なぜなら、後の0ケースをフィルタリングするのは簡単だからです。他の関数に追加の引数を使用しないので、これは型を壊します。デフォルトでは、group_byに基づいて既存の値のすべての組み合わせの結果を表示する必要があります。

これが正しいデフォルトの動作になると思います。ここで、一意は、すべての因子レベルではなく、因子の既存の値のみを拡張します。（これは、0個の値をドロップするgroup_byを実行した後に実行するものです）

## Expand data so plot groups works correctly
  df2 <- expand.grid(name = unique(df$name), group = unique(df$group)) %>%
    left_join(df, by=c("name","group")) %>%
    mutate(
      measure = ifelse(is.na(measure),0,measure)
    )

すべてのグループにゼロがあったとしても、値が必要な場所を確認できる唯一のケースは、時間データの場合です。たぶん、データの1日が途中のどこかで欠落しています。ここでは、日付範囲での展開と結合が引き続き必要です。因子レベルの場合は適用されません。データクランチャーが不足している日付を自分で処理するのは公平だと思います。

このライブラリでの素晴らしい作業に感謝します。私の仕事の90％はdplyrを使用しています。：）

wsurles 2015年07月24日

@huftisに強く同意します。

レベルの削除またはレベルの組み合わせは、データとは何の関係もないと思います。小さなサンプルを使用して、関数または図のプロトタイプを作成している可能性があります。または、split-apply-combine操作を実行します。この場合、各グループの出力が他のすべてのグループと一致することを保証する必要があります。

私の立場を和らげる：グループ化変数がすでに適切な因子である場合と、因子を強制されている場合で、デフォルトの動作が異なるかどうかを検討する価値があると思います。強制の場合、未使用のレベルを維持する義務が少なくなる可能性があることがわかります。しかし、私が何かを要因として設定し、レベルを制御するのに苦労した場合...通常は正当な理由があり、それを維持するために絶えず戦うことはしたくありません。

jennybc 2015年07月24日

👍2

参考までに、この機能も見たいです。 @huftisで説明されているのと同様のシナリオがあり、必要な結果を得るにはフープを飛び越えなければなりません。

tmalsburg 2016年01月28日

SOからここに来ました。これは、「tidyr」のcompleteが役立つはずです。

mrdwab 2016年03月18日

はい、そうです。私は実際に最近「完全」について学びました、そしてそれは思慮深い方法でこれを達成するようです。

wsurles 2016年03月18日

SQLバックエンドにそれを実装することは、デフォルトですべてのグループを削除するため、難しいように見えます。それをそのままにして、SQL用にtidyr :: complete（）を実装しませんか？

krlmlr 2016年09月24日

👍1

私はこの問題がすでに存在していることに気づかずに問題＃3033を作成しました-重複についてお詫びします。私自身の謙虚な提案を追加するために、私は現在、この問題の回避forcats::fct_count()としてpull()とforcats::fct_count()しています。

fct_count()は、常に入力と同じ型の出力を作成するという整然とした原則を裏切っているため（つまり、この関数はベクトルからティブルを作成します）、私はこのメソッドのファンではありません。出力の列の名前を変更します。これにより、 dplyr::count()が1つをカバーすることを意図していた場合、3つのステップ（ pull() %>% fct_count() %>% rename() ）が作成されます。 forcats::fct_count()とdplyr::count()なんらかの方法で統合し、 forcats::fct_count()を廃止できれば素晴らしいと思います。

ghost 2017年08月22日

👍1

tidyr::complete()は要因に対して機能しますか？

krlmlr 2017年08月22日

すべての因子レベルおよび因子レベルの組み合わせは、デフォルトで保持する必要があります。この動作は、 drop 、 expandなどのパラメータで制御できます。したがって、 dplyr::count()のデフォルトの動作は次のようになります。

df <- data.frame(x = 1:2, y = factor(c(1, 1), levels = 1:2))
df %>% dplyr::count(x, y)
#>  # A tibble: 4 x 3
#>       x        y       n
#>     <int>   <fct>    <int>
#> 1     1        1       1
#> 2     2        1       1
#> 3     1        2       0
#> 4     2        2       0

長さがゼロのグループ（グループの組み合わせ）は、後でフィルタリングできます。しかし、探索的分析のためには、全体像を見る必要があります。

この問題の解決策に関するステータスの更新はありますか？
この問題を完全に解決する計画はありますか？

GegznaV 2018年03月05日

2：はい間違いなく
1：この問題には技術的な実装上の問題がいくつかありますが、数週間以内に調査します。

romainfrancois 2018年03月05日

👍2

次のように、事後にデータを拡張することでこれを回避できる可能性があります。

library(tidyverse)

truly_group_by <- function(data, ...){
  dots <- quos(...)
  data <- group_by( data, !!!dots )

  labels <- attr( data, "labels" )
  labnames <- names(labels)
  labels <- mutate( labels, ..index.. =  attr(data, "indices") )

  expanded <- labels %>%
    tidyr::expand( !!!dots ) %>%
    left_join( labels, by = labnames ) %>%
    mutate( ..index.. = map(..index.., ~if(is.null(.x)) integer() else .x ) )

  indices <- pull( expanded, ..index..)
  group_sizes <- map_int( indices, length)
  labels <- select( expanded, -..index..)

  attr(data, "labels")  <- labels
  attr(data, "indices") <- indices
  attr(data, "group_sizes") <- group_sizes

  data
}

df  <- data_frame(
  x = 1:2,
  y = factor(c(1, 1), levels = 1:2)
)
tally( truly_group_by(df, x, y) )
#> # A tibble: 4 x 3
#> # Groups:   x [?]
#>       x y         n
#>   <int> <fct> <int>
#> 1     1 1         1
#> 2     1 2         0
#> 3     2 1         1
#> 4     2 2         0
tally( truly_group_by(df, y, x) )
#> # A tibble: 4 x 3
#> # Groups:   y [?]
#>   y         x     n
#>   <fct> <int> <int>
#> 1 1         1     1
#> 2 1         2     1
#> 3 2         1     0
#> 4 2         2     0

明らかに将来的には、これは内部で処理され、tidyrまたはpurrrを使用する必要はありません。

romainfrancois 2018年04月09日

これは、元の質問を処理しているようです。

> df = data.frame(a=rep(1:3,4), b=rep(1:2,6))
> df$b = factor(df$b, levels=1:3)
> df %>%
+   group_by(b) %>%
+   summarise(count_a=length(a), .drop=FALSE)
# A tibble: 2 x 3
  b     count_a .drop
  <fct>   <int> <lgl>
1 1           6 FALSE
2 2           6 FALSE
> df %>%
+   truly_group_by(b) %>%
+   summarise(count_a=length(a), .drop=FALSE)
# A tibble: 3 x 3
  b     count_a .drop
  <fct>   <int> <lgl>
1 1           6 FALSE
2 2           6 FALSE
3 3           0 FALSE

romainfrancois 2018年04月09日

ここでの鍵はこれです

 tidyr::expand( !!!dots ) %>%

これは、変数が要因であるかどうかに関係なく、すべての可能性を拡大することを意味します。

私たちはどちらかだと思います：

drop=FALSEときにすべて展開し、長さ0のグループがたくさんある可能性があります
drop=TRUE場合、今行っていることを実行します

おそらくドロップネスを切り替える機能があります。

これは、メタデータの操作のみが含まれるため、比較的安価な操作です。したがって、最初にRでこれを行う方がリスクが少ないのではないでしょうか。

romainfrancois 2018年04月09日

もしかしてcrossing()の代わりにexpand() ？

内部を見て、これを実現するために、 build_index_cpp() 、特にlabelsデータフレームの生成を「変更するだけ」でよいことに同意しますか？

drop = FALSE要素のみを拡張することから始められますか？私は「自然な」構文を検討しましたが、これは最終的には混乱しすぎるかもしれません（そしておそらく十分に強力ではありません）：

group_by(data, crossing(col1, col2), col3)

意味：すべての組み合わせを使用してcol1とcol2して、そしてそこに既存の組み合わせcol3 。

krlmlr 2018年04月10日

はい、これはbuild_index_cppと、押しつぶしたい属性labels 、 indices 、 group_sizesの生成にのみ影響すると思います。＃3489の一部としての整頓された構造

この議論の「唯一の拡大要因」の部分は、非常に時間がかかったものです。

これらの結果はどうなるでしょうか。

library(dplyr)

d <- data_frame(
  f1 = factor( rep( c("a", "b"), each = 4 ), levels = c("a", "b", "c") ),
  f2 = factor( rep( c("d", "e", "f", "g"), each = 2 ), levels = c("d", "e", "f", "g", "h") ),
  x  = 1:8,
  y  = rep( 1:4, each = 2)
)

f <- function(data, ...){
  group_by(data, !!!quos(...))  %>%
    tally()
}
f(d, f1, f2, x)
f(d, x, f1, f2)

f(d, f1, f2, x, y)
f(d, x, f1, f2, y)

romainfrancois 2018年04月10日

行の順序を無視すると、 f(d, f1, f2, x)はf(d, x, f1, f2)と同じ結果になるはずです。他の2つについても同じです。

また興味深い：

f(d, f2, x, f1, y)
d %>% sample_frac(0.3) %>% f(...)

ファクターに対してのみ完全拡張を実装するというアイデアが好きです。文字以外のデータ（論理を含む）の場合、それぞれのデータ型を継承する因子のようなクラスを定義/使用できます。おそらくforcatsによって提供され

krlmlr 2018年04月10日

＃3492で進行中の実装

library(dplyr)
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union
df <- data_frame( f = factor( c(1,1,2,2), levels = 1:3), x = c(1,2,1,4) )

( res1 <- tally(group_by(df,f,x, drop = FALSE)) )
#> # A tibble: 9 x 3
#> # Groups:   f [?]
#>   f         x     n
#>   <fct> <dbl> <int>
#> 1 1        1.     1
#> 2 1        2.     1
#> 3 1        4.     0
#> 4 2        1.     1
#> 5 2        2.     0
#> 6 2        4.     1
#> 7 3        1.     0
#> 8 3        2.     0
#> 9 3        4.     0
( res2 <- tally(group_by(df,x,f, drop = FALSE)) )
#> # A tibble: 9 x 3
#> # Groups:   x [?]
#>       x f         n
#>   <dbl> <fct> <int>
#> 1    1. 1         1
#> 2    1. 2         1
#> 3    1. 3         0
#> 4    2. 1         1
#> 5    2. 2         0
#> 6    2. 3         0
#> 7    4. 1         0
#> 8    4. 2         1
#> 9    4. 3         0

all.equal( res1, arrange(res2, f, x) )
#> [1] TRUE

all.equal( filter(res1, n>0), tally(group_by(df, f, x)) )
#> [1] TRUE
all.equal( filter(res2, n>0), tally(group_by(df, x, f)) )
#> [1] TRUE

reprexパッケージ（v0.2.0）によって2018-04-10に作成されました。

romainfrancois 2018年04月10日

👍2

complete()が問題を解決するかどうかについては、いいえ、そうではありません。計算される要約が何であれ、空のベクトルでのそれらの動作は、事後にパッチを当てるのではなく、保持する必要があります。例えば：

data.frame(x=factor(1, levels=1:2), y=4:5) %>%
     group_by(x) %>%
     summarize(min=min(y), sum=sum(y), prod=prod(y))
# Should be:
#> x       min   sum  prod
#> 1         4     9    20
#> 2       Inf     0     1

sumとprod （および程度は少ないですがmin ）（およびその他のさまざまな関数）は、空のベクトルに対して非常に明確に定義されたセマンティクスを持っています。その後、 complete()を使用して、これらの動作を再定義します。

kenahoo 2018年05月15日

@kenahooわかりません。これは、現在の開発バージョンで得られるものです。したがって、取得できないのはmin()からの警告だけです。

library(dplyr)

data.frame(x=factor(1, levels=1:2), y=4:5) %>%
  group_by(x) %>%
  summarize(min=min(y), sum=sum(y), prod=prod(y))
#> # A tibble: 2 x 4
#>   x       min   sum  prod
#>   <fct> <dbl> <int> <dbl>
#> 1 1         4     9    20
#> 2 2       Inf     0     1

min(integer())
#> Warning in min(integer()): no non-missing arguments to min; returning Inf
#> [1] Inf
sum(integer())
#> [1] 0
prod(integer())
#> [1] 1

reprexパッケージ（v0.2.0）によって2018-05-15に作成されました。

romainfrancois 2018年05月15日

@romainfrancoisかっこいい、私はあなたがすでにこの実装に

kenahoo 2018年05月15日

この古い問題は自動的にロックされています。関連する問題を見つけたと思われる場合は、新しい問題を（reprexを使用して）提出し、この問題にリンクしてください。 https://reprex.tidyverse.org/

lock[bot] 2018年11月11日

Dplyr: 長さゼロのグループを保持する

最も参考になるコメント

全てのコメント44件

関連する問題