Dplyr: Sie müssen in der Lage sein, Gruppen zu beproben

Erstellt am 28. März 2014 · 9Kommentare · Quelle: tidyverse/dplyr

Sowie Einzelpersonen innerhalb von Gruppen

Quelle

hadley

👍3

Hilfreichster Kommentar

Die obige Antwort von @drhagen sieht aus, als wäre sie veraltet. Das scheint jetzt zu funktionieren:

sample_n_groups = function(tbl, size, replace = FALSE, weight = NULL) {
  # regroup when done
  grps = tbl %>% groups %>% lapply(as.character) %>% unlist
  # check length of groups non-zero
  keep = tbl %>% summarise() %>% ungroup() %>% sample_n(size, replace, weight)
  # keep only selected groups, regroup because joins change count.
  # regrouping may be unnecessary but joins do something funky to grouping variable
  tbl %>% right_join(keep, by=grps) %>% group_by_(.dots = grps)
}

kendonB am 6. März 2017

👍7 🎉1

Alle 9 Kommentare

species <- iris %.% 
  group_by(Species) %.% 
  summarise(wt = sum(Sepal.Length)) %.%
  sample_n(5, replace = T, weight = wt) %.%
  select(-wt)

inner_join(species, iris)

hadley am 28. März 2014

Ich frage mich, warum das geschlossen wurde? Scheint eine potenziell nützliche Funktion zu sein

iris %>%
    group_by(Species) %>%
    sample_n(1)

um alle Daten von einer zufälligen Spezies auszuwählen, zB

rcorty am 21. Apr. 2015

👍2

Ich glaube nicht, dass sich das Verhalten von sample_n für Gruppen ändern sollte, da das Sampling innerhalb von Gruppen sein intuitives Verhalten ist. Es ist jedoch oft praktisch, Gruppen als Ganzes zu beproben. Dies sollte eine zweite Funktion sein. Hier meine Umsetzung:

sample_n_groups = function(tbl, size, replace = FALSE, weight=NULL) {
   # regroup when done
   grps = tbl %>% groups %>% unlist %>% as.character
   # check length of groups non-zero
   keep = tbl %>% summarise() %>% sample_n(size, replace, weight)
   # keep only selected groups, regroup because joins change count.
   # regrouping may be unnecessary but joins do something funky to grouping variable
   tbl %>% semi_join(keep) %>% group_by_(grps) 
}

Das Beispiel von @rcorty funktioniert wie erwartet

iris %>% group_by(Species) %>% sample_n_groups(1)

MarcusWalz am 29. Juni 2016

👍2

kendonB am 4. Juli 2016

Bearbeiten: Eine Änderung in dplyr diese Lösung gebrochen;

Für diejenigen unter Ihnen, die über eine Suchmaschine hierher gekommen sind und nach dieser Funktionalität gesucht haben, wird die Implementierung von @MarcusWalz nicht mit Ersetzung bei replace = TRUE abgetastet . Die Implementierung muss right_join (oder left_join oder inner_join ) verwenden, um die Duplikate zu behalten:

sample_n_groups = function(tbl, size, replace = FALSE, weight=NULL) {
  # regroup when done
  grps = tbl %>% groups %>% unlist %>% as.character
  # check length of groups non-zero
  keep = tbl %>% summarise() %>% sample_n(size, replace, weight)
  # keep only selected groups, regroup because joins change count.
  # regrouping may be unnecessary but joins do something funky to grouping variable
  tbl %>% right_join(keep, by=grps) %>% group_by_(grps) 
}

drhagen am 30. Aug. 2016

👍3

Cluster-Bootstrapping ist ein weit verbreiteter Anwendungsfall für diese Funktion.

kendonB am 13. Dez. 2016

@drhagen , haben Sie in Ihrer Implementierung Vorschläge zum Generieren einer neuen eindeutigen Gruppen-ID?

kendonB am 13. Dez. 2016

Eigentlich ist das ganz einfach:

sample_n_groups = function(tbl, size, replace = FALSE, weight=NULL) {
  # regroup when done
  grps = tbl %>% groups %>% unlist %>% as.character
  # check length of groups non-zero
  keep = tbl %>% summarise() %>% sample_n(size, replace, weight) %>% 
    mutate(unique_id = 1:NROW(.))
  # keep only selected groups, regroup because joins change count.
  # regrouping may be unnecessary but joins do something funky to grouping variable
  tbl %>% right_join(keep, by=grps) %>% group_by_(grps) 
}

kendonB am 13. Dez. 2016

Die obige Antwort von @drhagen sieht aus, als wäre sie veraltet. Das scheint jetzt zu funktionieren:

sample_n_groups = function(tbl, size, replace = FALSE, weight = NULL) {
  # regroup when done
  grps = tbl %>% groups %>% lapply(as.character) %>% unlist
  # check length of groups non-zero
  keep = tbl %>% summarise() %>% ungroup() %>% sample_n(size, replace, weight)
  # keep only selected groups, regroup because joins change count.
  # regrouping may be unnecessary but joins do something funky to grouping variable
  tbl %>% right_join(keep, by=grps) %>% group_by_(.dots = grps)
}

kendonB am 6. März 2017

👍7 🎉1

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Dplyr: Sie müssen in der Lage sein, Gruppen zu beproben

Hilfreichster Kommentar

Alle 9 Kommentare

Verwandte Themen