Registry: Adicionar categoria ao conjunto de dados

Criado em 3 nov. 2020  ·  20Comentários  ·  Fonte: gbif/registry

O atual Dataset tem tipo e subtipo que é um pouco problemático. Type está realmente indicando o formato de linha usado no DwC-A e causa problemas, pois uma lista de verificação pode ter ocorrências e um conjunto de dados de ocorrência pode, na verdade, ser a saída de dados de eventos de amostragem.

Um melhor uso de SubType pode ajudar, mas acho que poderia aumentar a confusão devido à sobreposição (por exemplo, um conjunto de dados de ocorrência com evento de amostragem de subtipo).

Como a API agora é tão bem usada e mudar isso é disruptivo, proponho introduzir um novo campo de vários valores chamado category para categorizar conjuntos de dados. Com o tempo, podemos descontinuar tipo e subtipo.

As categorias incluiriam os gostos de (editado para incluir sugestões que vieram do bate-papo abaixo):

  1. Dados da ciência cidadã
  2. Dados de observação
  3. coleção de história natural
    uma. Considere separar os fósseis como uma categoria separada, para evitar uso indevido acidental
  4. Organismo único sequenciado (ou seja, tecido de um espécime NHM)
    uma. Considere adicionar também uma amostra de tecido (que pode ou não ser sequenciada) para auxiliar na descoberta de tecido preservado sem recorrer a outros termos ambíguos
  5. DNA ambiental e/ou metagenômica (por exemplo, amostra de solo, água, sopa de insetos, etc.)
  6. Detecção de espécies-alvo (ensaios baseados em PCR)
  7. Dados de monitoramento de longo prazo
  8. Evento de amostragem (onde algum protocolo foi usado)
  9. Dados da lista de verificação
  10. Citações de materiais (por exemplo, tratamentos taxonômicos na literatura)
  11. dados do setor privado
    uma. Considere dividir isso em categorias mais finas (por exemplo, dados do proponente para avaliação de impacto ambiental antes do desenvolvimento) versus outras categorias (a serem definidas)
  12. dados de rastreamento (ou seja, recapturas ou rastreamento por GPS de organismos individuais)
  13. Observação da máquina (por exemplo, armadilha fotográfica)

As várias categorias seriam adicionadas a cada registro de ocorrência na indexação, permitindo que um filtro intuitivo fosse adicionado no GBIF.org para que as pessoas pudessem selecionar as categorias de conjuntos de dados que lhes interessam.

CC @ahahn- gbif @MortenHofft para comentários em particular

Todos 20 comentários

Obrigado!

~Supondo que isso também suporte métricas (e entendendo que multivalor significa que um conjunto de dados pode pertencer a mais de uma categoria), gostaria de adicionar~
~9. dados do setor privado~
~10. dados de rastreamento (ou seja, recapturas ou rastreamento por GPS de organismos individuais)~

[Tim: Obrigado - Adicionado acima!]

Pergunta: 4. metagenômica (eDNA) devem ser duas categorias separadas? Há uma grande diferença na interpretação desses dados, mesmo que ambos sejam "baseados em sequência" @ManonGros , você comentaria?

[Tim Editado para adicionar: eu os dividi acima agora, mas mudarei novamente com base em mais comentários]

A observação da máquina parece ser uma subcategoria do Evento de Amostragem.

A observação da máquina parece ser uma subcategoria do Evento de Amostragem.

Tudo bem não é? Por ser multivalor, um conjunto de dados pode ser marcado como ambos ou apenas como evento de amostragem, ou talvez haja casos em que uma observação de máquina seria apropriada onde nenhum protocolo de amostragem real é usado.

Essa nova categoria seria texto livre usando o servidor vocab? Ou estamos tentando ter todas as categorias definidas?

Essa nova categoria seria texto livre usando o servidor vocab? Ou estamos tentando ter todas as categorias definidas?

~Indeciso, mas neste momento estamos propondo as categorias~

Revisado: agora sugiro o servidor de vocabulário, conforme detalhado posteriormente neste tópico.

Excelente! Eu amo a ideia!

~Só um comentário:~
~> 4. Metagenômico de organismo único (ou seja, tecido de um espécime NHM)~
~> 5. eDNA ambiental (por exemplo, amostra de solo, água, sopa de insetos, etc.)~

~ O número 4 não parece certo. O que eu entendo ao ler "Metagenômica de organismo único" é que alguém pegou uma amostra do intestino de uma vaca (por exemplo) e a sequenciou, resultando em um monte de ocorrências para o microbioma intestinal. Acho que essa não é a ideia, não é?~
~ Se você quer dizer que os tecidos de um espécime foram sequenciados, então eu escreveria algo mais ao longo das linhas de "Organismo único sequenciado". E, na verdade, poderíamos agrupar metagenômica com eDNA (geralmente eDNA é metagenômica). Então, no final, acho que poderíamos fazer algo como: ~

~4. Organismo único sequenciado (ou seja, tecido de um espécime NHM)~
~5. eDNA ambiental e/ou metagenômica (por exemplo, amostra de solo, água, sopa de insetos, etc.)~

[Tim: Editado com sugestões expressas aqui - obrigado, você realmente entendeu o que eu pretendia!]

Talvez @thomasstjerne tenha alguma opinião sobre isso?

Detecção de espécies direcionadas adicionada (ensaios baseados em PCR)

Obrigado @timrobertson100 por me informar sobre o tópico, muito emocionante. Até agora, encontrei oito prováveis ​​variáveis ​​independentes que podem determinar o tipo de evidência/conjunto de dados no GBIF. Eu preciso meditar um pouco mais antes de apresentar meus pontos de vista aqui, e fico feliz em fazer um brainstorming/quadro branco um pouco se as pessoas estiverem disponíveis?

Acompanhando isso também

Olá a todos, gosto da ideia de ordenar conjuntos de dados e tipos de evidências, mas não tenho certeza se é mais atraente para os usuários fazê-lo usando um único filtro / vocabulário (mas consegui a viabilidade conforme colocado por Tim). Eu desenhei alguns mapas mentais, mas não tenho tempo para adicionar fotos aqui, então digite para sua consideração. Comecei pensando por que os usuários precisariam classificar conjuntos de dados/tipos de evidências? É uma maneira rápida de incluir/excluir tipos de dados importantes para seus casos com base em como a evidência foi gerada e suas propriedades. Eu criei 8 variáveis ​​independentes que cruzam a categorização sugerida do conjunto de dados e o vocabulário basisOfRecord como temos hoje. Observe que acho que o trabalho independente é importante aqui, embora algumas das combinações de 1-8 abaixo sejam impossíveis na vida real.

Estou usando palavras soltas para descrever meu pensamento, este não é um vocabulário que estou sugerindo, e há algumas sobreposições não resolvidas:

  1. Estado de preservação da evidência: apenas virtual ou física: fóssil, morto, vivo (zoológicos, culturas, jardins, aquários). Observe que alguns pensamentos como o âmbar não são fáceis de localizar, pois pode-se obter DNA do âmbar, existem subfósseis etc.). _Pergunta_: Posso reexaminar o material físico? O que e onde está?
  2. Integridade / N espécies: Único e inteiro (por exemplo, inseto, ou seja, contém toda a sua geneta dentro de um indivíduo), parcial (amostra de tecido, folha, corpo de fruto) ou espécime misto (comum na coleta de musgo e líquen, quando a coleta de espécies individuais não é possível : mas não é uma amostragem intencional, por exemplo, como o plâncton, veja 6). _Pergunta_: Posso estudar a morfologia completa, ou apenas alguns traços, ou apenas vincular o espécime do museu à sequência de DNA?
  3. DNA: não explorado, sequência, PCR. Nota: isso está entre o virtual e o físico, pois os produtos de DNA ou PCR podem ser armazenados por muito tempo (físico), mas a evidência de DNA para a presença de espécies, geralmente uma sequência, é uma evidência virtual gerada por máquina não muito diferente de uma imagem digital ou um som. _Pergunta_: Posso reexaminar a identificação, fazer filogenia, ou tudo que tenho é um nome de etiqueta?
  4. Dados dinâmicos / estáticos. Dinâmico: rastreamento, série temporal, marcação-recaptura. _Pergunta_: posso estudar apenas processos ou apenas padrões?
  5. A forma como a evidência é gerada: processamento da literatura, digitalização da coleção, observações pessoais, amostragem sistemática. _Pergunta_: Posso classificar os dados por confiabilidade de sua geração?
  6. Para amostragem de dados de eventos, mas também de ocorrências: somente presença (esforço de amostragem desconhecido/não documentado), presença-ausência, abundância (quantitativa). _Pergunta_: Que tipos de análises estatísticas são possíveis?
  7. A forma como os dados são empacotados no GBIF: apenas metadados, lista de verificação, apenas ocorrências, evento de amostragem. Pode incluir filtro por extensão usado, esp. se estivermos recebendo mais desses no TDWG. _Pergunta_: O que recebo no meu download do GBIF, textualmente e GBIF interpretado?
  8. Comunidade que gera os dados (talvez isso seja mais relevante para marcar editores, mas pode ser necessário filtrar ocorrências e conjuntos de dados por): (grupos de) indivíduos, coleções de história natural, setor privado, marinha, ciência cidadã, máquina. Algumas delas não são mutuamente exclusivas: podem ser "coleção de história natural" + "ciência cidadã" ou "máquina". _Pergunta_: Posso estudar tendências de dados em um determinado setor demográfico?

Mais uma vez, esta é apenas uma captura de pensamentos inacabados; seria bom fazer um brainstorming/quadro branco sobre como seria uma boa categorização. Eu estava pensando em cortá-lo, por exemplo, 1, 7 e 13 no post original podem ser simultaneamente verdadeiros. Se forem tags e a sobreposição não for problema, tudo bem. Mas se este for um filtro estrito, podemos precisar de mais do que apenas campo para capturar tipos de preservação vs. comunidade geradora vs. formas de geração vs. quantitatividade etc. Sinta-se à vontade para descartar se estiver fora do escopo. Também não encontrei a coleção de discussões do BoR, que é aplicável aqui parcialmente.

Suponho que as categorizações viriam de nós (pelo menos é assim que é no momento para conjuntos de dados de ciência cidadã), mas seria ótimo se outras pessoas pudessem ajudar na curadoria também. Apenas algo para ter em mente.

Por exemplo, digamos que pedimos aos gerentes do Node para verificar os conjuntos de dados marcados como "ciência cidadã". Nós queremos:

  1. Uma maneira fácil de ver todos os conjuntos de dados de ciência cidadã de seu nó.
  2. Se um gerenciador de Node notou um conjunto de dados marcado erroneamente, queremos acompanhá-lo para não rotulá-lo na próxima vez.

Olhando para este problema: https://github.com/gbif/portal-feedback/issues/3381 , estaríamos perdendo a categoria data extracted from taxonomic literature (i.e., Plazi) . Você está certo, eu perdi!

Obrigado @ManonGros

Olhando para esta questão: gbif/portal-feedback#3381, estaríamos perdendo os dados extraídos da categoria de literatura taxonômica (ou seja, Plazi).

Era isso que se pretendia:

Citações de materiais (por exemplo, tratamentos taxonômicos na literatura)

(Relacionado é que Plazi acabou de propor Material citation uma adição ao vocabulário basisOfRecord nas edições do Darwin Core para comentários públicos)

+1 @Dmitry para um para muitos e usando tags de palavras-chave (em vez de um registro principal de 1:1 para a categoria)
+1 @Marie por pensar em permitir que a equipe do Node selecione categorias --> e também pode adicionar uma solicitação de recurso para permitir que qualquer pessoa anote um ponto de dados/conjunto com informações de categoria (com proveniência intacta)

Lembre-se também que um "conjunto de dados" (como em Darwin-Core-archive-dataset) pode ser uma mistura de "registros de evidência" (também conhecido como registro principal, por exemplo, ocorrências) de diferentes categorias -- se uma categoria "tag" for projetado para aplicar a todos os registros principais em um DwC-A

E que a desnormalização dos "registros de evidência" (registros principais) significa que não se pode ter certeza de qual classe à qual uma determinada propriedade vinculada a um registro principal deve estar vinculada

Eu realmente gosto dessa ideia. Certamente o ALA tem usuários que desejam uma maneira muito simples de selecionar agrupamentos de registros entre provedores de dados. O grupo de quem mais ouço esse pedido é de curadores/pesquisadores que 'só' querem espécimes de museus ou herbários.

Algumas sugestões:

  1. Coleção de história natural - ainda pode ser útil ter também uma categoria para espécimes fósseis para que eles possam ser facilmente separados.
    A razão para separar os fósseis é que os subfósseis (ou qualquer espécie fóssil ainda existente) geralmente aparecem fora da distribuição existente e podem ser facilmente confundidos com erros e sinalizados como tal, quando são perfeitamente legítimos.
  1. Organismo único sequenciado (ou seja, tecido de um espécime NHM)
    Ter uma categoria adicional para amostra de tecido seria muito útil, quer as sequências tenham sido derivadas ou não.
    Os usuários desta categoria podem ser pesquisadores que procuram tecidos para empréstimo/amostragem destrutiva que atualmente precisam pesquisar BasisOfRecord = amostra de material mais Sorte de preparações.

  2. Dados do setor privado - você quer dizer dados coletados por empresas que realizam avaliações de impacto ambiental antes da aprovação de projetos de desenvolvimento/mineração? Nesse caso, na Austrália, isso seria comumente chamado de “dados do proponente” (sendo dados dos proponentes de um desenvolvimento). Se os dados do setor privado significam outra coisa, talvez possam ter os dois?

Lembre-se também que um "conjunto de dados" (como em Darwin-Core-archive-dataset) pode ser uma mistura de "registros de evidência" (também conhecido como registro principal, por exemplo, ocorrências) de diferentes categorias -- se uma categoria "tag" for projetado para aplicar a todos os registros principais em um DwC-A

Obrigado, @dagendresen. Meu pensamento aqui foi tentar dissociar isso dos problemas class/basisOfRecord no Darwin Core para poder reagir rapidamente às necessidades de relatórios/usuários (por exemplo, introduzir uma nova tag para conjuntos de dados). Reconhecendo que pode haver conjuntos de dados "misturados", minha intuição é que a maioria dos usuários gostaria de uma filtragem ampla para, por exemplo, "omitir registros que se originam de conjuntos de dados marcados como eDNA", mesmo que houvesse algumas entradas que possam ser de algum interesse, ou para produzir relatórios (por exemplo, gráficos de crescimento) com base em, por exemplo, dados originários de conjuntos de dados marcados como relacionados ao setor privado. Isso parece razoável, por favor?

gosto muito dessa ideia

Obrigado, @elywallis - vou adicionar sua entrada à lista no topo agora.

Dados do setor privado - você quer dizer dados coletados por empresas que realizam avaliações de impacto ambiental antes da aprovação de projetos de desenvolvimento/mineração?

Acredito que essa era a intenção, sim. Não conheço os detalhes, mas sei que a equipe de gerenciamento de dados está cada vez mais executando relatórios sobre tendências usando categorias como essa. Vou adicionar seus comentários na lista principal, sem propor uma decisão final.

Um pouco fora do tópico, mas talvez útil:

Pode não ser conhecido por muitos, mas o GBIF está progressivamente movendo vocabulários como este para o nosso servidor de vocabulário integrado. Isso permitirá que os gerenciadores de dados (por exemplo, incluindo gerenciadores de nós @dagendresen ) sejam envolvidos na definição dos conceitos. Os conceitos podem ser hierárquicos (por exemplo, categorizações mais refinadas de dados privados) e uma vez que uma versão de vocabulário é lançada, ela é captada nos pipelines de processamento de dados. Isso ainda está evoluindo, mas o LifeStage está em produção agora.

O que isso significa em relação a esse problema é que, à medida que encontramos novos requisitos para categorizar conjuntos de dados para um novo relatório ou comunidade que vemos surgir, teremos as ferramentas para acomodar isso sem precisar do envolvimento do desenvolvedor de software (requer apenas um vocabulário para ser alterado e, em seguida, prossiga com a marcação de conjuntos de dados).

conjuntos de dados "saco misto"

@timrobertson100 Eu (se perguntado) concordo completamente que a melhor prática é evitar conjuntos de dados "misturados" e que uma "tag" para habilitar o filtro para um _"purpose-of-reuse"_ seria muito útil e bem-vindo! E acredito que poderíamos viver bem com essa funcionalidade não aplicando 100% a conjuntos de dados "misturados" :-)

(a propósito -- GBIF Noruega está "negociando" com editores de dados noruegueses para "dividir" conjuntos de dados "misturados" em conjuntos de dados menores que seriam mais homogêneos)

@timrobertson100 escreveu:

Um pouco fora do tópico, mas talvez útil:

Pode não ser conhecido por muitos, mas o GBIF está progressivamente movendo vocabulários como este para o nosso servidor de vocabulário integrado. Isso permitirá que os gerenciadores de dados (por exemplo, incluindo gerenciadores de nós @dagendresen ) sejam envolvidos na definição dos conceitos. Os conceitos podem ser hierárquicos (por exemplo, categorizações mais refinadas de dados privados) e uma vez que uma versão de vocabulário é lançada, ela é captada nos pipelines de processamento de dados. Isso ainda está evoluindo, mas o LifeStage está em produção agora.

O que isso significa em relação a esse problema é que, à medida que encontramos novos requisitos para categorizar conjuntos de dados para um novo relatório ou comunidade que vemos surgir, teremos as ferramentas para acomodar isso sem precisar do envolvimento do desenvolvedor de software (requer apenas um vocabulário para ser alterado e, em seguida, prossiga com a marcação de conjuntos de dados).

Tim, você pode ver meu? Em algum momento, precisamos de algo, uma palestra do GBIF, um TDWG Webinar, sobre esse esforço. Acho que a comunidade mais ampla achará muito esclarecedor como podemos usar os dados que temos para melhorar e entender os dados.

Esta página foi útil?
0 / 5 - 0 avaliações

Questões relacionadas

timrobertson100 picture timrobertson100  ·  17Comentários

rukayaj picture rukayaj  ·  9Comentários

timrobertson100 picture timrobertson100  ·  9Comentários

rukayaj picture rukayaj  ·  14Comentários

MortenHofft picture MortenHofft  ·  24Comentários