Introdução
Na Estat Júnior recebemos muitos bancos de dados, em diversos formatos e com vários problemas. O que encarece e prolonga a duração do projeto. Pensando nisso irei fazer uma tradução adaptada a nossa realidade
de How to share data with a statistician por Jeff Leek.
Este guia é voltado para quem tem que compartilhar dados com estatísticos ou cientistas de dados. Na nossa realidade o público alvo seriam alunos e pesquisadores em vários campos da ciência que estão procurando por consultoria. Porém acredito que ele também pode ser útil para pessoas que trabalham junto a estatísticos ou cientistas de dados e que precisam de analise de dados.
Os objetivos desse guia é prover instruções sobre a melhor forma de compartilhar dados para evitar erros comuns e fontes de atraso na transição de organização dos dados para as analises. Aqui na Estat Júnior trabalhamos com um número grandes de pesquisadores e normalmente o estado dos bancos de dados é uma causa significativa na velocidade de execução. Que aparentemente é uma verdade quase universal.
Jeff acredita, e eu também, que estatísticos devem ser capaz de trabalhar com dados qualquer que seja o formato que os recebam. É importante ver os dados não tratados, entender o processo de processamento e ser capaz de incorporar possíveis fontes de variação na análise de dados. Entretanto, para vários tipos de dados, o processo transformação dos dados está bem documentado e padronizado. Nesse caso a conversão dos dados da forma cru para a forma analisável pode ser feito sem um estatístico. Portanto aumentando a velocidade de execução do projeto.
O que você deve entregar para um estatístico
Para que a análise seja a mais rápida e eficiente possível essa são as informações que você deve entregar:
- Os dados não tratados;
- Um banco de dados no formato tidy;
- Uma descrição da cada variável e seus valores do banco de dados;
- Uma explicação exata de como você saiu dos dados não tratados (1) e foi para os dados organizados (2,3).
Os dados não tratados
É importante que você inclua os dados não tratados para garantir que a origem dos dados durante o fluxo de trabalho. Alguns exemplos de dados não tratados são:
- O arquivo binário estranho que sua maquina gerou;
- O arquivo Excel não formatado com 10 abas;
- O arquivo JSON que veio do twitter;
- Os números escritos a mão que você coletou olhando por um microscópio.
Banco de dados no format tidy
Os princípios gerais de dados tidy são definidos por Hadley Wickham nesse artigo. Os princípios são:
- Cada variável medida deve estar em uma coluna;
- Cada observação diferente deve estar em uma coluna diferente;
- Cada tipo de unidade observacional forma uma tabela.
Essa são regras simples, existem várias outras coisas que você pode fazer para deixar seu banco de dados mais fácil de ser analisado. Primeiro é incluir uma linha no topo de cada tabela que contenha nomes completos. Por exemplo se você mediu a idade do paciente no diagnóstico, você nomearia essa coluna com IdadeNoDiagnostico invés de algo como IDy ou outra abreviação que seria difícil de entender.
Descrição dos Dados
Para quase qualquer banco de dado, as medidas calculadas devem ser descritas com mais detalhes do que você pode ou deve colocar nas planilha A descrição dos dados contém essas informações. No mínimo ele deve conter:
- Informações sobre as variáveis, incluindo as unidades, contidas ou não do dados tidy;
- Informações sobre as escolhas sumárias que você fez. 3. Informações sobre o planejamento de experimento usado.
Normalmente esse documento é um arquivo texto ou PDF. Deve conter uma seção que explica como os dados foram coletados. Deve conter uma seção que explica as variáveis e suas unidades.
Como descrever as variáveis
Quando você adiciona variáveis a uma planilha a diversas categorias que você pode encontrar dependendo do tipo dos seus dados:
- Contínuo;
- Ordinal;
- Categorizado;
- Faltante;
- Censurado.
Variáveis contínuas são tudo que é medido em uma escala quantitativa e pode ser um número racional, como o peso medido em kg. Dados ordinais são dados que um número de níveis fixo e pequeno (< 100) e são ordenados, como a resposta de uma pesquisa: bom, regular, ruim. Dados categóricos são dados onde existem múltiplas categorias mas não são ordenados, por exemplo sexo: masculino ou feminino. Dados faltantes são dados não observados e você não sabe o motivo, normalmente codificadas como NA. Dados censurado são não observados mas em que você sabe o motivo, como uma medição abaixo do nível de detecção. Eles também são codificados com NA, mas você deve adicionar uma nova coluna que identifica que a variável é censurada ou não. É de absoluta importância que você reporte ao analista o motivo dos valores faltante se os souber. Você também nunca deve invertar, substituir ou jogar fora observações faltantes.
Em geral evite codificar variáveis categorizadas ou ordinais como número. Sexo por exemplo deve ser, “masculino” ou “feminino”, valor ordinais “ruim”, “regular’ e”bom”, não 1, 2, 3. Isso evita confusão de sobre a direção dos efeitos e ajuda a identificar erros de codificação.
Sempre codifique todas as informações sobre as observações como texto. Por exemplo, se você está guardando seus dados no excel e usa cor ou alguma formatação como forma de indicar informação de uma observação, então essa informação será perdida quando os dados forem exportados como texto. Sempre codifique todos os dados como texto que possa ser exportado.
O que esperar do analista (Estat Júnior)
Agora que você entregou seus dados organizado para os estatísticos é esperado um resultado bem mais rápido. Porém mesmo assim, alguns estatísticos mais cuidadosos vão lhe perguntar sobre os passos executados, confirmar se conseguem chegar no mesmo banco de dados tidy e tirar todas as dúvidas que tiverem sobre os dados.
Em geral após isso você deve esperar de nós um relatório com todas as análises, seguindo o padrão Estat Júnior. Todos os arquivos/figuras/tabelas que foram gerados. Cada passo da análise deve ser bem explicado e você deve perguntar quando não entender o que foi feito. Você talvez não consiga realizar a análise sem a gente, mas deve ser capaz de explicar para os outros os passos de cada análise.
Referências
LEEK JEFF. How to share data with a statistician. Disponível em: https://github.com/jtleek/datasharing/ blob/master/README.md Acesso em: 9 de julho de 2019
Nós somos a Estat Júnior, empresa júnior de estatística da Unicamp. Quer obter melhores resultados nas análises de dados da sua empresa? Fale com a gente!
Texto por: Gabriel Stein