Saiba como deixar uma base de dados mais limpa para analisá-la

Quando pegamos uma base de dados, raramente ela estará pronta para ser analisada. Problemas como ortografia incorreta, espaços em lugares indevidos e, até mesmo, letras minúsculas e maiúsculas podem impactar diretamente na sua conclusão. Com isso, devemos sempre buscar a melhor forma possível de arrumá-los, de modo a evitar que um erro mude todo o seu resultado.

Nesse artigo, vamos citar os erros mais comuns e que mais te atrapalham e, posteriormente, te dar um exemplo em uma base de dados real no Excel.

Antes de tudo, a primeira dica é que você crie um backup da base original, sem alterações. Diminuem, assim, as chances de que dados sejam perdidos na limpeza.

Verificação Ortográfica

Se sua base de dados se trata de algum formulário de resposta aberta, isso será um dos principais problemas para ficar de olho. É importante que as respostas sejam padronizadas para que sejam contabilizadas corretamente.

Suponhamos que uma das informações da sua base seja “em qual estado as pessoas moram”. Poderá ser escrito “São Paulo”, “SP”, “Sao Paulo” (sem o “~”), “são paulo” (em iniciais minúsculas), e todas as outras diferentes maneiras. Você terá que padronizá-las, de modo que todas essas respostas sejam contabilizadas em um mesmo termo.

Para isso, é possível usar a opção “Filtro” (atalho: ctrl + shift + L) do Excel, para ver quais os diferentes jeitos que foram escritos, e deixá-los todos iguais com “Localizar e Substituir”. Muitas vezes, vai ser necessário filtrar somente aquelas respostas e mudá-las manualmente.

Alterar modelo de data

As datas geralmente são uma parte crítica da análise de dados. Se há informações na sua base que são datas, é preciso ficar atento. O Excel possui um sistema um pouco complexo, que pode ser conferido clicando aqui.

Basicamente, ele armazena as datas como números sequenciais chamados valores de série. Por exemplo, para Windows, 1º de janeiro de 1900 é o número de série 1 e 1º de janeiro de 2008 é o número de série 39448 porque é 39.448 dias após 1º de janeiro de 1900.

Dicas básicas

Além disso, há outras dicas rápidas para utilizar. São elas:

  • Remover duplicatas: Duplicatas são dados duplicados que podem te atrapalhar na hora da análise. Com a opção do próprio Excel, na aba dados, basta selecionar as colunas de interesse da base e clicar nela.
  • Oculte colunas desnecessárias: Se não vai utilizar tais informações, não há motivos para deixá-las na planilha de modo que poderá te confundir ou não auxiliar em nada. Selecione as colunas, clique com o botão direito do mouse, escolhendo a opção “Ocultar”.
  • Separe os dados que serão trabalhados: Selecione os dados do grupo de interesse e separe-os em uma planilha para facilitar a análise.
Na prática

Agora que você viu a teoria, vamos exemplificar de uma maneira simples, utilizando a base de dados do Covid-19 no Estado de São Paulo.

Suponha que queremos analisar os dados da cidade de Campinas de casos/mortes diárias causados pelo Covid-19, no ano de 2021.

Nesse caso, é preciso ir até o site do Governo do Estado de São Paulo e realizar o download da base de todo o Estado, contendo a seguinte estrutura:

Temos dados de todas as cidades de São Paulo, desde 25/02/2020 até o dia acessado. Como queremos apenas os dados de Campinas entre a data 01/01/2021 e 31/12/2021, é necessário filtrá-los (pela função filtro do Excel), movendo-os para outra planilha (no mesmo arquivo).

Feito isso, ocultamos as colunas que não serão usadas, deixando a base ainda mais limpa.

Para verificar se não há dias com registros duplicados, selecionamos toda a coluna “datahora”, e utilizamos a função “Remover Duplicatas”, na aba “Dados”. Se não houver, a mensagem será a seguinte:

Para finalizar, basta organizar os números das colunas “casos_pc”, “casos_mm7d” e “obitos_pc”, que estão em notação científica. Para isso, selecionamos as três colunas e, na aba “Home”, selecionamos a seguinte opção:

Assim, sua base está limpa e pronta para começar uma análise. Se quiser algumas dicas de como fazer isso, escrevemos um texto onde listamos 10 Erros comuns na hora de analisar dados.

Lembrando que, se precisar realizar ajustes, tenha sempre um backup da base original.

Se você tiver alguma base de dados e quiser ajuda para analisá-la, entre em contato com a nossa equipe! Nós sempre estamos dispostos a te ajudar com seu problema, garantindo uma solução de impacto para você e sua empresa ou pesquisa!

Autor: Rafael Maniezo P Souza

2 comentários em “Saiba como deixar uma base de dados mais limpa para analisá-la”

Deixe um comentário

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

WhatsApp