Como fazer uma análise de dados mais eficiente?

A era dos dados

Atualmente, vivemos na era do Big Data. Estima-se que a quantidade de dados armazenados é de aproximadamente 4,4 zettabytes (4.400.000.000.000.000.000.000 de bytes), com 2.2 terabytes de novos dados gerados diariamente e 1,7 megabyte de novas informações criadas por segundo para cada uma das pessoas no planeta.

Fica evidente, então, que transmitimos e coletamos dados a todo momento. E, por isso, a análise de dados vem se popularizando, de forma que não só especialistas nas áreas de estatística e computação realizam esse trabalho. Diversas áreas mais tradicionais estão se readaptando para analisar os dados de seu interesse, como por exemplo o jornalismo, a biologia e o RH das empresas.

Contudo, em função das diversas carreiras, nem todos conhecem as maneiras de tornar a análise de dados mais eficiente. Portanto, iremos demonstrar como fazer isso, com certas práticas simples aplicáveis no momento de criação de seus respectivos bancos de dados.

Antes de tudo, um adendo:

Uma frase que já ficou clichê, de certa forma, é a que, em uma análise estatística, passamos quase 80% do tempo apenas na “limpeza” e manipulação dos dados, sem realizar a análise propriamente dita. Esse tempo pode ser reduzido consideravelmente tanto no momento da coleta dos dados, como na passagem dos mesmos para o banco de dados, que na maioria dos casos é constituído de planilhas.

A importância das boas práticas

Bases de dados, em muitos casos, são criadas para trabalhos futuros, quando houver dados suficientes para que haja uma amostra significativa e casos para testes, em casos de previsões com machine learning. Isso pode levar alguns meses, até décadas. Desse modo, nem sempre a pessoa que começou o estudo trabalhará sozinha ou permanecerá nele até o final. Logo, é importante que tudo seja compreendido por qualquer um que não a tenha criado, seguindo certos padrões para facilitar o entendimento e principalmente a manipulação em software feita pela análise.

Portanto, aqui vão algumas dicas elaboradas pela Diretoria de Estatística da ICMC Jr, mostrando uma série de boas práticas a serem feitas na criação de Bancos de Dados, com foco em plataformas como o Excel da Microsoft e o Planilhas da Google.

Em primeiro lugar, devemos entender que existem diversas maneiras de se organizar um banco de dados. A maneira que estamos apresentando seria a que consideramos melhor para uma análise de dados a partir de uma linguagem de programação de alto nível, como R ou Python. Essa maneira irá economizar muito tempo no seu trabalho, tanto na limpeza do próprio banco de dados, como na realização das análises e testes estatísticos.

O tratamento dos dados

Para organizar o banco de dados, devemos entender em que formato se deve colocar os dados brutos. Para isso, precisamos compreender que existe uma diferença entre os dados não tratados (brutos) e dados tratados.

Os dados não tratados não devem ser modificados dentro da planilha até se tornarem dados tratados, pois isso estaria destruindo os dados em sua essência. A melhor maneira de chegar aos dados tratados é a partir dos dados brutos, usando algum software que já consiga limpar e fazer as análises necessárias sem modificar qualquer coisa dos dados originais. Com isso, conseguimos um código que pode fazer, de maneira otimizada, o mesmo trabalho diversas vezes, além ser reprodutível por outra pessoa de um ponto de vista da ciência de dados.

A Organização para uma boa análise

Agora que entendemos que não devemos manipular diretamente os dados brutos, fica a pergunta “como devo organizar os meus dados para melhor análise?”.

Antes de tudo, devemos entender que os dados em estado não tratado não devem ser bonitos ou algo do tipo, eles precisam estar da melhor maneira que um software consiga entender e para isso utilizamos o formato “uma variável por coluna, uma resposta por linha”.

Esse formato deve ser sempre utilizado. Nele, cada medida tem uma linha e cada coluna é um tipo de variável ou atributo diferente.

Ademais, a escolha de nomes para as variáveis deve ser intuitiva, sendo de uma a duas palavras, se possível. Juntamente a isso, é necessário a utilização da exata mesma palavra em todos os locais, tanto de variáveis como de elemento da tabela (exemplo: tudo em maiúsculo, ou tudo em minúsculo, ou a primeira a letra em maiúscula, etc). Isso facilita a pesquisa e manipulação da variável constantemente.

Lidando com as lacunas no banco de dados

Outra questão muito importante é como lidar com dados faltantes no seu banco de dados. Sempre fica a dúvida se o melhor a se fazer é escrever na célula que o dado não existe ou deixar a célula em branco. A resposta para esse problema é: depende.

Caso você queira que as observações que não tiveram resposta sejam utilizadas para realizar a análise exploratória dos dados, o melhor a se fazer é escrever na célula que não houve resposta. Do contrário, caso queira que a falta de alguns dados em certas variáveis seja simplesmente ignorada, você deve manter a célula em branco, isso economiza bastante tempo na hora de tirar informações importantes de cada variável.

Lidando com variáveis temporais

Já para o tratamento de variáveis temporais, como data de aniversário, ou ocorrência de um certo evento, a melhor representação, visando a manipulação dos dados será a numérica, ou seja, sem palavras ou abreviações (exemplo: Janeiro, Jan). Além disso, não é obrigatório, mas existe um sistema universal de data para se utilizar no momento de guardar esses dados, que é: AAAA-MM-DD (“ANO-MÊS-DIA”).

Boas práticas de Armazenamento

Para finalizar, uma última boa prática que podemos utilizar é sempre fazer cópias das suas planilhas em diversos lugares. Não se dá para confiar sempre em pen drives, ou o HD externo do seu computador, então recomendamos sempre que você adicione a sua planilha em outros locais de armazenamento que de preferência sejam em nuvem, pois, desse modo, é possível acessá-la de qualquer lugar, sem correr os ricos de perder o danificar o seu local de armazenamento. Podemos citar como exemplo o Google Drive ou Dropbox.

Esse artigo foi cedido pela nossa parceira ICMC Júnior, empresa júnior de Ciências Matemáticas e de Computação da USP – Campus São Carlos. Confira o texto original aqui.

Gostou do artigo? Não se esqueça de visitar o blog deles, compartilhar com os amigos e segui-los nas redes sociais. Até a próxima!

Se você quiser solicitar uma análise de dados ou outro de serviços, entre em contato com a nossa equipe!

1 comentário em “Como fazer uma análise de dados mais eficiente?”

Deixe um comentário

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

WhatsApp