Introdução
Como vimos em blogs anteriores, mesmo que os primeiros cursos de estatística tenham sido criados a não muito tempo (por volta de 1708), o pensamento estatístico é fundamental para o ser humano há milhares de anos. Por isso, é natural que novas formas de pensar estatisticamente vão aparecendo com o tempo. Isso porque, novas formas de enxergar um problema nos levam a novas metodologias para resolvê-los.
Durante muito tempo, a estatística frequentista (ou probabilística), prosperou como principal meio de resolver problemas estatísticos, tendo diversos profissionais que devotaram suas vidas para o avanço nessa área, como o próprio Sir Ronald Fisher, por exemplo.
Porém, essa prevalência pelo jeito frequentista vem mudando à medida que o pensamento bayesiano cresce e se mostra, não apenas como um jeito válido de fazer estatística, mas como um jeito mais eficiente, em diversos casos.
O que é inferência estatística?
Quando temos um problema estatístico, em geral, ou temos interesse em descrever, explorar e apresentar os dados de modo simples que contribuam com nossas análises, ou em realizar uma inferência de nossa amostra para a população, isto é, temos interesse em extrapolar nossas conclusões obtidas através da amostra para a população de interesse.
O primeiro tipo de objetivo é denominado Estatística Descritiva, enquanto o segundo, Estatística Inferencial. Esses são os dois principais ramos da Estatística.
Como vimos, o campo de estudo da inferência estatística busca entender o comportamento e as características da população a partir da informação disponível na amostra coletada. Mas, mesmo dentro desse campo existe uma outra ramificação, que denominamos de inferência frequentista (ou probabilística) e inferência bayesiana.
Mas qual a diferença entre inferência frequentista e bayesiana?
Inferência Frequentista
A Probabilidade frequentista tem sido associada com a ideia de qualquer experimento dado poder ser considerado como um de uma sequência infinita de possíveis repetições do mesmo experimento, sendo cada uma capaz de produzir resultados estatisticamente independentes.
A ideia de repetição justifica a denominação “frequentista”. Por exemplo, consideram-se 1.000 lançamentos de uma moeda viciada (ou seja, que não tem probabilidade de 50% de cair cara ou coroa), em que se observa a face cara 540 vezes, portanto, a probabilidade estimada de sair cara é 0,54.
O modo frequentista de encarar a inferência faz uso apenas das informações presentes na amostra para inferir as características da população de interesse. Deste modo, os estimadores construídos sob esse modelo utilizam apenas as informações observadas na amostra, sem utilizar informações anteriores ao experimento.
Este modo possui diversas vantagens, como a complexidade para se encontrar os resultados e os custos computacionais que, em geral, são menores quando comparados com o jeito bayesiano.
Porém, algumas limitações fazem com que busquemos alternativas para a inferência frequentista. Dentre elas, destaca-se a necessidade de se ter um conjunto de dados relativamente grande, no mínimo, para se obter bons resultados.
Isso porque, esse tipo de inferência tem seu alicerce pautado em teorias assintóticas, ou seja, o estudo das probabilidades quando o tamanho da amostra vai para infinito, que garantem boas aproximações à medida que a amostra cresce, mas que podem deixar a desejar caso o tamanho amostral seja consideravelmente pequeno.
Inferência Bayesiana
A inferência bayesiana é um ramo muito recente da estatística inferencial, e tem suas ideias baseadas no teorema proposto por Thomas Bayes (1702 – 1761), onde considera uma inserção de um conhecimento à priori, ou seja, um conhecimento anterior à pesquisa.
O teorema de bayes, nos mostra de forma matemática como podemos incluir informações anteriores no nosso modelo, bem como atualizá-lo de acordo com a chegada de novas informações relevantes ao problema.
Por exemplo, em uma pesquisa eleitoral com os candidatos X e Y, existem quatro cientistas políticos cujas opiniões são:
- Cientista político 1: não faz ideia do resultado.
- Cientista político 2: acha que é mais provável que o candidato A perca.
- Cientista Político 3: acha que é mais provável que o candidato A ganhe.
- Cientista político 4: acha que é mais provável que haja um empate.
Nesse exemplo proposto, se considerarmos como P(A) a probabilidade de que o candidato A ganhe a eleição e P(B) como a probabilidade de o candidato B ganhar, cada uma das hipóteses pode ser uma priori para a pesquisa que será realizada, e poderíamos traduzi-las para:
- Caso 1: não nos traz informação
- Caso 2: P(A) < P(B)
- Caso 3: P(A) > P(B)
- Caso 4: P(A) = P(B)
P(A|B) =P(B|A) * P(A) / P(B) ⟹ P(A|B) = P(B|A) * P(A) / ∑(P(B|A) * P(A))
Em que ∑ significa somatório.
A fórmula nos mostra um forma de encontrar uma probabilidade a posteriori (P(A|B)), ou seja, uma probabilidade atualizada, levando em conta nossa probabilidade a priori (P(A)) e nossa verossimilhança (P(B|A)), que representa toda informação que os dados trazem quando condicionados no parâmetro (A).
De forma geral, a inferência bayesiana nos oferece um meio de incorporar informações subjetivas ao problema, e se preciso, atualizá-las de acordo com a chegada de novos dados e informações.
Porém, assim como na inferência frequentista, o processo inferencial tomando como base as ideias de Bayes trazem, além de diversas vantagens, diversas limitações.
Como vantagem podemos citar a desnecessidade de uma amostra de tamanho muito grande, conseguindo bons resultados mesmo com amostras consideravelmente pequenas. Além disso, outra vantagem bastante discutida no texto é a possibilidade de incorporarmos informações ao nosso modelo, em geral subjetivas, para obtermos maior precisão em alguns casos.
Como desvantagens, podemos citar o fato de que é necessário, além de uma verossimilhança (como no caso frequentista), se estabelecer uma priori condizente com o problema em estudo, o que nem sempre é fácil.
Conclusão
Diante de tudo que foi tratado neste blog, a pergunta que pode surgir é: mas qual abordagem é a melhor?
É fato que, dependendo do caso, alguma abordagem apresentará resultados mais precisos que a outra. Por exemplo, quando possuímos algum conhecimento a priori do parâmetro, é natural pensarmos em uma abordagem bayesiana para incorporá-lo à análise.
Porém, é importante ressaltar que não existe uma solução uniformemente melhor, ou seja, uma solução que seja superior em todos os casos. Justamente por isso, devemos conhecer e entender tanto a inferência bayesiana quanto a frequentista, para que possamos decidir quando utilizar cada uma.
Autor: Felipe de Albuquerque Marques
Referência:
O QUE é estatística Bayesiana?. Ibpad, 21 maio 2020. Disponível em: https://ibpad.com.br/ciencia-dados/o-que-e-estatistica-bayesiana/. Acesso em: 24 mar. 2023.
SANTIAGO, David. Somatórios: o que são?. Algol.dev, 3 ago. 2019. Disponível em: https://algol.dev/somatorios-o-que-sao/. Acesso em: 24 mar. 2023.
Muito bom, Felipe!