Teste de Hipótese

Conceitos, cálculos e visualizações.

Mario O. de Menezes https://momenezes.github.io/tutorials
11-11-2021

Teste de Hipótese

Versão Preliminar

População e Amostra

Muitas vezes precisamos obter medidas de a uma população (todos os indivíduos de interesse do estudo); o modo inicial para se fazer isso seria obter os dados de toda a população. Mas nem sempre é possível realizar essa coleta de dados de toda a população, e isso por diversos motivos, dentre eles o custo e o tempo necessário.

Assim, é comum utilizarmos um subconjunto da população, chamado de amostra. Essa amostra deve possuir então características que nos possibilitem inferir os parâmetros da população. Há diversas maneiras de se selecionar os elementos da amostra: aleatoriamente, por grupos representativos, por representatividade na população, etc. Esses conceitos podem ser explorados em um bom livro de Estatística e Probabilidade.

A maneira mais utilizada de se selecionar os indivíduos da amostra é a aleatória, de forma independente, cuidando para que cada elemento tenha a mesma probabilidade de ser selecionado, isto é, identicamente distribuído. Uma outra característica da amostra é o seu tamanho, que será o conceito que exploraremos nesse estudo juntamente com uma característica da população, a saber, o desvio padrão.

Então, com a amostra em mãos, efetuamos os cálculos desejados e fazemos a inferência, isto é, uma afirmação sobre um parâmetro da população. Nossa afirmação pode estar correta (ser verdadeira) ou errada (ser falsa). É comum querermos atribuir um grau de confiança a esta afirmação; algo como “… é possível afirmar, com 95% de confiança, que …”

Juntando estes conceitos, chegamos à definição (informal) de Teste de Hipótese:

Um teste de hipótese em Estatística é uma afirmação sobre um parâmetro de uma população a partir dos dados de uma amostra.

Distribuição de Probabilidade

Suponha que você esteja estudando o peso (massa corporal) de uma população de animais que vive em determinada região. Em um trabalho muito extenso anterior, todos os animais daquela população foram pesados, de modo que são conhecidos para a população o peso médio ( \(\mathbf{\mu}\)) e também a dispersão destes valores, isto é, o desvio padrão (\(\mathbf{\sigma}\)).

Ao plotar os valores do peso de cada animal e também através de algumas verificações matemáticas, conclui-se que a variável aleatória peso segue uma distribuição normal. Variável aleatória porque cada animal tem um peso diferente, que não tem dependência com o animal que foi pesado antes e nem vai influenciar o peso do próximo animal.

No Teste de Hipótese, um conceito importante é a distribuição de probabilidades da variável aleatória que estamos estudando. É preciso conhecer essa distribuição de probabilidades; caso não seja possível esse conhecimento, será necessário fazer assunções sobre ela para realizar o teste.

A distribuição normal é aquela com forma de sino; se adotarmos no nosso exemplo que a média de peso da população seja 3.4kg, com um desvio padrão 0.7kg, e a população que foi pesada seja de 8000 animais, podemos ter uma ideia da distribuição real de probabilidades dos pesos como a mostrada na figura abaixo. Como nossa população é finita, a curva mostrada é uma estimativa da curva de densidade de probabilidade e o formato da curva não é perfeitamente um sino, mas se aproxima. O histograma da distribuição de pesos também é mostrado nessa figura.

O eixo y representa a estimativa da densidade de probabilidade de ocorrência de x, que é calculada de tal forma que a área sob a curva seja 1. Você pode ler mais sobre Estimativa de Densidade de Probabilidade aqui.

Amostras

Suponha que nosso biólogo colete uma amostra dos animais e faça a pesagem. Do ponto de vista da Teoria da Probabilidade, temos a seguinte definição:

Se a população da qual se extraem as amostras tem distribuição normal, então a distribuição de probabilidade da média amostral também seguirá uma normal.

Podemos simular um experimento que realize um grande número de amostragens, calcule a média de cada amostra e depois observamos a distribuição destas médias amostrais.

Começamos com a ilustração de uma amostra de \(n = 30\) dos animais em estudo, conforme mostrado na figura abaixo, onde os pontos de cor azul representam a amostra, ou seja, os animais selecionados aleatoriamente da população.

Agora com 10 amostras com \(n = 30\); veja como os valores das amostras (pontos em azul) ocorrem em cada uma. É importante lembrar deste conceito quando falamos de uma amostra, isto é, a variabilidade dos valores encontrados em uma amostra, incluindo a dispersão dos pontos em torno da média.

Observe como as médias das amostras variam; ora são maiores ora menores do que a média da população (\(\mu = 3.4\)).

Para ilustrar um pouco mais os conceitos de amostragem, vamos selecionar novamente 10 amostras, mas agora de tamanho \(n = 10\).

Veja como nas amostras com \(n=30\) temos uma maior concentração de pontos azuis na região próxima da média da população; isso ocorre porque temos um maior número de animais cujo peso está nessa região, isto é, peso próximo da média da população. Nas amostras com \(n = 10\) os pontos azuis são mais dispersos, o que provoca uma maior dispersão das médias destas amostras também.

Esse é outro conceito importante: quanto maior o tamanho da amostra, mais próximo sua média será da média da população.

Em ambas as situações temos animais com peso bem maior ou bem menor do que a média; eles são mais raros nas amostras, porque são mais raros também na população.

Grande Número de Amostras

Vamos agora coletar 1000 amostras de 30 elementos; para cada amostra calculamos a média do peso dos animas e construímos um histograma com o respectivo gráfico de densidade de probabilidade, como mostrado na figura abaixo. Também calculamos a média das médias das amostras, que é mostrada na figura, juntamente com o intervalo de confiança (CI)de 95%.

Se repetimos este experimento com 1000 amostras, mas agora com 10 elementos, obtemos o seguinte resultado:

Como observamos nas figuras acima, a média das médias amostrais tende para a média verdadeira, \(\mu\) = 3.4, quando tomamos um grande número de amostras; também observamos que a distribuição das médias amostrais (S) se aproxima de uma distribuição normal, com média \(\mu_S\) e desvio padrão \(\sigma_S\).

Amostras pequenas

Mas quando o biólogo seleciona uma amostra apenas de \(n = 30\) animais, o peso médio dos animais desta amostra pode ser distante da média verdadeira, como ilustrado na figura abaixo, onde uma amostra tem peso médio bem abaixo e outra com peso médio bem acima da média verdadeira; e aí podemos perguntar:

Será que aconteceu alguma coisa que levou a uma diminuição ou aumento geral do peso destes animais (de toda a população) ou é apenas nesta amostra?

Para responder a esta pergunta podemos realizar o Teste de Hipótese.

A primeira coisa a fazer é declarar as hipóteses que serão testadas:

Matematicamente, escrevemos assim:

onde \(\mu\) é o parâmetro conhecido da população (média) e \(\mu_0\) (ou \(\bar{x}\)) é o valor de teste, obtido da amostra. Quando a hipótese alternativa (\(\textrm{H}_1\)) é expressa como diferença (\(\neq\)), temos um teste bilateral; quando \(\textrm{H}_1\) é expressa como \(>\) ou \(<\) temos um teste unilateral.

A conclusão do teste de hipótese é uma afirmação que pode estar certa ou errada; definimos um limite para a probabilidade de estarmos errados em nossa afirmação sobre \(\textrm{H}_0\), chamado de nível de significância. São comuns valores de \(0.05\) ou \(0.01\) para este nível de significância, representado pela letra grega \(\alpha\).

Retomando o conceito da distribuição das médias amostrais S, definimos a distribuição da variável reduzida (ou escore z) por \[z = \frac{(S - \mu_S)}{\sigma_S}\] que tem média 0 e variância 1, representada na figura abaixo, onde são mostrados os limites de aceitação dos valores de z.

Quando utilizamos uma amostra de tamanho reduzido, p.explo, \(n = 30\), utilizamos a média amostral como estimador da média populacional, e o erro padrão da média como estimador do desvio padrão populacional, ou seja, \(\sigma_S = \sigma_{\bar{x}} = \sigma/\sqrt{N}\), onde \(\sigma\) é o desvio padrão da população e \(N\) o tamanho da amostra. O escore z será dado então por: \[z = \frac{\bar{x} - \mu}{\sigma/\sqrt{N}}\] onde \(\bar{x}\) é a média amostral.

Os passos para realizar o Teste de Hipótese, considerando um nível de significância \(\alpha = 0.05\), são:

  1. Calcular a estatística de teste – no caso, estatística \(z\), porque assumimos que nossos dados seguem uma distribuição normal e conhecemos a média e o desvio padrão da população;

  2. Calcular o valor crítico para o nível de significância definido, isto é, quais os limites da variável reduzida que definem a Região de Aceitação da Hipótese Nula (\(\textrm{H}_0\)); \[\textrm{z.alpha} = \texttt{qnorm}(1 - \alpha/2)\]

  3. Verificar se o valor da estatística de teste está na Região de Aceitação ou na Região Crítica ou de Rejeição da hipótese nula. Uma definição importante é se o teste é unilateral ou bilateral. Para esse exemplo, vamos considerar um teste bilateral, ou seja, queremos saber se o peso médio dos animais mudou.

Teste de Hipótese

Amostra com menor média

Os resultados dos cálculos são:

Grandeza Valor
Média Popul. 3.4
Desvio Padrão 0.7
Tam.Amostra 30
Média Amostra 3.3047866
Estat. z -0.7450075
Limites Críticos -1.959964, 1.959964

Então, o resultado do teste é:

Estatística de teste z está dentro da região de aceitação, portanto aceitamos a hipótese nula.

Amostra com maior média

Os resultados dos cálculos são:

Grandeza Valor
Média Popul. 3.4
Desvio Padrão 0.7
Tam.Amostra 30
Média Amostra 3.688488
Estat. z 2.2573056
Limites Críticos -1.959964, 1.959964

Então, o resultado do teste é:

Estatística de teste z está fora da região de aceitação, portanto rejeitamos a hipótese nula.

Observe que nós selecionamos as duas amostras acima da mesma população, mas mesmo assim, pelo Teste de Hipótese, uma delas, a de peso médio maior, tem um peso médio que não podemos afirmar que seja da mesma população original; ele pode ser considerado como oriundo de outra distribuição que não a original.

Quando realizamos um Teste de Hipótese estamos querendo verificar se a amostra analisada vem ou não da população original para a qual conhecemos os parâmetros. A média amostral será o valor utilizado na verificação.

Populações ou Efeitos Modificadores

Continuando nosso exemplo da população de animais que estamos estudando, suponha agora que houve algum evento, ou fator, que tenha alterado o suprimento de alimento para os animais. Nessa situação, depois de algum tempo, pode ter havido uma diminuição do peso (massa corporal) destes animais.

Se fizéssemos um senso novamente, pesando todos os animas daquela população, poderíamos encontrar uma nova distribuição de pesos, gerando uma segunda curva, como mostrado na figura abaixo. Essa nova população tem média 3 e desvio padrão 0.8.

Como o desvio padrão desta nova distribuição é um pouco maior que da original, a curva de densidade de probabilidade é mais achatada (larga) e por isso, tem uma altura (máximo da densidade) menor.

Novas amostras

Se tomamos uma amostra da nossa população, sem saber que houve o evento modificador, podemos ter a seguinte situação, ilustrada na figura abaixo.

Os pontos azuis são elementos tomados da população original enquanto os pontos vermelhos são da nova população. Qualquer uma destas amostras é possível, ou seja, sem saber o que ocorreu, poderíamos ter qualquer uma delas.

Agora vamos gerar 10 amostras das duas distribuições, para visualizarmos como se comportam as médias. As amostras tem n = 30; veja como os valores dos pesos nas amostras (pontos em azul e vermelho) ocorrem em cada uma.

Veja como as médias das amostras de ambas distribuições vagueiam ao longo da distribuição de pesos, ora para um lado ora para o outro lado. Se aumentássemos o número de amostras essa variação ficaria ainda mais evidente.

Uma das possibilidades neste tipo de experimento (grande quantidade de amostras) é a mostrada na figura abaixo, onde temos duas amostras com médias muito próximas, mas vindo de populações diferentes.

Uma coincidência ocorreu na figura anterior: tanto o gráfico com a amostra da nova população com a maior média como o gráfico com a amostra da população original com a menor média são os mesmos; poderiam ser diferentes, ou seja, a amostra da nova população com a maior média poderia estar em um gráfico e a amostra da população original com a menor média poderia estar em outro.

Teste de Hipótese

Agora, vamos realizar o Teste de Hipótese da seguinte forma:

  1. Selecionando a amostra da população, primeiro da original com menor média, e depois da nova com maior média;
  2. Calcular dois valores de estatística z:
    • Um para a população original (z.orig)
    • Um para a nova população (z.nova)
  3. Realizar o teste.

Amostra da população original com menor média

Os resultados dos cálculos são:

Grandeza População Valor
Média Popul. Original 3.4
Média Popul. Nova 3
Desvio Padrão Original 0.7
Desvio Padrão Nova 0.8
Tam.Amostra Ambas 30
Média Amostra Original 3.2959995
Estat. z (Amostra/População) Original/Original -0.8137632
Estat. z (Amostra/População) Original/Nova 2.02657
Limites Críticos Ambas -1.959964, 1.959964

Resultado do Teste em relação à população original

Estatística de teste z está dentro da região de aceitação, portanto aceitamos a hipótese nula.

Resultado do Teste em relação à população nova

Estatística de teste z está fora da região de aceitação, portanto rejeitamos a hipótese nula.

A amostra tomada da população original passou no teste em relação à sua própria população, mas foi rejeitada no teste em relação à nova população.

Amostra da nova população com maior média

Os resultados dos cálculos são:

Grandeza População Valor
Média Popul. Original 3.4
Média Popul. Nova 3
Desvio Padrão Original 0.7
Desvio Padrão Nova 0.8
Tam.Amostra Ambas 30
Média Amostra Nova 3.1590572
Estat. z (Amostra/População) Nova/Original -1.885283
Estat. z (Amostra/População) Nova/Nova 1.0889902
Limites Críticos Ambas -1.959964, 1.959964

Resultado do Teste em relação à população original

Estatística de teste z está dentro da região de aceitação, portanto aceitamos a hipótese nula.

Resultado do Teste em relação à população nova

Estatística de teste z está dentro da região de aceitação, portanto aceitamos a hipótese nula.

Observe que a amostra tomada da nova população passou no teste em relação à população original, assim como passou no teste em relação à sua própria população (a nova). Neste caso, nosso biólogo não poderia afirmar que houve algum evento que de fato modificou a média de peso da população, porque na amostra tomada de forma aleatória, a média estava dentro dos limites de aceitação também da população original.

Grande número de amostras de ambas as populações

Vamos realizar um experimento, selecionando um grande número de amostras de ambas as populações e tabulando o resultado do teste de hipótese em relação a ambas.

Reuse

Text and figures are licensed under Creative Commons Attribution CC BY 4.0. The figures that have been reused from other sources don't fall under this license and can be recognized by a note in their caption: "Figure from ...".

Citation

For attribution, please cite this work as

Menezes (2021, Nov. 11). Tips to Share and Grow: Teste de Hipótese. Retrieved from https://momenezes.github.io/tutorials/posts/2021-10-30-teste-de-hipteses/

BibTeX citation

@misc{menezes2021teste,
  author = {Menezes, Mario O. de},
  title = {Tips to Share and Grow: Teste de Hipótese},
  url = {https://momenezes.github.io/tutorials/posts/2021-10-30-teste-de-hipteses/},
  year = {2021}
}