Tópico 17 – Padronização e a Distribuição Normal

Depois de aprendermos sobre as medidas que podemos utilizar para caracterizar a centralidade e a dispersão de uma distribuição (e a relação dessas medidas com algumas probabilidades de interesse), veremos uma distribuição muito importante em Ciência de Dados e que pode ser completamente caracterizada por sua média e variância: a distribuição Normal. Discutiremos como essa distribuição surge naturalmente em diversos fenômenos da natureza, e como suas propriedades podem nos ajudar a realizar inferência para uma população. Vamos introduzir e explorar também o conceito de padronização, e a importância de se padronizar certos conjuntos de variáveis para uma análise mais coerente.

Resultados Esperados

  1. Introduzir o conceito de padronização e aprender a interpretar as medidas correspondentes.
  2. Introduzir a distribuição Normal, motivar suas propriedades e ilustrar sua utilização na prática.
  3. Comparar os resultados da Desigualdade de Chebyshev em um contexto sobre o qual temos mais informação sobre a distribuição de interesse.

Material Adaptado do DSC10 (UCSD)

#In: 
import numpy as np
import pandas as pd
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

np.set_printoptions(threshold=20, precision=2, suppress=True)
pd.set_option("display.max_rows", 7)
pd.set_option("display.max_columns", 8)
pd.set_option("display.precision", 2)

# Animations
import ipywidgets as widgets
from IPython.display import display, HTML

def normal_curve(x, mu=0, sigma=1):
    return (1 / np.sqrt(2 * np.pi * sigma ** 2)) * np.exp((- (x - mu) ** 2) / (2 * sigma ** 2))

def show_many_normal_distributions():
    plt.figure(figsize=(10, 5))
    x = np.linspace(-40, 40, 10000)
    pairs = [(0, 1, 'black'), (10, 1, 'blue'), (-15, 4, 'red'), (20, 0.5, 'green')]

    for pair in pairs:
        y = normal_curve(x, mu=pair[0], sigma=pair[1])
        plt.plot(x, y, color=pair[2], linewidth=3, label=f'Normal(mean={pair[0]}, SD={pair[1]})')

    plt.xlim(-40, 40)
    plt.ylim(0, 1)
    plt.title('Normal Distributions with Different Means and Standard Deviations')
    plt.legend();

def normal_area(a, b, bars=False):
    x = np.linspace(-4, 4, 1000)
    y = normal_curve(x)
    ix = (x >= a) & (x <= b)
    plt.figure(figsize=(10, 5))
    plt.plot(x, y, color='black')
    plt.fill_between(x[ix], y[ix], color='gold')
    if bars:
        plt.axvline(a, color='red')
        plt.axvline(b, color='red')
    plt.title(f'Area between {np.round(a, 2)} and {np.round(b, 2)}')
    plt.show()

def sliders():
    a = widgets.FloatSlider(value=0, min=-4,max=3,step=0.25, description='a')
    b = widgets.FloatSlider(value=1, min=-4,max=4,step=0.25, description='b')
    bars = widgets.Checkbox(value=False, description='bars')
    ui = widgets.HBox([a, b, bars])
    out = widgets.interactive_output(normal_area, {'a': a, 'b': b, 'bars': bars})
    display(ui, out)

Recapitulando: Desigualdade de Chebyshev

Variância e desvio padrão

  • A variância é igual à média dos desvios quadrados em torno da média.
    • O desvio padrão é igual a raiz quadrada da variância.

Formalmente,

\[\begin{align*} S^2 &:= \frac{\sum^n_{i=1} (X_i - \bar{X})^2}{n}, & S &= \sqrt{S^2} = \sqrt{\frac{\sum^n_{i=1} (X_i - \bar{X})^2}{n}}. \end{align*}\]

Desigualdade de Chebyshev

A desigualdade de Chebyshev nos diz que, para uma certa distribuição de probabilidade, a probabilidade dos valores estarem a a $k$ DPs da média é de, no mínimo

\[1 - \frac{1}{k^2}.\]

Padronização

Exemplo: Alturas e pesos 📏

Para exemplificar, comecemos com um conjunto de dados com as alturas e pesos de $n = 5,000$ homens adultos.

#In: 
height_and_weight = pd.read_csv('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/height_and_weight.csv')
height_and_weight
HeightWeight
073.85241.89
168.78162.31
274.11212.74
.........
499767.01199.20
499871.56185.91
499970.35198.90

5000 rows × 2 columns

Distribuições das alturas e pesos

Vamos analisar a distribuição das variáveis do nosso conjunto.

#In: 
height_and_weight.plot(kind='hist', y='Height', density=True, ec='w', bins=30, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

#In: 
height_and_weight.plot(kind='hist', y='Weight', density=True, ec='w', bins=30, alpha=0.8, color='C1', figsize=(10, 5))
plt.ylabel("Frequência");

png

#In: 
height_and_weight.plot(kind='hist', density=True, ec='w', bins=60, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

Observação: As duas distribuições acima são similares à versões “deslocadas” e “esticadas” da mesma forma, denominada informalmente de “curva de sino” (bell curve) 🔔.

Veremos mais formalmente que uma distribuição com essa forma é conhecida como distribuição Normal.

Diferentes “normais”

  • A Normal é, mais corretamente, uma família de distribuições.

  • Existem várias distribuições normais. Todas têm “forma de sino”, mas variam em locação (“centralidade”) e dispersão (“largura”).
    • A locação e a dispersão na Normal são fundamentalmente expressos por sua média e variância, respectivamente.
  • A média e a variância definem unicamente uma distribuição Normal.
    • Isto é, para uma dada média e variância, existe apenas uma distribuição Normal correspondente.
#In: 
show_many_normal_distributions()

png

  • Nota: como cada curva acima representa uma distribuição de probabilidade, a área abaixo de cada curva é sempre igual a 1.
    • Dessa maneira, as curvas mais “altas” serão mais “curtas”, e as curvas mais “baixas” serão mais “largas”.
    • Reforçando esse ponto mais uma vez, a altura de cada curva dependerá necessariamente da variância.
      • Quanto maior a variância, mais larga (e mais baixa) será a Normal correspondente.
      • Quanto menor a variância, mais curta (e mais alta) será a Normal correspondente.
  • A distribuição Normal sempre pode ser deslocada e reescalada de maneira a ficar igual a qualquer outra distribuição Normal.
    • Mais formalmente, dizemos que a distribuição Normal é invariante a transformações lineares.
    • Equivalentemente, podemos dizer também que a normalidade é mantida/preservada sob transformações lineares.

Vamos ilustrar como a padronização funciona na prática abaixo com alturas e pesos.

Unidades padronizadas

Suponha que $X$ seja uma variável aleatória (numérica) com média $\mu$ e desvio padrão $\sigma$, e que $X_i$ seja um valor (realização) dessa variável. Então,

\begin{align} Z_i := \frac{X_i - \mu}{\sigma} \end{align}

representa $X_i$ em unidades padronizadas, isto é, o número de DPs que $X_i$ está de sua média.

Equivalentemente, se $Z_i = z \in \mathbb{R}$, então podemos dizer que $X_i$ está a $z$ DPs da média.

Lembre da Desigualdade de Chebyshev acima!

Exemplo: Suponha que uma pessoa pese 225 libras. Qual é o seu peso em unidades padronizadas?

#In: 
weights = height_and_weight.get('Weight')
(225 - weights.mean()) / np.std(weights)
1.9201699181580782
  • Interpretação: 225 está a 1.92 desvios-padrão acima da média dos pesos.
  • 225 libras é igual a 1.92 em unidades padronizadas.

Nota: a padronização sempre depende do valor de $\mu$ e $\sigma$, que são específicos à cada distribuição.

Padronização

O processo de conversão dos valores de uma variável para unidades padronizadas é conhecido como padronização.

Consequentemente, os valores $Z_i$ obtidos através da padronização são ditos padronizados.

#In: 
def standard_units(col):
    return (col - col.mean()) / np.std(col)
#In: 
standardized_height = standard_units(height_and_weight.get('Height'))
standardized_height
0       1.68
1      -0.09
2       1.78
        ... 
4997   -0.70
4998    0.88
4999    0.46
Name: Height, Length: 5000, dtype: float64
#In: 
standardized_weight = standard_units(height_and_weight.get('Weight'))
standardized_weight
0       2.77
1      -1.25
2       1.30
        ... 
4997    0.62
4998   -0.06
4999    0.60
Name: Weight, Length: 5000, dtype: float64

O efeito da padronização

Variáveis padronizadas sempre têm:

  • Média igual a 0.
  • Variância = desvio padrão = 1.

É comum padronizarmos diferentes variáveis simplesmente para termos todas na mesma escala.

#In: 
# e-15 means 10^(-15), which is a very small number, effectively zero.
standardized_height.describe()
count    5.00e+03
mean     1.49e-15
std      1.00e+00
           ...   
50%      4.76e-04
75%      6.85e-01
max      3.48e+00
Name: Height, Length: 8, dtype: float64
#In: 
standardized_weight.describe()
count    5.00e+03
mean     5.98e-16
std      1.00e+00
           ...   
50%      6.53e-04
75%      6.74e-01
max      4.19e+00
Name: Weight, Length: 8, dtype: float64

Veja abaixo como o processo de padronização funciona nesse exemplo.

#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/height_anim.html')
#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/weight_anim.html')

Histogramas padronizados

Agora que padronizamos as distribuições dos pesos e das alturas, vamos ver mais uma vez como seus histogramas ficam lado-a-lado.

#In: 
standardized_height_and_weight = pd.DataFrame().assign(
    Height=standardized_height,
    Weight=standardized_weight
)
standardized_height_and_weight.plot(kind='hist', density=True, ec='w',bins=30, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

Ambos ficaram bem parecidos!

A distribuição Normal padrão

Padronizando a distribuição Normal

  • As distribuições vistas anteriormente são muito parecidas após a padronização.
  • Uma distribuição Normal padronizada é denominada de distribuição Normal padrão.
    • A distribuição Normal padrão é caracterizada unicamente por sua média 0 e variância igual a 1.
  • Formalmente, a função que define a curva Normal padrão, isto é, que descreve a distribuição de uma variável aleatória Normal padronizada, é denotada por

\begin{equation} \phi(z) := \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}, \,\, z \in \mathbb{R}. \end{equation}

A curva Normal padrão

#In: 
def normal_curve(z):
    return 1 / np.sqrt(2 * np.pi) * np.exp((-z**2)/2)

x = np.linspace(-4, 4, 1000)
y = normal_curve(x)

plt.figure(figsize=(10, 5))
plt.plot(x, y, color='black');
plt.xlabel('$z$');
plt.title(r'$\phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}$');

png

Alturas e pesos são “aproximadamente normais”

Dizemos que, se uma distribuição tem uma curva “similar” à curva Normal, que essa distribuição é “aproximadamente Normal”.

De maneira equivalente, podemos dizer que a população/amostra (ou a variável aleatória em questão) é aproximadamente normalmente distribuída.

Se $X$ é normalmente distribuída com média $\mu$ e variância $\sigma^2$, sempre é possível padronizar $X$ através de \(Z := \frac{X - \mu}{\sigma},\) onde nesse caso $Z$ tem distribuição Normal padrão.

#In: 
standardized_height_and_weight.plot(kind='hist', density=True, ec='w', bins=120, alpha=0.8, figsize=(10, 5));
plt.plot(x, y, color='black', linestyle='--', label='Normal', linewidth=5)
plt.legend(loc='upper right')
plt.ylabel("Frequência");

png

A distribuição Normal padrão

  • Podemos pensar na curva de uma distribuição contínua (como a Normal) como um “análogo contínuo” do histograma.

  • A distribuição Normal padrão tem mediana e moda ambas iguais à zero.
    • Isso implica que a Normal padrão é simétrica (em torno de 0).
    • A moda da Normal também é sempre igual à média e a mediana (e logo igual a 0 no caso padrão).
  • A curva da distribuição Normal padrão tem pontos de inflexão em $\pm 1$.
    • Veremos mais sobre isso adiante.
  • Similar ao que temos para um histograma, na curva de qualquer distribuição contínua:
    • A área do intervalo $[a, b]$ representa a probabilidade dos valores entre $a$ e $b$.
    • A área total abaixo da curva é igual a 1.
#In: 
sliders()
HBox(children=(FloatSlider(value=0.0, description='a', max=3.0, min=-4.0, step=0.25), FloatSlider(value=1.0, d…



Output()

Função de distribuição acumulada

  • A função de distribuição acumulada (CDF, do inglês cumulative density function) de uma variável aleatória é uma função $F(x)$ que toma valores $x \in \mathbb{R}$ e retorna a probabilidade dos valores que são menores ou iguais à $x$, isto é, a área sob a curva à esquerda de x$.
#In: 
# cdf(0) should give us the gold area below.
normal_area(-np.inf, 0)

png

  • Para encontrar áreas sob curvas, em geral utilizamos integração (i.e. cálculo integral).
    • Porém, infelizmente a curva Normal padrão não tem uma integral analítica, isto é, com forma fechada!
  • Uma alternativa comum é a utilização de tabelas que contém aproximações da CDF da Normal padrão.
    • Em essência, as tabelas são construídas a partir de aproximações numéricas.
  • Aqui, construíremos nossas próprias aproximações numéricas!
    • Mais especificamente, utilizaremos a função scipy.stats.norm.cdf(z) para calcular a área da curva Normal padrão à esquerda de z.

Áreas sob a curva Normal padrão

Qual você acha que é o valor de scipy.stats.norm.cdf(0)? Por quê?

#In: 
normal_area(-np.inf, 0)

png

#In: 
from scipy import stats
stats.norm.cdf(0)
0.5

Suponha agora que estejamos interessados na área à direita de $z = 2$ sob a curva Normal padrão.

#In: 
normal_area(2, np.inf)

png

A expressão abaixo nos dá a área à esquerda de $z = 2$.

#In: 
stats.norm.cdf(2)
0.9772498680518208
#In: 
normal_area(-np.inf, 2)

png

Porém, como a área total sob a curva Normal padrão é sempre igual a 1, temos, para todo $z \in \mathbb{R}$, que a área á direita de $z$ é dada por

\begin{equation} 1 - F(z). \end{equation}

Em particular, tomando $z = 2$, temos

#In: 
1 - stats.norm.cdf(2)
0.02275013194817921

Agora, como podemos utilizar a função stats.norm.cdf para calcular a área entre $a = -1$ e $b = 0$?

#In: 
normal_area(-1, 0)

png

Nossa estratégia aqui será calcular a área entre $a = -1$ e $b = 0$ como

  • a área à esquerda de $b = 0$
  • subtraída da área à esquerda de $a = -1$.
#In: 
stats.norm.cdf(0) - stats.norm.cdf(-1)
0.3413447460685429

Em geral, a área sobre uma curva contínua no intervalo $[a, b]$ é sempre igual a $F(b) - F(a)$.

No Python, esse cálculo pode ser feito como

stats.norm.cdf(b) - stats.norm.cdf(a)

Outra propriedade importante da distribuição Normal que podemos utilizar para calcular probabilidades de interesse é a reflexividade em torno da média.

  • Para a Normal padrão, essa propriedade diz que $F(z) = F(-z)$, facilitando o cálculo de áreas sob a curva **á direita de $z$.
#In: 
## compare with the previous result, i.e. 1 - stats.norm.cdf(2)
stats.norm.cdf(-2)
0.022750131948179195

Ainda outras 2 propriedades (que vale para quaisquer distribuições contínuas) importantes das CDFs são

\begin{align} F(-\infty) :&= \lim_{x \rightarrow -\infty} F(x) = 0, & F(+\infty) :&= \lim_{x \rightarrow +\infty} F(x) = 1, \end{align}

o que implica que

  • a área entre $a \rightarrow - \infty$ e $b = x$ (isto é, a área à esquerda de $a$) é igual a $F(x) - F(-\infty) = F(x)$
  • e que a área entre $a = x$ e $b \rightarrow +\infty$ (isto é, a área à direita de $a$) é igual a $F(+\infty) - F(x) = 1 - F(x)$.

Utilizando a distribuição Normal

Vamos voltar ao nosso exemplo de alturas e pesos.

#In: 
height_and_weight
HeightWeight
073.85241.89
168.78162.31
274.11212.74
.........
499767.01199.20
499871.56185.91
499970.35198.90

5000 rows × 2 columns

Recapitulando o que estabelecemos anteriormente, essas duas variáveis são aproximadamente normais.

Como podemos então utilizar essa informação?

Unidades padronizadas e a distribuição Normal padrão

  • Ideia principal: o eixo $x$ em uma curva Normal padrão é expresso em unidades padronizadas.
    • Por exemplo, a área entre -1 e 1 é a proporção de valores a 1 DP da média.
  • Suponha que uma distribuição seja (aproximadamente) Normal.
  • Nesse caso ambas quantidades são aproximadamente iguais:
    • A proporção de valores na distribuição entre $a$ e $b$.
    • A área entre $\frac{a - \bar{X}}{S}$ e $\frac{b - \bar{X}}{S}$ sob a curva Normal padrão.

Exemplo: Proporção de pesos entre 200 e 225 libras

Suponhamos que não tenhamos acesso à população inteira dos pesos, mas apenas à sua média e DP.

#In: 
weight_mean = weights.mean()
weight_mean
187.0206206581932
#In: 
weight_std = np.std(weights)
weight_std
19.779176302396458

Utilizando essa informação, podemos aproximar a proporção dos pesos entre 200 e 225 libras através da distribuição Normal padrão da seguinte forma:

  1. Convertemos 200 para unidades padronizadas.
  2. Convertemos 225 para unidades padronizadas.
  3. Utilizamos a diferença entre stats.norm.cdf nas unidades padronizadas para encontrar a área entre elas.
#In: 
left = (200 - weight_mean) / weight_std
left
0.656214351061435
#In: 
right = (225 - weight_mean) / weight_std
right
1.9201699181580782
#In: 
normal_area(left, right)

png

#In: 
approximation = stats.norm.cdf(right) - stats.norm.cdf(left)
approximation
0.22842488819306406

Verificando a qualidade da aproximação

Como temos acesso à população de pesos, podemos calcular a proporção verdadeira dos pesos entre 200 e 225 libras.

#In: 
# True proportion of values between 200 and 225.
height_and_weight[
    (height_and_weight.get('Weight') >= 200) &
    (height_and_weight.get('Weight') <= 225)
].shape[0] / height_and_weight.shape[0]
0.2294
#In: 
# Approximation using the standard normal curve.
approximation
0.22842488819306406

Boa aproximação! 🤩

Cuidado: A padronização não faz com que uma distribuição seja Normal!

Considere mais uma vez a distribuição dos atrasos de vôos das aulas passadas.

#In: 
delays = pd.read_csv('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/united_summer2015.csv')
delays.plot(kind='hist', y='Delay', bins=np.arange(-20.5, 210, 5), density=True, ec='w', figsize=(10, 5))
plt.title('Atrasos de Vôos')
plt.xlabel('Atrasos (em minutos)')
plt.ylabel("Frequência");

png

A distribuição acima não parece ser aproximadamente Normal, e isso não muda com a padronização.

Ao padronizar uma distribuição, modificamos apenas sua locação e dispersão: a forma da distribuição não se altera.

#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/delay_anim.html')

A Desigualdade de Chebyshev e a distribuição Normal

  • Lembre que a Desigualdade de Chebyshev nos diz que a proporção dos valores a $k$ DPs da média é no mínimo igual a $1 - \frac{1}{k^2}$.
    • Isso vale para qualquer distribuição, mas lembre que essa é uma cota inferior.
  • Se soubermos que uma distribuição é Normal, podemos ser ainda mais precisos!
$k$IntervaloProbabilidade
(via Chebyshev)
Probabilidade
(na Normal)
$k = 1$$\bar{X} \pm 1 \cdot \sigma$$\geq 1 - \frac{1}{1} = 0\%$$\simeq 68\%$
$k = 2$$\bar{X} \pm 2 \cdot \sigma$$\geq 1 - \frac{1}{4} = 75\%$$\simeq 95\%$
$k = 3$$\bar{X} \pm 3 \cdot \sigma$$\geq 1 - \frac{1}{9} \simeq 88.88\%$$\simeq 99.73\%$

Na Normal, 68% dos valores estão a 1 DP da média

Lembre que os valores no eixo $x$ da curva Normal padrão estão em unidades padronizadas.

Logo, a proporção dos valores a 1 DP da média sob a curva Normal padrão estarão entre -1 e 1.

#In: 
normal_area(-1, 1, bars=True)

png

#In: 
stats.norm.cdf(1) - stats.norm.cdf(-1)
0.6826894921370859

Isso implica que, se uma variável têm distribuição Normal, aproximadamente 68% dos valores estarão a 1 DP da média.

Na Normal, 95% dos valores estão a 2 DPs da média

#In: 
normal_area(-2, 2, bars=True)

png

#In: 
stats.norm.cdf(2) - stats.norm.cdf(-2)
0.9544997361036416
  • Na distribuição Normal, aproximadamente 95% dos valores estarão a 2 DPs da média.
  • Consequentemente, 5% dos valores estarão fora desse intervalo.
  • Além disso, como a Normal é simétrica:
    • 2.5% dos valores estarão a mais de 2 DPs da média
    • e 2.5% dos valores estarão a menos de 2 DPs da média.

Recapitulando (mais uma vez): Proporção dos valores a $k$ DPs da média

$k$IntervaloProbabilidade
(via Chebyshev)
Probabilidade
(na Normal)
$k = 1$$\bar{X} \pm 1 \cdot \sigma$$\geq 1 - \frac{1}{1} = 0\%$$\simeq 68\%$
$k = 2$$\bar{X} \pm 2 \cdot \sigma$$\geq 1 - \frac{1}{4} = 75\%$$\simeq 95\%$
$k = 3$$\bar{X} \pm 3 \cdot \sigma$$\geq 1 - \frac{1}{9} \simeq 88.88\%$$\simeq 99.73\%$

As probabilidades reportadas acima para a distribuição Normal são aproximadas, mas não são cotas inferiores.

Importante: Essas probabilidades na verdade valem para todas as distribuições normais, padronizadas ou não.

Isso se deve ao fato de que a distribuição Normal padrão pode ser obtidad a partir de qualquer distribuição Normal através de uma padronização adequada (e vice-versa).

Algebricamente, se $X$ tem distribuição Normal com média $\mu$ e DP $\sigma$ e $Z = \frac{X - \mu}{\sigma}$ tem distribuição Normal padrão, então $X = \mu + \sigma Z$.

Pontos de inflexão

  • Mencionamos anteriormente que a curva Normal padrão possui pontos de inflexão em $z = \pm 1$.
    • Informalmente, um ponto de inflexão é um onde a curva passa de “curvada para baixo” 🙁 para “curvada para cima” 🙂.
#In: 
normal_area(-1, 1)

png

  • Como o eixo $x$ da curva Normal padrão está expresso em unidades padronizadas, então para qualquer distribuição Normal os pontos de inflexão estarão a 1 DP abaixo e acima da média $\mu$.

  • Isso implica que, se uma distribuição é aproximadamente Normal, então podemos encontrar seu desvio padrão apenas medindo a distância entre cada ponto de inflexão dessa distribuição e sua média.

Exemplo: distribuição das alturas

Lembre que a distribuição das alturas é aproximadamente Normal, mas não uma Normal padrão.

#In: 
height_and_weight.plot(kind='hist', y='Height', density=True, ec='w', bins=40, alpha=0.8, figsize=(10, 5));
plt.xticks(np.arange(60, 78, 2))
plt.ylabel("Frequência");

png

  • A média/mediana parece estar em torno de 69.
  • Os pontos de inflexão parecem estar em torno de 66 e 72.
  • Dessa forma, o desvio padrão é aproximadamente 72 - 69 = 3, ou 69 - 66 = 3.
#In: 
np.std(height_and_weight.get('Height'))
2.863075878119538

Resumo e próxima aula

Resumo: Unidades padronizadas e a distribuição Normal

  • Para converter um valor $X_i$ para unidades padronizadas, fazemos $Z_i := \frac{X_i - \mu}{\sigma}$.
    • Valores em unidades padronizadas medem o número de desvios padrão que $X_i$ está acima (ou abaixo) de sua média.
  • A distribuição Normal, cuja curva possui formato de sino, aparece em muitos fenômenos da natureza.
  • O eixo $x$ da curva Normal padrão é sempre expresso em unidades padronizadas.
  • Se uma distribuição é aproximadamente Normal, podemos aproximar probabilidades entre intervalos arbitrários de interesse com base nas propriedades da distribuição Normal, bastando apenas saber a média e a variância dessa distribuição.
    • Se uma variável é aproximadamente Normal, então aproximadamente 68% dos seus valores estarão a 1 DP da média, e aproximadamente 95% dos valores estarão a 2 DPs da média.

Próxima aula

  • O Teorema Central do Limite!
  • Outra maneira de calcularmos intervalos de confiança.