Tópico 17 – Padronização e a Distribuição Normal

Depois de aprendermos sobre as medidas que podemos utilizar para caracterizar a centralidade e a dispersão de uma distribuição (e a relação dessas medidas com algumas probabilidades de interesse), veremos uma distribuição muito importante em Ciência de Dados e que pode ser completamente caracterizada por sua média e variância: a distribuição Normal. Discutiremos como essa distribuição surge naturalmente em diversos fenômenos da natureza, e como suas propriedades podem nos ajudar a realizar inferência para uma população. Vamos introduzir e explorar também o conceito de padronização, e a importância de se padronizar certos conjuntos de variáveis para uma análise mais coerente.

Resultados Esperados

Introduzir o conceito de padronização e aprender a interpretar as medidas correspondentes.
Introduzir a distribuição Normal, motivar suas propriedades e ilustrar sua utilização na prática.
Comparar os resultados da Desigualdade de Chebyshev em um contexto sobre o qual temos mais informação sobre a distribuição de interesse.

Material Adaptado do DSC10 (UCSD)

#In: 
import numpy as np
import pandas as pd
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

np.set_printoptions(threshold=20, precision=2, suppress=True)
pd.set_option("display.max_rows", 7)
pd.set_option("display.max_columns", 8)
pd.set_option("display.precision", 2)

# Animations
import ipywidgets as widgets
from IPython.display import display, HTML

def normal_curve(x, mu=0, sigma=1):
    return (1 / np.sqrt(2 * np.pi * sigma ** 2)) * np.exp((- (x - mu) ** 2) / (2 * sigma ** 2))

def show_many_normal_distributions():
    plt.figure(figsize=(10, 5))
    x = np.linspace(-40, 40, 10000)
    pairs = [(0, 1, 'black'), (10, 1, 'blue'), (-15, 4, 'red'), (20, 0.5, 'green')]

    for pair in pairs:
        y = normal_curve(x, mu=pair[0], sigma=pair[1])
        plt.plot(x, y, color=pair[2], linewidth=3, label=f'Normal(mean={pair[0]}, SD={pair[1]})')

    plt.xlim(-40, 40)
    plt.ylim(0, 1)
    plt.title('Normal Distributions with Different Means and Standard Deviations')
    plt.legend();

def normal_area(a, b, bars=False):
    x = np.linspace(-4, 4, 1000)
    y = normal_curve(x)
    ix = (x >= a) & (x <= b)
    plt.figure(figsize=(10, 5))
    plt.plot(x, y, color='black')
    plt.fill_between(x[ix], y[ix], color='gold')
    if bars:
        plt.axvline(a, color='red')
        plt.axvline(b, color='red')
    plt.title(f'Area between {np.round(a, 2)} and {np.round(b, 2)}')
    plt.show()

def sliders():
    a = widgets.FloatSlider(value=0, min=-4,max=3,step=0.25, description='a')
    b = widgets.FloatSlider(value=1, min=-4,max=4,step=0.25, description='b')
    bars = widgets.Checkbox(value=False, description='bars')
    ui = widgets.HBox([a, b, bars])
    out = widgets.interactive_output(normal_area, {'a': a, 'b': b, 'bars': bars})
    display(ui, out)

Recapitulando: Desigualdade de Chebyshev

Variância e desvio padrão

A variância é igual à média dos desvios quadrados em torno da média.
- O desvio padrão é igual a raiz quadrada da variância.

Formalmente,

\[\begin{align*} S^2 &:= \frac{\sum^n_{i=1} (X_i - \bar{X})^2}{n}, & S &= \sqrt{S^2} = \sqrt{\frac{\sum^n_{i=1} (X_i - \bar{X})^2}{n}}. \end{align*}\]

Desigualdade de Chebyshev

A desigualdade de Chebyshev nos diz que, para uma certa distribuição de probabilidade, a probabilidade dos valores estarem a a $k$ DPs da média é de, no mínimo

\[1 - \frac{1}{k^2}.\]

Padronização

Exemplo: Alturas e pesos 📏

Para exemplificar, comecemos com um conjunto de dados com as alturas e pesos de $n = 5,000$ homens adultos.

#In: 
height_and_weight = pd.read_csv('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/height_and_weight.csv')
height_and_weight

	Height	Weight
0	73.85	241.89
1	68.78	162.31
2	74.11	212.74
...	...	...
4997	67.01	199.20
4998	71.56	185.91
4999	70.35	198.90

5000 rows × 2 columns

Distribuições das alturas e pesos

Vamos analisar a distribuição das variáveis do nosso conjunto.

#In: 
height_and_weight.plot(kind='hist', y='Height', density=True, ec='w', bins=30, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

#In: 
height_and_weight.plot(kind='hist', y='Weight', density=True, ec='w', bins=30, alpha=0.8, color='C1', figsize=(10, 5))
plt.ylabel("Frequência");

png

#In: 
height_and_weight.plot(kind='hist', density=True, ec='w', bins=60, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

Observação: As duas distribuições acima são similares à versões “deslocadas” e “esticadas” da mesma forma, denominada informalmente de “curva de sino” (bell curve) 🔔.

Veremos mais formalmente que uma distribuição com essa forma é conhecida como distribuição Normal.

Diferentes “normais”

A Normal é, mais corretamente, uma família de distribuições.
Existem várias distribuições normais. Todas têm “forma de sino”, mas variam em locação (“centralidade”) e dispersão (“largura”).
- A locação e a dispersão na Normal são fundamentalmente expressos por sua média e variância, respectivamente.
A média e a variância definem unicamente uma distribuição Normal.
- Isto é, para uma dada média e variância, existe apenas uma distribuição Normal correspondente.

#In: 
show_many_normal_distributions()

png

Nota: como cada curva acima representa uma distribuição de probabilidade, a área abaixo de cada curva é sempre igual a 1.
- Dessa maneira, as curvas mais “altas” serão mais “curtas”, e as curvas mais “baixas” serão mais “largas”.
- Reforçando esse ponto mais uma vez, a altura de cada curva dependerá necessariamente da variância.
  - Quanto maior a variância, mais larga (e mais baixa) será a Normal correspondente.
  - Quanto menor a variância, mais curta (e mais alta) será a Normal correspondente.
A distribuição Normal sempre pode ser deslocada e reescalada de maneira a ficar igual a qualquer outra distribuição Normal.
- Mais formalmente, dizemos que a distribuição Normal é invariante a transformações lineares.
- Equivalentemente, podemos dizer também que a normalidade é mantida/preservada sob transformações lineares.

Vamos ilustrar como a padronização funciona na prática abaixo com alturas e pesos.

Unidades padronizadas

Suponha que $X$ seja uma variável aleatória (numérica) com média $\mu$ e desvio padrão $\sigma$, e que $X_i$ seja um valor (realização) dessa variável. Então,

\begin{align} Z_i := \frac{X_i - \mu}{\sigma} \end{align}

representa $X_i$ em unidades padronizadas, isto é, o número de DPs que $X_i$ está de sua média.

Equivalentemente, se $Z_i = z \in \mathbb{R}$, então podemos dizer que $X_i$ está a $z$ DPs da média.

Lembre da Desigualdade de Chebyshev acima!

Exemplo: Suponha que uma pessoa pese 225 libras. Qual é o seu peso em unidades padronizadas?

#In: 
weights = height_and_weight.get('Weight')
(225 - weights.mean()) / np.std(weights)

1.9201699181580782

Interpretação: 225 está a 1.92 desvios-padrão acima da média dos pesos.
225 libras é igual a 1.92 em unidades padronizadas.

Nota: a padronização sempre depende do valor de $\mu$ e $\sigma$, que são específicos à cada distribuição.

Padronização

O processo de conversão dos valores de uma variável para unidades padronizadas é conhecido como padronização.

Consequentemente, os valores $Z_i$ obtidos através da padronização são ditos padronizados.

#In: 
def standard_units(col):
    return (col - col.mean()) / np.std(col)

#In: 
standardized_height = standard_units(height_and_weight.get('Height'))
standardized_height

     1.68
    -0.09
     1.78
        ... 
 -0.70
  0.88
  0.46
Name: Height, Length: 5000, dtype: float64

#In: 
standardized_weight = standard_units(height_and_weight.get('Weight'))
standardized_weight

     2.77
    -1.25
     1.30
        ... 
  0.62
 -0.06
  0.60
Name: Weight, Length: 5000, dtype: float64

O efeito da padronização

Variáveis padronizadas sempre têm:

Média igual a 0.
Variância = desvio padrão = 1.

É comum padronizarmos diferentes variáveis simplesmente para termos todas na mesma escala.

#In: 
# e-15 means 10^(-15), which is a very small number, effectively zero.
standardized_height.describe()

count    5.00e+03
mean     1.49e-15
std      1.00e+00
           ...   
50%      4.76e-04
75%      6.85e-01
max      3.48e+00
Name: Height, Length: 8, dtype: float64

#In: 
standardized_weight.describe()

count    5.00e+03
mean     5.98e-16
std      1.00e+00
           ...   
50%      6.53e-04
75%      6.74e-01
max      4.19e+00
Name: Weight, Length: 8, dtype: float64

Veja abaixo como o processo de padronização funciona nesse exemplo.

#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/height_anim.html')

#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/weight_anim.html')

Histogramas padronizados

Agora que padronizamos as distribuições dos pesos e das alturas, vamos ver mais uma vez como seus histogramas ficam lado-a-lado.

#In: 
standardized_height_and_weight = pd.DataFrame().assign(
    Height=standardized_height,
    Weight=standardized_weight
)
standardized_height_and_weight.plot(kind='hist', density=True, ec='w',bins=30, alpha=0.8, figsize=(10, 5))
plt.ylabel("Frequência");

png

Ambos ficaram bem parecidos!

A distribuição Normal padrão

Padronizando a distribuição Normal

As distribuições vistas anteriormente são muito parecidas após a padronização.
Uma distribuição Normal padronizada é denominada de distribuição Normal padrão.
- A distribuição Normal padrão é caracterizada unicamente por sua média 0 e variância igual a 1.
Formalmente, a função que define a curva Normal padrão, isto é, que descreve a distribuição de uma variável aleatória Normal padronizada, é denotada por

\begin{equation} \phi(z) := \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}, \,\, z \in \mathbb{R}. \end{equation}

A curva Normal padrão

#In: 
def normal_curve(z):
    return 1 / np.sqrt(2 * np.pi) * np.exp((-z**2)/2)

x = np.linspace(-4, 4, 1000)
y = normal_curve(x)

plt.figure(figsize=(10, 5))
plt.plot(x, y, color='black');
plt.xlabel('$z$');
plt.title(r'$\phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2}z^2}$');

png

Alturas e pesos são “aproximadamente normais”

Dizemos que, se uma distribuição tem uma curva “similar” à curva Normal, que essa distribuição é “aproximadamente Normal”.

De maneira equivalente, podemos dizer que a população/amostra (ou a variável aleatória em questão) é aproximadamente normalmente distribuída.

Se $X$ é normalmente distribuída com média $\mu$ e variância $\sigma^2$, sempre é possível padronizar $X$ através de $Z := \frac{X - \mu}{\sigma},$ onde nesse caso $Z$ tem distribuição Normal padrão.

#In: 
standardized_height_and_weight.plot(kind='hist', density=True, ec='w', bins=120, alpha=0.8, figsize=(10, 5));
plt.plot(x, y, color='black', linestyle='--', label='Normal', linewidth=5)
plt.legend(loc='upper right')
plt.ylabel("Frequência");

png

A distribuição Normal padrão

Podemos pensar na curva de uma distribuição contínua (como a Normal) como um “análogo contínuo” do histograma.
A distribuição Normal padrão tem mediana e moda ambas iguais à zero.
- Isso implica que a Normal padrão é simétrica (em torno de 0).
- A moda da Normal também é sempre igual à média e a mediana (e logo igual a 0 no caso padrão).
A curva da distribuição Normal padrão tem pontos de inflexão em $\pm 1$.
- Veremos mais sobre isso adiante.
Similar ao que temos para um histograma, na curva de qualquer distribuição contínua:
- A área do intervalo $[a, b]$ representa a probabilidade dos valores entre $a$ e $b$.
- A área total abaixo da curva é igual a 1.

#In: 
sliders()

HBox(children=(FloatSlider(value=0.0, description='a', max=3.0, min=-4.0, step=0.25), FloatSlider(value=1.0, d…

Output()

Função de distribuição acumulada

A função de distribuição acumulada (CDF, do inglês cumulative density function) de uma variável aleatória é uma função $F(x)$ que toma valores $x \in \mathbb{R}$ e retorna a probabilidade dos valores que são menores ou iguais à $x$, isto é, a área sob a curva à esquerda de x$.

#In: 
# cdf(0) should give us the gold area below.
normal_area(-np.inf, 0)

png

Para encontrar áreas sob curvas, em geral utilizamos integração (i.e. cálculo integral).
- Porém, infelizmente a curva Normal padrão não tem uma integral analítica, isto é, com forma fechada!
Uma alternativa comum é a utilização de tabelas que contém aproximações da CDF da Normal padrão.
- Em essência, as tabelas são construídas a partir de aproximações numéricas.
Aqui, construíremos nossas próprias aproximações numéricas!
- Mais especificamente, utilizaremos a função scipy.stats.norm.cdf(z) para calcular a área da curva Normal padrão à esquerda de z.

Áreas sob a curva Normal padrão

Qual você acha que é o valor de scipy.stats.norm.cdf(0)? Por quê?

#In: 
normal_area(-np.inf, 0)

png

#In: 
from scipy import stats
stats.norm.cdf(0)

0.5

Suponha agora que estejamos interessados na área à direita de $z = 2$ sob a curva Normal padrão.

#In: 
normal_area(2, np.inf)

png

A expressão abaixo nos dá a área à esquerda de $z = 2$.

#In: 
stats.norm.cdf(2)

0.9772498680518208

#In: 
normal_area(-np.inf, 2)

png

Porém, como a área total sob a curva Normal padrão é sempre igual a 1, temos, para todo $z \in \mathbb{R}$, que a área á direita de $z$ é dada por

\begin{equation} 1 - F(z). \end{equation}

Em particular, tomando $z = 2$, temos

#In: 
1 - stats.norm.cdf(2)

0.02275013194817921

Agora, como podemos utilizar a função stats.norm.cdf para calcular a área entre $a = -1$ e $b = 0$?

#In: 
normal_area(-1, 0)

png

Nossa estratégia aqui será calcular a área entre $a = -1$ e $b = 0$ como

a área à esquerda de $b = 0$
subtraída da área à esquerda de $a = -1$.

#In: 
stats.norm.cdf(0) - stats.norm.cdf(-1)

0.3413447460685429

Em geral, a área sobre uma curva contínua no intervalo $[a, b]$ é sempre igual a $F(b) - F(a)$.

No Python, esse cálculo pode ser feito como

stats.norm.cdf(b) - stats.norm.cdf(a)

Outra propriedade importante da distribuição Normal que podemos utilizar para calcular probabilidades de interesse é a reflexividade em torno da média.

Para a Normal padrão, essa propriedade diz que $F(z) = F(-z)$, facilitando o cálculo de áreas sob a curva **á direita de $z$.

#In: 
## compare with the previous result, i.e. 1 - stats.norm.cdf(2)
stats.norm.cdf(-2)

0.022750131948179195

Ainda outras 2 propriedades (que vale para quaisquer distribuições contínuas) importantes das CDFs são

\begin{align} F(-\infty) :&= \lim_{x \rightarrow -\infty} F(x) = 0, & F(+\infty) :&= \lim_{x \rightarrow +\infty} F(x) = 1, \end{align}

o que implica que

a área entre $a \rightarrow - \infty$ e $b = x$ (isto é, a área à esquerda de $a$) é igual a $F(x) - F(-\infty) = F(x)$
e que a área entre $a = x$ e $b \rightarrow +\infty$ (isto é, a área à direita de $a$) é igual a $F(+\infty) - F(x) = 1 - F(x)$.

Utilizando a distribuição Normal

Vamos voltar ao nosso exemplo de alturas e pesos.

#In: 
height_and_weight

	Height	Weight
0	73.85	241.89
1	68.78	162.31
2	74.11	212.74
...	...	...
4997	67.01	199.20
4998	71.56	185.91
4999	70.35	198.90

5000 rows × 2 columns

Recapitulando o que estabelecemos anteriormente, essas duas variáveis são aproximadamente normais.

Como podemos então utilizar essa informação?

Unidades padronizadas e a distribuição Normal padrão

Ideia principal: o eixo $x$ em uma curva Normal padrão é expresso em unidades padronizadas.
- Por exemplo, a área entre -1 e 1 é a proporção de valores a 1 DP da média.
Suponha que uma distribuição seja (aproximadamente) Normal.
Nesse caso ambas quantidades são aproximadamente iguais:
- A proporção de valores na distribuição entre $a$ e $b$.
- A área entre $\frac{a - \bar{X}}{S}$ e $\frac{b - \bar{X}}{S}$ sob a curva Normal padrão.

Exemplo: Proporção de pesos entre 200 e 225 libras

Suponhamos que não tenhamos acesso à população inteira dos pesos, mas apenas à sua média e DP.

#In: 
weight_mean = weights.mean()
weight_mean

187.0206206581932

#In: 
weight_std = np.std(weights)
weight_std

19.779176302396458

Utilizando essa informação, podemos aproximar a proporção dos pesos entre 200 e 225 libras através da distribuição Normal padrão da seguinte forma:

Convertemos 200 para unidades padronizadas.
Convertemos 225 para unidades padronizadas.
Utilizamos a diferença entre stats.norm.cdf nas unidades padronizadas para encontrar a área entre elas.

#In: 
left = (200 - weight_mean) / weight_std
left

0.656214351061435

#In: 
right = (225 - weight_mean) / weight_std
right

1.9201699181580782

#In: 
normal_area(left, right)

png

#In: 
approximation = stats.norm.cdf(right) - stats.norm.cdf(left)
approximation

0.22842488819306406

Verificando a qualidade da aproximação

Como temos acesso à população de pesos, podemos calcular a proporção verdadeira dos pesos entre 200 e 225 libras.

#In: 
# True proportion of values between 200 and 225.
height_and_weight[
    (height_and_weight.get('Weight') >= 200) &
    (height_and_weight.get('Weight') <= 225)
].shape[0] / height_and_weight.shape[0]

0.2294

#In: 
# Approximation using the standard normal curve.
approximation

0.22842488819306406

Boa aproximação! 🤩

Cuidado: A padronização não faz com que uma distribuição seja Normal!

Considere mais uma vez a distribuição dos atrasos de vôos das aulas passadas.

#In: 
delays = pd.read_csv('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/united_summer2015.csv')
delays.plot(kind='hist', y='Delay', bins=np.arange(-20.5, 210, 5), density=True, ec='w', figsize=(10, 5))
plt.title('Atrasos de Vôos')
plt.xlabel('Atrasos (em minutos)')
plt.ylabel("Frequência");

png

A distribuição acima não parece ser aproximadamente Normal, e isso não muda com a padronização.

Ao padronizar uma distribuição, modificamos apenas sua locação e dispersão: a forma da distribuição não se altera.

#In: 
HTML('https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/17-Normalidade/data/delay_anim.html')

A Desigualdade de Chebyshev e a distribuição Normal

Lembre que a Desigualdade de Chebyshev nos diz que a proporção dos valores a $k$ DPs da média é no mínimo igual a $1 - \frac{1}{k^2}$.
- Isso vale para qualquer distribuição, mas lembre que essa é uma cota inferior.
Se soubermos que uma distribuição é Normal, podemos ser ainda mais precisos!

$k$	Intervalo	Probabilidade (via Chebyshev)	Probabilidade (na Normal)
$k = 1$	$\bar{X} \pm 1 \cdot \sigma$	$\geq 1 - \frac{1}{1} = 0\%$	$\simeq 68\%$
$k = 2$	$\bar{X} \pm 2 \cdot \sigma$	$\geq 1 - \frac{1}{4} = 75\%$	$\simeq 95\%$
$k = 3$	$\bar{X} \pm 3 \cdot \sigma$	$\geq 1 - \frac{1}{9} \simeq 88.88\%$	$\simeq 99.73\%$

Na Normal, 68% dos valores estão a 1 DP da média

Lembre que os valores no eixo $x$ da curva Normal padrão estão em unidades padronizadas.

Logo, a proporção dos valores a 1 DP da média sob a curva Normal padrão estarão entre -1 e 1.

#In: 
normal_area(-1, 1, bars=True)

png

#In: 
stats.norm.cdf(1) - stats.norm.cdf(-1)

0.6826894921370859

Isso implica que, se uma variável têm distribuição Normal, aproximadamente 68% dos valores estarão a 1 DP da média.

Na Normal, 95% dos valores estão a 2 DPs da média

#In: 
normal_area(-2, 2, bars=True)

png

#In: 
stats.norm.cdf(2) - stats.norm.cdf(-2)

0.9544997361036416

Na distribuição Normal, aproximadamente 95% dos valores estarão a 2 DPs da média.
Consequentemente, 5% dos valores estarão fora desse intervalo.
Além disso, como a Normal é simétrica:
- 2.5% dos valores estarão a mais de 2 DPs da média
- e 2.5% dos valores estarão a menos de 2 DPs da média.

Recapitulando (mais uma vez): Proporção dos valores a $k$ DPs da média

$k$	Intervalo	Probabilidade (via Chebyshev)	Probabilidade (na Normal)
$k = 1$	$\bar{X} \pm 1 \cdot \sigma$	$\geq 1 - \frac{1}{1} = 0\%$	$\simeq 68\%$
$k = 2$	$\bar{X} \pm 2 \cdot \sigma$	$\geq 1 - \frac{1}{4} = 75\%$	$\simeq 95\%$
$k = 3$	$\bar{X} \pm 3 \cdot \sigma$	$\geq 1 - \frac{1}{9} \simeq 88.88\%$	$\simeq 99.73\%$

As probabilidades reportadas acima para a distribuição Normal são aproximadas, mas não são cotas inferiores.

Importante: Essas probabilidades na verdade valem para todas as distribuições normais, padronizadas ou não.

Isso se deve ao fato de que a distribuição Normal padrão pode ser obtidad a partir de qualquer distribuição Normal através de uma padronização adequada (e vice-versa).
Algebricamente, se $X$ tem distribuição Normal com média $\mu$ e DP $\sigma$ e $Z = \frac{X - \mu}{\sigma}$ tem distribuição Normal padrão, então $X = \mu + \sigma Z$.

Pontos de inflexão

Mencionamos anteriormente que a curva Normal padrão possui pontos de inflexão em $z = \pm 1$.
- Informalmente, um ponto de inflexão é um onde a curva passa de “curvada para baixo” 🙁 para “curvada para cima” 🙂.

#In: 
normal_area(-1, 1)

png

Como o eixo $x$ da curva Normal padrão está expresso em unidades padronizadas, então para qualquer distribuição Normal os pontos de inflexão estarão a 1 DP abaixo e acima da média $\mu$.
Isso implica que, se uma distribuição é aproximadamente Normal, então podemos encontrar seu desvio padrão apenas medindo a distância entre cada ponto de inflexão dessa distribuição e sua média.

Exemplo: distribuição das alturas

Lembre que a distribuição das alturas é aproximadamente Normal, mas não uma Normal padrão.

#In: 
height_and_weight.plot(kind='hist', y='Height', density=True, ec='w', bins=40, alpha=0.8, figsize=(10, 5));
plt.xticks(np.arange(60, 78, 2))
plt.ylabel("Frequência");

png

A média/mediana parece estar em torno de 69.
Os pontos de inflexão parecem estar em torno de 66 e 72.
Dessa forma, o desvio padrão é aproximadamente 72 - 69 = 3, ou 69 - 66 = 3.

#In: 
np.std(height_and_weight.get('Height'))

2.863075878119538

Resumo e próxima aula

Resumo: Unidades padronizadas e a distribuição Normal

Para converter um valor $X_i$ para unidades padronizadas, fazemos $Z_i := \frac{X_i - \mu}{\sigma}$.
- Valores em unidades padronizadas medem o número de desvios padrão que $X_i$ está acima (ou abaixo) de sua média.
A distribuição Normal, cuja curva possui formato de sino, aparece em muitos fenômenos da natureza.
O eixo $x$ da curva Normal padrão é sempre expresso em unidades padronizadas.
Se uma distribuição é aproximadamente Normal, podemos aproximar probabilidades entre intervalos arbitrários de interesse com base nas propriedades da distribuição Normal, bastando apenas saber a média e a variância dessa distribuição.
- Se uma variável é aproximadamente Normal, então aproximadamente 68% dos seus valores estarão a 1 DP da média, e aproximadamente 95% dos valores estarão a 2 DPs da média.

Próxima aula

O Teorema Central do Limite!
Outra maneira de calcularmos intervalos de confiança.