Primeira vez aqui? Seja bem vindo e cheque o FAQ!
x

Como estimar os parâmetros de uma distribuição de Pareto?

+1 voto
128 visitas
perguntada Abr 19 em Estatística por Mateus Hiro Nagata (26 pontos)  
recategorizado Mai 21 por Mateus Hiro Nagata

[A questão foi retirada do livro Mathematical Statistics and Data Analysis Cap. 8 - Exercício 39 - John Rice]

A distribuição de Pareto é muito utilizada em Economia para modelar uma função de distribuição com calda de diminuição lenta:

\[ f(x|x_0, \theta) = \theta x^{\theta}_0x^{- \theta-1}, x\geq x_0, \theta > 1 \]

Assumindo que \( x_0 > 0 \) e \(X_1, X_2, \dots, X_n \) é uma amostra i.i.d.

  1. Encontre o estimador de momentos de \( \theta\).
  2. Encontre o estimador de máxima verossimilhança de \( \theta \).
  3. Encontre a variância assintótica do estimador de máxima verossimilhança.
  4. Encontre uma estatística suficiente de \( \theta \).
Compartilhe

1 Resposta

0 votos
respondida Mai 21 por Mateus Hiro Nagata (26 pontos)  
editado Mai 21 por Mateus Hiro Nagata

A função de distribuição de Pareto pode ser escrita como

\[ f(x|x_0, \theta) = \begin{cases} \theta x_0^{\theta}x^{-\theta - 1}, x \geq x_0, \theta > 1\\ 0,&\text{caso contrário.}\\ \end{cases} \]

Vamos supor sempre que \(\theta > 1\) e escrevemos a fórmula de forma mais conveniente,

\[ f(x|x_0, \theta) = \theta x_0^{\theta}x^{-\theta - 1} 1_{x \geq x_0}.\]

Para aqueles que não são familiarizados, a função \(1_{x \geq x_0} \) é a função indicadora e indica ''1 quando a condição que está no subscrito é verdadeira'' e "0 quando a condição que está no subscrito é falsa''. Essa é uma ferramenta muito usada em estatística para especificar a região de integração de forma elegante, como faremos abaixo.

1. Encontre o estimador de momentos de \(\theta \).

Lembrando que assumimos \( \theta > 1 \).

\[ E(X) = \int_{-\infty}^{\infty} \theta x_0^{\theta}x^{-\theta} 1_{x \geq x_0}dx = \int_{x_0}^{\infty} \theta x_0^{\theta}x^{-\theta} dx \]

\[ = - \frac{\theta x_0^{\theta}x^{-\theta+1}}{-\theta+1}\Big|_{x = x_0}^{ \infty} = 0 + \frac{\theta x_0}{\theta-1} \]

\[E(X^2) = \int_{-\infty}^{\infty} \theta x_0^{\theta}x^{-\theta+1}1_{x \geq x_0} \,dx = \int_{x_0}^{\infty} \frac{\theta x_0^{\theta}}{x^{\theta - 1}} \,dx \]

\[ = \frac{\theta x_0^{\theta} x^{-\theta + 2}}{-\theta + 2} \Big|_{x = x_0}^{ \infty} = 0 + \frac{\theta x_0^2}{\theta - 2} \]

Igualando os momentos
\[ \overline{X} = \frac{\theta x_0}{\theta - 1} \]

\[ \overline{X^2} = \frac{\theta x_0^2}{\theta - 2} \]

Rearranjando de forma a escrever o parâmetro ( \( \theta \) ) como função dos momentos:

\[ \hat{\theta}_{MME} = \frac{\overline{X}}{\overline{X} - x_0}= \frac{2 \overline{X^2}}{ \overline{X^2} - x_0^2} \]

2. Encontre o estimador de máxima verossimilhança de \(\theta\).

O estimador de máxima verossimilhança pode ser encontrado em 2 passos:

  1. Encontramos a função de log-verossimilhança que é \sum{i=1}^{n} log[ f(Xi|\theta)]
  2. Derivamos a função com respeito ao parâmetro
  3. Isolamos o termo que queremos

Definimos a função de log-verossimilhança da função de distribuição de Pareto da seguinte forma

\[l(\theta) = \sum_{i=1}^{n} log[ f(X_i|\theta)] = \sum_{i=1}^{n}( log (\theta) + \theta log (x_0) + (-\theta - 1) log (x_i)).\]

\[ l(\theta) = nlog(\theta) + n \theta log(x_0) - (\theta + 1) log (\prod_{n=1}^{n} x_i)\]

Derivando com respeito a \(\theta \) e igualando a zero, temos a seguinte condição de primeira ordem

\[\frac{\partial l(\theta)}{\partial \theta} = \frac{n}{\theta} + n log(x_0) - log(\prod_{n=1}^{n} x_i) = 0. \]

Basta isolar o estimador de máxima verossimilhança,

\[ \hat{\theta}_{MLE} = log(x_0) - \frac{\sum_{i = 1}^{n}{log(x_i)}}{n}. \]

3. Encontre a variância assintótica do estimador de máxima verossimilhança.

Quando temos uma amostra grande, a distribuição de uma estimativa de máxima verossimilhança é aproximadamente normal com variância \(\frac{1}{nI(\theta)} \).

Vamos definir a função \(I(\theta) \) como

\[ I(\theta) = E \left[ \frac{\partial}{\partial \theta} log f(X| \theta) \right]^2 \]

Que, dado condições de suavidade, também pode ser escrita como

\[ I(\theta) = - E \left[ \frac{\partial^2}{\partial \theta^2} log f(X| \theta) \right] \]

No nosso caso seria

\[ -E \left[ \frac{\partial^2}{\partial \theta^2}( log(\theta) + \theta log(x_0) - \theta log(x)) \right] = - E \left[ \frac{\partial}{\partial \theta}( \frac{1}{\theta} + log(x_0) - log(x) )\right ] \]

\[ = - E\left[ \frac{-1}{\theta^2} \right] = \frac{1}{\theta^2} \]

Como a variância assintótica é \( \frac{1}{nI(\theta_0)} \), então temos que a variância assintótica é

\[ \frac{\theta^2}{n}\]

4. Encontre uma estatística suficiente de \(\theta\).

Teorema. A condição necessáia e suficiente para que \(T(x_1, \dots, x_n) \) seja uma estatística suficiente para o parâmetro \( \theta \) é que a função de probabilidade conjunta seja da seguinte forma:

\[f(x_1, \dots, x_n | \theta) = g\left[ T(x_1, \dots, x_n), \theta \right] h(x_1, \dots, x_n) \]

Alternativamente, podemos resolver essa questão pela análise da família exponencial. Uma família exponencial é tal que a função de distribuição pode ser escrita como

\[f(x| \theta) = \begin{cases} exp[c(\theta)T(x) + d(\theta) + S(x)], & x \in A\\ 0,&\text{otherwise},\\ \end{cases} \]

sendo que o conjunto \(A\) não pode depender de \(\theta\) (no nosso caso, depende apenas de \(x_0 \), então não é um problema). Além disso, a distribuição conjunta da amostra $X1, \dots, Xn$ deve ser

\[f(x_1, \dots, x_n | \theta) = \prod_{i = 1}^{n} exp[c(\theta)T(x_i) + d(\theta) + S(x_i)]\]

\[ = exp \left[ c(\theta) \sum_{i=1}^{n}T(x_i) + nd(\theta) \right]exp \left[ \sum_{i = 1}^{n} S(x_i)\right]. \]

Nesse caso, a estatística suficiente é \(\sum_{i=1}^{n}T(x_i)\).

Veja que podemos escrever a função de distribuição de Pareto da seguinte forma

\[f(x_1, \dots, x_n | \theta) = \theta^n x_0^{n\theta} (\prod_{i = 1}^{n}x_i )^{-\theta - 1} = exp((nlog(\theta) + (n\theta)log(x_0) )) \times exp((log(\prod_{i = 1}^{n} x_i^{-\theta - 1}))) \]

\[= exp((nlog(\theta) + (n\theta)log(x_0) )) \times exp(( (-\theta - 1) \sum_{i = 1}^{n} log(x_i))) \]

\[ = exp(( (-\theta - 1) \sum_{i = 1}^{n} log(x_i) + n log(\theta) + (n\theta)log(x_0))) \times exp(0) \]

Dessa forma, obtemos que

  • \( c(\theta) = (-\theta - 1) \)
  • \( \sum_{i = 1}^{n} T(x_i) = \sum_{i = 1}^{n} log(x_i)\)
  • \( d(\theta) = log(\theta)\)
  • \( \sum_{i = 1}^{n} S(x_i) = 0\)

Concluindo assim que a estatística suficiente é \( \sum_{i = 1}^{n} T(x_i) = \sum_{i = 1}^{n} log(x_i) \)

comentou Mai 21 por Fábio Springer (11 pontos)  
Sua resposta ficou excelente, muito bem explicada e bem redigida. Na parte que você descreve o teorema "otherwise" pode ser substituído por "caso contrário" já que o resto do texto está em português. De todo modo, parabéns pela resposta.
comentou Mai 21 por Mateus Hiro Nagata (26 pontos)  
Obrigado pelo feedback, vou ajustar no texto.

Além disso, tenho uma pergunta, Fábio. Quando eu aprendi os métodos de momento e de máxima verossimilhança pela primeira vez (e segunda vez) sofri muito para entender e aplicar, mesmo vendo os exemplos do livro-texto. Queria saber se a resolução permite enxergar a "receita de bolo" pra encontrar os estimadores de momentos e de máxima verossimilhança para algum iniciante? Estarei aguardando a resposta.
comentou Mai 21 por Fábio Springer (11 pontos)  
Então Mateus, eu também tive bastante dificuldade com o método no início. Para alguém que sabe um pouco sobre o método a sua resposta da 2 ficou ótima e é possível sim entender a receita de bolo, por sinal tem uma pequena falha no LATEX no passo 1, nada grave, mas pode atrapalhar se o leitor não estiver familiarizado com LATEX. Acho que você foi bastante cuidadoso e descreveu muito bem cada um dos seus passos o que facilita muito pra alguém quem está tentando compreender o método de estimação.
...