Inferencia - Tema 2
Suficiencia de un estadígrafo
Consideramos una población con función de distribución donde es un parámetro desconocido (y es el espacio paramétrico). Tomamos una muestra aleatoria de tamaño de dicha población y definimos un estadígrafo para resumir la información contenida en la muestra.
En la muestra puede existir información redundante o innecesaria que no aporta nada al conocimiento sobre el parámetro , por ejemplo, el orden de los datos o ciertos valores que no afecta a la estimación de . Por tanto, nos interesa encontrar un estadígrafo que conserve toda la información relevante sobre contenida en la muestra, eliminando cualquier información redundante.
✏️Ejemplo
Se considera el lanzamiento de una moneda tres veces, en el que se obtiene la muestra:
Se desea estimar el parámetro .
Cada secuencia posible de tres lanzamientos tiene probabilidad:
donde es el número de caras en la secuencia. En particular,
Observamos que existen tres secuencias con exactamente una cara:
Por tanto, la probabilidad total de obtener exactamente una cara y dos cruces es:
Consideremos ahora la probabilidad condicional de haber obtenido sabiendo que hubo una cara y dos cruces:
Este resultado no depende del parámetro . Por tanto, el orden en que aparecen las caras y cruces es irrelevante para estimar ; basta con conocer el número total de caras.
En consecuencia, el estadígrafo suficiente para es:
En este caso particular, la observación corresponde a .
Suficiencia. Definición
Sea un estadígrafo, se dice suficiente o exhaustivo para estimar si la distribución de condicionada a no depende del parámetro .
Teorema de factorización
Sea un estadígrafo, es suficiente para estimar si y sólo existen tales que:
📐Demostración
Esta demostración se realizará solo para el caso discreto:
- ) Sea la función de masa de probabilidad conjunta de . Tenemos que:
Por definición de suficiencia, no depende de , luego:
- ) Por hipótesis:
Definimos los conjuntos:
Entonces tenemos que:
Si desarrollamos el caso :
que no depende de . Por tanto, es suficiente para estimar .
Demostración de no suficiencia
Sean dos muestras y tales que , se tiene que:
📐Demostración
Supongamos que si lo fuera, entonces:
que no depende de , lo que contradice la hipótesis.
✏️Ejemplo
Se considera una muestra aleatoria de tamaño , ¿es un estadígrafo suficiente?
Trivialmente, es ...
Estadístico suficiente minimal
Podemos notar que un estadígrafo induce una partición del espacio muestral en clases de equivalencia, donde dos muestras y pertenecen a la misma clase si , es decir:
Así, una partición del espacio muestral está asociada a algún estadígrafo si y sólo si las clases de equivalencia son los conjuntos de muestras que comparten el mismo valor del estadígrafo.
Una partición (o estadígrafo) será suficiente entonces si, una vez que conocemos la clase de equivalencia a la que pertenece la muestra observada, es decir, conociendo , la distribución condicional del resto de la muestra no depende del parámetro .
Diremos que una partición es suficiente minimal si es suficiente y además es la más gruesa posible, es decir, cualquier otra partición suficiente es un refinamiento de ella.
Equivalentemente, un estadígrafo será minimalmente suficiente si es función de cualquier otro estadígrafo suficiente o, en otras palabras, si induce una partición suficiente minimal.
Relación de equivalencia para suficiencia minimal
Sean dos muestras, la partición dada por la relación de equivalencia:
es suficiente minimal.
💡Nota
Podemos interpretar esto como que e son equivalentes si la razón de verosimilitudes es una cantidad independiente de . Es decir, si el cambio de afecta a ambas densidades de la misma manera, manteniendo constante su cociente.
📐Demostración del caso discreto
Sea un estadígrafo asociado a la partición dada por la relación de equivalencia anterior y, sea tal que fijo entonces:
Por definición de la relación de equivalencia, el cociente no depende de para todo tal que , luego no depende de . Por tanto, es suficiente.
Sea ahora otro estadígrafo suficiente, si , es decir, y pertenecen al mismo elemento de la partición asociada a entonces:
Por suficiencia de , ambas expresiones no dependen de , y su cociente:
tampoco depende de , luego se tiene:
Por tanto, es un refinamiento de y es minimalmente suficiente.
✏️Ejemplo
Sea y se considera el estadígrafo:
Demostrar que es suficiente minimal para .
La función de masa de probabilidad conjunta de la muestra aleatoria es:
Por lo que si definimos las funciones:
se cumple la factorización:
Luego, es suficiente para .
Para ver que es suficiente minimal, consideramos las muestras y tales que , es decir:
que no depende de si . Por tanto, es suficiente minimal.
Familia exponencial -paramétrica
Familia exponencial -paramétrica. Definición
Una familia de distribuciones de probabilidad se dice que pertenece a la familia exponencial -paramétrica si:
- Su suporte no depende de .
- Existen tales que:
O equivalentemente:
Parametrización natural. Definición
Parametrizando se tiene la parametrización natural de la familia exponencial -paramétrica:
Donde el espacio paramétrico natural es:
✏️Ejemplo
Sea con conocido y , demostrar que la familia de distribuciones de pertenece a la familia exponencial paramétrica.
Tenemos que la función de masa de probabilidad de es:
Que podemos expresar como:
Por lo que si definimos:
se cumple la factorización y tenemos que el parámetro natural es:
Luego su parametrización natural es:
Y tendríamos que es un estadígrafo suficiente minimal para .
✏️Ejemplo
Se considera con
La función de densidad de probabilidad de es:
Que podemos expresar como:
Por lo que si definimos:
se cumple la factorización y tenemos que los parámetros naturales son:
Estimación puntual
Estimador puntual. Definición
Llamamos estimador puntual de un parámetro , asociado a una característica con distribución , a una función medible:
Además, llamamos estimación o aproximación del parámetro a la realización del estimador puntual, es decir:
💡Nota
Lógicamente, se busca que un estimador garantice de alguna manera que las estimaciones sean razonables, es decir, que estén cerca del valor real del parámetro desconocido.
✏️Ejemplo
Que una función sea estimador, no implica que sea útil en muchos casos, por ejemplo, se considera una distribución uniforme con desconocido y se plantea el estimador puntual:
Como podemos ver, es claramente un estimador ya que:
Y tenemos que el espacio paramétrico es .
Sin embargo, este estimador no es útil ya que casi siempre dará un valor muy grande comparado con el valor real de . Por ejemplo, si tomamos una muestra aleatoria de tamaño (supongamos que ) y obtenemos la realización:
Entonces la estimación del parámetro será:
Que está muy lejos del valor real .
Criterios de calidad de un estimador puntual
Insesgadez. Definición
Un estimador puntual de un parámetro es insesgado si:
💡Nota
Lo que se busca con este criterio es que, en promedio, el estimador proporcione el valor correcto del parámetro. Por ejemplo, se plantean dos estimadores y para un parámetro cuyas distribuciones son idénticas pero con un desplazamiento sobre el valor del estimador real:
Podemos deducir ``a ojo'' que el estimador nos ofrecerá mejores estimaciones del parámetro que el estimador , ya que la mayoría de los valores que nos dará (la esperanza) estarán más cerca de .
Eficiencia. Definición
Entre dos estimadores cuyo sesgo sea igual, es decir, que pertenezcan a la misma clase, diremos que un estimador es más eficiente que otro estimador si:
💡Nota
Los que se busca con este criterio es que el estimador proporcione estimaciones que no varíen mucho entre sí y que, por tanto, estén más concentradas alrededor del valor real del parámetro. Por ejemplo, se plantean dos estimadores y para un parámetro cuyas distribuciones son idénticas pero con diferente dispersión:
Podemos deducir ``a ojo'' que el estimador nos ofrecerá mejores estimaciones del parámetro que el estimador , ya que la mayoría de los valores que nos dará (la varianza) estarán más concentrados alrededor de .
Cota de Frechet-Cramér-Rao
La cota de Frechet-Cramér-Rao establece un límite inferior para la varianza de cualquier estimador insesgado de un parámetro bajo unas condiciones de regularidad. Sea un estimador insesgado de , entonces:
donde es la información de Fisher, definida como:
💡Nota
Podemos notar que la información de Fisher mide la cantidad de información que una muestra aleatoria proporciona sobre el parámetro desconocido . Esto lo hace ya que, si descomponemos la fórmula, tenemos que:
- es el logaritmo de la función de densidad, que se utiliza para simplificar los cálculos y convertir productos en sumas.
- al derivar respecto a , nos da una medida de cuánto cambia la función de densidad cuando variamos el parámetro .
- Al elevar al cuadrado esta derivada, potenciamos la sensibilidad de la función de densidad respecto a cambios en . Esto es debido a que para valores pequeños de la derivada, el cuadrado será aún más pequeño, mientras que para valores grandes, el cuadrado será mucho mayor.
- Finalmente, al tomar la esperanza , estamos promediando esta sensibilidad sobre todas las posibles muestras , lo que nos da una medida global de cuánta información contiene la muestra sobre el parámetro .
Error cuadrático medio. Definición
El error cuadrático medio (ECM) de un estimador puntual de un parámetro es:
💡Nota
El ECM combina los dos criterios anteriores (sesgo y varianza) en una sola medida de calidad del estimador. Un estimador con un ECM bajo es deseable, ya que indica que el estimador es preciso (baja varianza) y exacto (bajo sesgo).
Podemos notar que en la fórmula del ECM, lo que estamos haciendo es medir la distancia cuadrática entre el estimador y el parámetro real . Al tomar el cuadrado de la diferencia, penalizamos más los errores grandes, lo que significa que un estimador que ocasionalmente se aleja mucho del valor real tendrá un ECM más alto que uno que se mantiene consistentemente cerca del valor real. Además, al aplicar la esperanza , estamos promediando esta distancia cuadrática sobre todas las posibles muestras, lo que nos da una medida global de la precisión del estimador.
Consistencia. Definición
Una sucesión de estimadores de un parámetro es consistente si:
💡Nota
Podemos ver que, en realidad lo que estamos diciendo es que, a medida que aumentamos el tamaño de la muestra , las estimaciones proporcionadas por el estimador se acercan cada vez más al valor real del parámetro . Esto es deseable, ya que significa que con muestras más grandes, podemos confiar más en las estimaciones proporcionadas por el estimador.
Gráficamente, podríamos pensar en algo como:
Método de los momentos
El método de los momentos es un procedimiento sencillo y versátil que permite obtener estimadores puntuales en situaciones complejas. No obstante, los estimadores obtenidos mediante este método pueden ser inadmisibles en ciertos casos, por lo que es importante verificar su validez antes de utilizarlos (se verán ejemplos más adelante).
Sea una variable aleatoria con distribución (con ) y sean sus momentos poblacionales , entonces se tiene que:
donde son funciones conocidas.
Sea ahora una muestra aleatoria de tamaño de , el método de los momentos consiste en identificar los primeros momentos muestrales con los correspondientes momentos poblacionales con el fin de obtener un sistema de ecuaciones que permita estimar las soluciones en función de los momentos muestrales.
Donde es el estimador puntual del parámetro y son funciones conocidas.
✏️Ejemplo
Sea una variable aleatoria con desconocido. Obtener los estimadores puntuales de y mediante el método de los momentos.
Sabemos que los momentos poblacionales de una distribución normal son:
Por lo que, podemos obtener los momentos muestrales como:
De donde obtenemos el sistema de ecuaciones:
De donde se deduce que:
✏️Ejemplo
Sea una variable aleatoria con desconocido. Obtener el estimador puntual de mediante el método de los momentos.
Sabemos que el momento poblacional de una distribución uniforme es:
Por lo que, podemos obtener el momento muestral como:
De donde obtenemos la ecuación:
De donde se deduce que:
✏️Ejemplo
Se considera una variable aleatoria con desconocido. Obtener el estimador puntual de mediante el método de los momentos.
Como tenemos que el momento poblacional de primer orden de una distribución uniforme es:
Tenemos que recurrir al momento poblacional de segundo orden:
Por lo que, podemos obtener el momento muestral como:
Por lo tanto, tenemos que:
que no es función del estadístico suficiente por lo que es un estimador inadmisible.
Método delta
El método delta es una técnica en estadística que permite determinar la distribución asintótica de una trasformación diferenciable de un estadístico. Es especialmente útil cuando se trabaja con estimadores que son asintóticamente normales, ya que permite inferir propiedades de funciones de estos estimadores sin necesidad de conocer la distribución exacta.
Sea una sucesión de estadísticos construidos a partir de una muestra aleatoria de una variable aleatoria con desconocido, tq:
Sea una función con derivada no nula en el espacio paramétrico , entonces:
💡Nota
Análogamente, se puede escribir el enunciado bajo las mismas condiciones como:
O incluso:
📐Demostración
Como sabemos que se cumple que:
Si lo aplicamos a nuestro caso, tenemos que:
Por otro lado, tenemos que:
Por otro resultado de convergencias, tenemos que:
Por lo que, bastaría ver que:
Por la definición de derivada tenemos que, existe tal que:
Si consideramos un tal que , entonces:
Por lo que:
Y, por tanto:
Por lo que, tomando tal que:
se tiene que:
Y, por tanto:
💡Nota
La idea es que si tenemos un estimador casi normal que se acerca a un parámetro cuando es suficientemente grande, es decir, cuando tenemos muchos datos queremos saber que ocurre cuando aplicamos una transformación a este estimador.
Así, nos dará valores que oscilan cerca de con una cierta incertidumbre (desviación típica). Cuando aplicamos la función a en cierta forma es como poner una lupa sobre la función en el punto . Esto se debe a que, al ser suave, cerca de se comporta como una línea recta cuya pendiente es . Por tanto:
- Si tiene pendiente pronunciada () se amplifica la incertidumbre
- Si tiene pendiente suave () se reduce la incertidumbre
Gracias a esto, podemos obtener la distribución asintótica de a partir de estimadores obtenidos por el método de los momentos.
✏️Ejemplo
Consideremos un ejemplo intuitivo en el que queremos medir la temperatura y tenemos un termómetro con cierto fallo. Supongamos que la temperatura real es y tenemos un estimador que nos da la medición promedio de muestras de temperatura y que se comporta aproximadamente como una distribución normal alrededor de con desviación estándar .
Ahora, supongamos que queremos convertir esta temperatura a Fahrenheit, para ello, hay que emplear la función de conversión:
Aplicando el método delta, podemos determinar cómo afecta esta conversión a la incertidumbre de nuestra medición. La derivada de es:
Por lo que, aplicando el método delta, tenemos que la distribución asintótica de es:
Esto significa que al convertir la temperatura a Fahrenheit, la incertidumbre en nuestra medición se amplifica por un factor de . Por lo tanto, si originalmente teníamos una desviación estándar de en Celsius, ahora tendremos una desviación estándar de en Fahrenheit. Esto ilustra cómo el método delta nos permite entender el impacto de las transformaciones en la incertidumbre de nuestras estimaciones.
Gráficamente, podríamos representar la situación de la siguiente manera (ajustando las escalas, ya que debería estar mucho más arriba):
✏️Ejemplo
Sea una variable aleatoria con desconocido. Obtener el estimador puntual de mediante el método delta, aplicando previamente el método de los momentos.
Sabemos que el momento poblacional de una distribución exponencial es:
Por lo que, podemos obtener el momento muestral como:
De donde obtenemos la ecuación:
Ahora, sean variables aleatorias independientes e idénticamente distribuidas, sabemos que:
Por lo que:
Por otra parte, si aplicamos el Teorema del Límite Central sobre , tenemos que:
ya que:
Por tanto, definimos el estimador puntual de como:
Ahora, para elegir la función adecuada, podemos notar que:
Aplicando el método delta, tenemos que la distribución asintótica de es:
Método de máxima verosimilitud
El método de máxima verosimilitud es una técnica estadística utilizada para estimar los parámetros desconocidos de un modelo probabilístico. La idea principal es encontrar los valores de los parámetros que maximizan la función de verosimilitud, que mide la probabilidad de observar los datos dados los parámetros del modelo.
✏️Idea principal
Sean dos monedas y cuyas probabilidades de obtener cara son y , respectivamente. Se lanza una de las dos monedas 5 veces y no se obtiene ninguna cara. ¿Cuál es la moneda que se ha lanzado?
Por intuición, la moneda más probable es la , ya que tiene una probabilidad menor de obtener cara. Basta ver que:
Haciendo una generalización, podemos notar que, si se realizan tiradas de una moneda con probabilidad de cara desconocida y se obtienen caras, la probabilidad de obtener ese resultado es:
Por lo que, nos interesa poder encontrar el valor de que maximiza esta probabilidad, es decir, el valor de que hace que el resultado observado sea más probable.
Función de verosimilitud. Definición
Sea una muestra aleatoria de tamaño de una población cuya distribución pertenece a una familia paramétrica , se denomina función de verosimilitud asociada a la realización muestral a la probabilidad o densidad conjunta de la muestra vista como función del parámetro :
💡Nota
Notar que la función de verosimilitud es dependiente de la muestra observada ya que, para cada valor de la muestra, la función de verosimilitud toma una forma diferente. Por otro lado, la función de verosimilitud es una función del parámetro y no de las variables aleatorias .
Estimador de máxima verosimilitud. Definición
Sea muestra aleatoria simple de una población cuya distribución pertenece a una familia paramétrica con función de verosimilitud . Se denomina estimador de máxima verosimilitud al estimador que maximiza la función de verosimilitud, es decir:
💡Nota
La búsqueda del máximo o supremo de la función de verosimilitud a veces puede ser complicado, por lo que se suele hacer uso de métodos numéricos o de optimización para encontrar una aproximación del valor del parámetro que maximiza la función de verosimilitud.
No obstante, una técnica comúnmente utilizada para simplificar el proceso de maximización es trabajar con el logaritmo de la función de verosimilitud, conocido como log-verosimilitud. Dado que el logaritmo es una función monótonamente creciente, maximizar la función de verosimilitud es equivalente a maximizar su logaritmo. Esto se debe a que el logaritmo transforma productos en sumas, lo que facilita el cálculo de derivadas y la identificación de puntos críticos.
Obtención del estimador de máxima verosimilitud
💡Nota
Aunque se trate el procedimiento para casos unidimensionales, es decir, , es posible extenderlo mediante un razonamiento análogo a casos multidimensionales, es decir, .
Sea una función derivable respecto de en , la forma usual de obtener el estimador de máxima verosimilitud es examinar los máximos relativos en y posteriormente compararlos con los valores obtenidos en la frontera de (si existe). Para ello:
💡Nota
La ecuación de verosimilitud puede tener varias soluciones, donde alguna de ellas puede ser el máximo global (EMV) o que este máximo absoluto se encuentre en la frontera de y no sea abierto, con lo que no existiría el EMV
✏️Ejemplo
Sea una variable aleatoria , hallar el estimador de máxima verosimilitud de .
Como , tenemos que:
Por lo que, la log-verosimilitud es (quitamos la indicadora por simplicidad):
Entonces, derivando respecto de :
Igualando a cero, tenemos que:
Por lo que, el estimador de máxima verosimilitud es:
✏️Ejemplo
Sea una variable aleatoria , hallar el estimador de máxima verosimilitud de .
Como , tenemos que:
Podemos notar que la función no es derivable en , pero podemos observar que la función es decreciente en y nula en . Por lo que el máximo se alcanza en:
✏️Ejemplo
Sea una variable aleatoria , hallar el estimador de máxima verosimilitud de .
Como , tenemos que:
Podemos notar que la función no es derivable en ni en , pero podemos observar que la función es constante en el intervalo y nula fuera de este. Por lo que cualquier valor de en dicho intervalo es un estimador de máxima verosimilitud, por ejemplo:
✏️Ejemplo
Sea una variable aleatoria definida como , consideramos la variable aleatoria dada por:
Hallar el estimador de máxima verosimilitud de a partir de una muestra aleatoria de .
Primero, obtenemos la función de probabilidad de :
Por lo que, la función de verosimilitud es:
donde para , es decir, el número de veces que aparece el valor en la muestra.
En este caso, no se va a poder encontrar una solución explícita para la ecuación de verosimilitud, por lo que se deberá recurrir a métodos numéricos para encontrar el valor de que maximiza la función de verosimilitud. A continuación, se muestra un código en R que realiza esta tarea:
L <- function(n1, n2, n3, lambda) {
(exp(-lambda) * (1 + lambda))^n1 *
((lambda^2 / 2) * exp(-lambda))^n2 *
(1 - exp(-lambda) * (1 + lambda + (lambda^2 / 2)))^n3
}
# Maximización de la función de verosimilitud
optimize(function(lambda) L(3, 3, 4, lambda), c(0, 10), maximum = TRUE)
# > $maximum
# > [1] 2.342104
# Maximización del logaritmo de la función de verosimilitud
optimize(function(lambda) log(L(3, 3, 4, lambda)), c(0, 10), maximum = TRUE)
# > $maximum
# > [1] 2.342104
Propiedades del estimador de máxima verosimilitud
Invarianza del estimador de máxima verosimilitud
Sea un estadístico suficiente para y existe un estimador de máxima verosimilitud de dado por entonces:
📐Demostración
Por el Teorema de Factorización, dado suficiente entonces:
Por lo tanto, maximizar respecto de es equivalente a maximizar respecto de , es decir:
Por tanto, el valor donde se alcanza el máximo de la función de verosimilitud depende únicamente de , en otras palabras, es función de .
💡Nota
Si se sabe que el estimador de máxima verosimilitud es único, entonces es función del estadístico suficiente . No obstante, en otro caso, puede no ser cierta dicha propiedad.
💡Nota
Que el estimador de máxima verosimilitud sea función de un estadístico suficiente implica que el estimador de máxima verosimilitud también es suficiente. Basta ver que en el estadístico suficiente minimal es . Sin embargo, el estimador de máxima verosimilitud es:
que no es suficiente
💡Nota
Sea estimador máximo verosímil de entonces es el estimador máximo verosímil de para función definida en el espacio paramétrico.
Comporamiento asintótico del estimador de máxima verosimilitud
Cuando las muestras son pequeñas, los estimadores suelen dar resultados poco fiables. Sin embargo, cabe esperar que, a medida que el tamaño de la muestra aumenta, los estimadores se acercarán al valor real del parámetro, aumentando así su precisión. Este comportamiento se conoce como comportamiento asintótico. Para estudiar esto, es necesario exigir una serie de condiciones de regularidad:
- A0) para (identificabilidad)
- A1) El soporte de es independiente de
- A2) La muestra es aleatoria simple
- A3) El espacio paramétrico es un intervalo abierto de
- A4) La función de densidad/probabilidad es dos veces derivable respecto de
- A5) Las integrales son finitas para
Teorema
Bajo las hipótesis anteriores, la función de verosimilitud tiene una raíz fuertemente consistente, es decir, existe una sucesión de soluciones de la ecuación de verosimilitud tal que:
donde es el valor real del parámetro.
Teorema
Bajo las las condiciones de regularidad de Frechet-Cramer-Rao y suponiendo que:
entonces existe una sucesión de raíces de la ecuación de versoimilitud que es asintóticamente normal y consistente, es decir, que dado valor real del parámetro:
💡Nota
Antes de proceder con la demostración, veamos que la varianza y la esperanza de la función informante, definda como:
Entonces, su esperanza es:
Por otra parte, su varianza es:
Por lo tanto, desarrollando el primer término:
Podemos notar que:
Y por la regla del cociente:
Tomando esperanzas en ambos lados:
Y por regularidad:
Finalmente, combinando y la expresión anterior, obtenemos:
Por lo tanto, la varianza de la función informante es finita ya que, por las condiciones de regularidad, la esperanza del valor absoluto de la tercera derivada es finita.
📐Demostración
Sea una raíz de la ecuación de verosimilitud, es decir:
Haciendo desarrollo de Taylor de alrededor de y evaluando en , tenemos:
donde se tiene que .
Por tanto, operando sobre la expresión anterior:
Analizando el numerador , podemos aplicar el Teorema del Límite Central a las variables aleatorias independientes e idénticamente distribuidas:
Por lo que:
Analizando el denominador , por la Ley Fuerte de los Grandes Números:
Para el otro término del denominador, sabemos que existe una sucesión de soluciones de la ecuación de verosimilitud consistente, es decir, tales que:
Además, por la hipótesis de regularidad, tenemos que:
Por lo tanto, tenemos que:
Para suficientemente grande, se sabe que con probabilidad 1:
Con lo cal, para suficientemente grande, tenemos que:
Por lo que el denominador verifica que es igual a:
Como entonces se tiene que:
Finalmente, por el Teorema de Slutsky, tenemos que:
Corolario
En las condiciones del teorema anterior, si la ecuación de verosimilitud tiene una única raíz , esa raíz es el estimador de máxima verosimilitud y es consistente, asintóticamente normal y eficiente.
✏️Ejemplo
Las condiciones del teorema anterior son suficientes pero no necesarias.
Basta considerar la distribución exponencial y el estimador de máxima verosimilitud . En este caso, tenemos que, si consideramos el espacio paramétrico fuera del intervalo :
A partir de aquí, podemos deducir que:
No obstante, si consideramos el espacio paramétrico , la acotación de la tercera derivada no se cumple pero el resultado sigue siendo cierto. Aplicando el Teorema del Límite Central a la media muestral:
Como por el método delta sobre la función se obtiene:
Estimación por intervalo
Por los métodos previos, hemos visto como obtener estimadores puntuales de los parámetros de una distribución. No obstante, desconocemos el error cometido al emplearlos. La idea de la estimación por intervalo es proporcionar un conjunto de valores posibles para el parámetro, de tal forma que se tenga una cierta confianza de que el valor real del parámetro se encuentra dentro de dicho intervalo. Estos intervalos se denominan intervalos de confianza.
Intervalos de confianza. Definición
Sea variable aleatoria con distribución donde y consideramos una muestra aleatoria simple , si existen dos estadísticos y tales que con probabilidad se cumple que:
Entonces es un intervalo de confianza para con nivel de confianza .
💡Nota
Se desea construir un intervalo de confianza para con nivel de confianza a partir de una muestra aleatoria simple.
Lo que queremos es encontrar dos estadísticos y tales que:
Esto significa que de cada 100 muestras elejidas (de tamaño ), aproximadamente 95 de los intervalos construidos contendrán el valor real del parámetro .
Esto induce una partición del espacio muestral en dos regiones:
- Región de aceptación:
- Región de rechazo:
No obstante, al desconocer el valor real de , no podemos saber si el intervalo asociado a una muestra concreta contiene o no a . Por ello, no podemos asegurar que dada una muetra concreta :
Lo que sí podemos asegurar es que el procedimiento seguido para construir el intervalo de confianza garantiza que la proporción de intervalos que contienen a es, al menos, .
Método de la función pivotal
Fucnión pivote. Definición
Sea variable aleatoria con distribución donde y consideramos una muestra aleatoria simple de tamaño , una función se dice función pivote si:
- Depende de la muestra () y del parámetro
- La distribución de está totalmente determinada, es decir, no depende de parámetros desconocidos
💡Nota
Normalmente, las funciones pivote suelen ser estadísticos suficientes y funciones mónotonas respecto de .
✏️Ejemplo
Sea la variable aleatoria , hallar una función pivote para a partir de una muestra aleatoria simple de tamaño .
Sabemos que la media muestral es un estadístico suficiente para y que:
Por lo tanto:
Por lo que, si consideramos la función:
Entonces, la distribución de es:
que no depende de . Por lo tanto, es una función pivote para .
Construcción de intervalos de confianza mediante funciones pivote
Para la construcción de un intervalo de confianza mediante una función pivote, se siguen los siguientes pasos:
- Elección de dos probabilidades tales que (en general )
- Determinación de constantes tales que:
Es decir:
- Expresar la desigualdad cdomo un intervalo alrededor de .
💡Nota
Visualmente, el procedimiento anterior se puede resumir en la siguiente figura:
✏️Ejemplo
Sea variable aleatoria, se tiene una muestra aleatoria simple de tamaño y se desea construir un intervalo de confianza para con nivel de confianza , empleando como función pivote la siguiente expresión:
Tomando , se buscan las constantes y tales que:
Consultando la tabla de la distribución normal estándar, se obtiene que:
Por lo tanto:
Despejando :
Por lo que un intervalo de confianza para con nivel de confianza es:
💡Nota
A partir del ejemplo anterior, se puede obtener fácilmente variaciones para obtener la función pivote en otros casos de variables aleatorias normales:
- Para encontrar el valor de :
- Para encontrar el valor de :
Proposición
Sea variable aleatoria con distribución donde absolutamente continua y consideramos una muestra aleatoria simple de tamaño . Entonces, se puede emplear la función pivote:
para construir un intervalo de confianza para con nivel de confianza .
📐Demostración
Veamos que .
Tenemos que:
Si consideramos la transformación , entonces:
Por lo tanto, la función de densidad de es:
Que corresponde a una distribución .
Por lo tanto, como la suma de variables aleatorias independientes con distribución es una variable aleatoria con distribución , se tiene que:
💡Nota
Los intervalos de confianza construidos mediante funciones pivote pueden ser diferentes según la elección de las probabilidades y . A continuación se muestran dos elecciones distintas de y para construir un intervalo de confianza sobre una normal. Aunque ambos cumplen el nivel de confianza , los intervalos obtenidos son diferentes.
Por tanto, un criterio habitual deseable es emplear aquel intervalo de confianza que tenga la menor amplitud posible.
Intervalos de confianza asintóticos
Es posible construir intervalos de confianza cuyas funciones pivote tienen distribución desconocida pero para tamaño muestral grande tienden a una distribución conocida. Para musetras grandes y bajo ciertas condiciones de regularidad, los estimadores de máxima verosimilitud son asintóticamente normales. Para estos casos, se necesitan estimadores que converjan uniformemente (CUAN), para facilitar la construcción de los intervalos de confianza asintóticos.
Bajo condiciones de regularidad bastante generales, se puede llegar a que los estimadores máximo verosímiles verifican que:
Por lo que, podemos construir la función pivote como:
También es posible construir dichos intervalos a través del teorema del límite central y el método delta.
✏️Ejemplo
Sea variable aleatoria con y sea muestra aleatoria simple de tamaño suficientemente grande. Construir un intervalo de confianza.
Aplicando el Teorema del Límite Central a la media muestral:
Por lo tanto, tenemos que:
Despejando :
Por lo que un intervalo de confianza asintótico para con nivel de confianza :