Inferencia - Tema 1
Estadígrafos de orden
En inferencia estadística, uno de los objetivos comunes es estimar el valor de cierto parámetro que caracteriza una cierta característica de interés, , de una población.
Esta variable seguirá una distribución de probabilidad dependiente de . Además, este parámetro pertenece a un conjunto llamado espacio paramétrico.
Habitualmente, para obtener el valor del parámetros se obtiene una muestra aleatoria de tamaño de la población que ``resuma'' la información sobre utilizando transformaciones medibles que llamamos estadígrafos.
Estadígrafo. Definición
Llamamos estadígrafo a cualquier función medible de la muestra aleatoria de la forma:
donde .
💡Observación
El objetivo de los estadígrafos es simplificar la estructura de la muestra de a (habitualmente o ), facilitando así el análisis de los datos.
Estimador. Definición
Llamamos estimador a un estadígrafo que toma valores en el espacio paramétrico , i.e.:
Muestra ordenada. Definición
Sea muestra aleatoria simple de tamaño , se pueden ordenar sus componentes de forma no decreciente obteniendo . Así, llamamos muestra ordenada a la aplicación:
💡Nota
La importancia de las muestras ordenadas radica en que permitirán definir estadígrafos de orden, que son especialmente útiles para estimar parámetros que tengan que ver con el máximo, el mínimo, etc.
✏️Ejemplo
Esto es tan intuitivo como puede parecer. Si tenemos una muestra de datos:
Entonces, la muestra ordenada será:
Y la notación simplemente sirve para diferenciar entre el valor original y su posición en la muestra ordenada. Por lo tanto, la aplicación en este caso vendría dada por:
💡Nota
Notar que esta aplicación no es inyectiva, ya que podemos tener varios vectores iniciales distintos que den lugar a la misma muestra ordenada, por ejemplo:
Ambos vectores dan lugar a la misma muestra ordenada .
En particular, estaríamos hablando de vectores distintos que dan lugar a la misma muestra ordenada ya que son permutaciones distintas con elementos.
Estadígrafos de orden. Definición
Llamamos estadígrafo de orden a la aplicación:
que nos da la -ésima componente de la muestra ordenada.
✏️Ejemplo
Intuitivamente, podemos pensar en los dos estadígrafos de orden más simples:
- Mínimo:
- Máximo:
De hecho, podemos notar que los estadígrafos siguen la siguiente cadena de desigualdades:
💡Observación
Pese a que la observación muestral pueda ser independiente e idénticamente distribuida, las componentes del estadígrafo de orden no son independientes entre sí, ya que están relacionadas por la condición de ordenación, y tampoco son idénticamente distribuidas.
Propiedades de los estadígrafos de orden. Proposición
Sea variable aleatoria con función de distribución de la que obtenemos una muestra aleatoria simple de tamaño entonces se verifica que:
📐Demostración
- Basta notar que si y sólo si para todo . Por tanto:
- De forma análoga, si y sólo si existe algún tal que así:
- Este caso ya no es tan directo, para ello:
Aquí, podemos notar que es precisamente la probabilidad de que al menos valores muestrales sean menores o iguales a . Así, podemos entender esto como una variable aleatoria binomial que nos da el número de éxitos (valores menores o iguales a ) en ensayos independientes.
Por tanto:
✏️Ejemplo
A partir de estas propiedades y las definiciones previas, podemos ver el comportamiento de los estadígrafos de orden más simples. Supongamos una variable aleatoria con distribución uniforme . Entonces:
De hecho, si considerásemos tendríamos:
Otro estadígrafo de orden interesante es el rango o recorrido muestral que viene dado por:
Función de densidad del estadígrafo de orden . Proposición
Sea una variable aleatoria continua con función de densidad y función de distribución de la que obtenemos una muestra aleatoria simple de tamaño . Entonces, la función de densidad del estadígrafo de orden , viene dada por:
📐Demostración
Para obtener la función de densidad, procederemos por derivación de la función de distribución. Para una muestra aleatoria de tamaño de una variable aleatoria continua con función de distribución y función de densidad , la función de distribución del estadígrafo de orden , por la proposición anterior, viene dada por:
Por lo tanto, derivando respecto a obtenemos:
Tenemos que la derivada del término general de la suma es:
Por tanto:
Ahora, podemos emplear las entidades binomiales siguientes:
Por lo que, reescribiendo la suma anterior llegamos a:
Donde podemos sacar factor común a :
Y ahora, notando que la suma anterior es una suma telescópica, ya que:
- Si entonces:
- Si entonces:
- \dots
- Si entonces:
Por lo que, al sumar todos los términos, obtenemos:
Los casos particulares de y se obtienen sustituyendo y :
💡Nota
Notar que esto solo se da en caso de emplear notación ``estándar'', en el caso de la española, tendríamos que:
Densidad conjunta de la muestra ordenada. Teorema
Sea variable aleatoria continua con función de densidad , se extrae una muestra aleatoria simple de tamaño , entonces la función de densidad conjunta de la muestra ordenada es:
💡Nota
A lo largo de los apuntes, se pueden emplear diferentes notaciones para el caso de las funciones indicadores/indicatrices:
Al final, lo que tenemos es que la expresión anterior vale si se cumple la condición y en caso contrario:
💡Nota
Hay que notar que, cada muestra ordenada puede ser obtenida a partir de permutaciones distintas de la muestra original , es decir, que tiene posibles resultados.
Podemos ver un ejemplo sencillo con . Supongamos que tenemos y dos variables aleatorias independientes e idénticamente distribuidas y dos realizaciones muestrales y tales que:
Esto gráficamente sería:
Por lo tanto, al ordenar ambas muestras, obtenemos la misma muestra ordenada:
Que gráficamente sería:
📐Demostración
La demostración de este resultado se puede abordar de dos formas distintas:
- Empleando el Teorema de Cambio de Variable
- Mediante el cálculo de la distribución conjunta y derivando
En este caso, se opta por la primera opción, por lo que empleamos el Teorema del Cambio de Variable:
💡Teorema del Cambio de Variable
Sean:
- continua en con numerable y disjuntos.
- diferenciable y con inversa en cada
Entonces se tiene que tiene densidad:
En nuestro caso, tenemos que hacer la partición del espacio en regiones donde cada región corresponde a una permutación distinta del orden de las variables:
En cada la muestra ordenada será una permutación distinta con jacobiano o (dependiendo de si la permutación es par o impar). Por tanto, aplicando el Teorema del Cambio de Variable:
Como el producto es constante y , esta suma se puede simplificar como:
Ahora, veamos que se cumple en , y luego se generaliza:
- Si entonces la función de distribución conjunta es:
Por lo que, derivando:
- Para tenemos:
Por lo que, derivando:
- Para un cualquiera, la función de distribución conjunta de los estadísticos de orden involucra términos, cada uno correspondiente con una permutación de las variables. Al derivar veces con respecto a todas las variables, se obtiene la densidad conjunta que es precisamente:
Ojiva empírica
La función de distribución empírica o ojiva empírica es un estadígrafo funcional que permite aproximar la función de distribución de una variable aleatoria a partir de una muestra muestral.
Ojiva empírica. Definición
Sea una muestra aleatoria simple variable aleatoria con función de distribución . Se define la ojiva empírica de asociada a la muestra aleatoria simple como la función que asocia a cada el valor:
💡Nota
Esta función se puede entender también como:
Por lo que, a cada realización muestral le asocia una función escalonada que es función de distribución. Así, para cada muestra, la ojiva empírica cambia (salvo que la muestra simplemente cambie el orden de los datos).
✏️Ejemplo
Sea la muestra de tamaño dada por de una variable aleatoria . Entonces, la ojiva empírica asociada a esta muestra es:
Los estadísticos de orden de la muestra son:
Así, la ojiva empírica asociada a esta muestra es:
Gráficamente, la ojiva empírica asociada a esta muestra es:
Propiedades de la ojiva empírica. Proposición
Algunas propiedades de la ojiva empírica son:
- Sea fijo, entonces la ojiva empírica puede expresarse como:
- La ojiva empírica es un estimador insesgado de la función de distribución de la variable aleatoria .
📐Demostración
Sea fijo, se definen las variables aleatorias:
que son variables aleatorias de Bernoulli ya que indican si la observación cae por debajo del valor o no. Por lo tanto, . Dado que son variables aleatorias independientes e idénticamente distribuidas, se tiene que:
Por lo tanto, y por reproductividad de la distribución binomial, se tiene que:
Para fijo tenemos que la ojiva empírica viene dada por:
Es decir, que es el promedio muestral de las variables aleatorias de Bernoulli. Por lo que, si calculamos la esperanza de :
💡Nota
Además, si calculamos la varianza de :
que es una parábola que alcanza su valor máximo en , por lo que:
- Cuando o entonces
- Cuando entonces es máxima
De esta forma, la estimación es más precisa en las colas de la distribución que en el centro.
- Por la ley de los grandes números se tiene que:
- Por el Teorema del Límite Central se tiene que:
Teorema de Glivenko-Cantelli
Sea sucesión de variables aleatorias independientes e idénticamente distribuidas con función de distribución común . Sean las primeras componentes de la sucesión y la ojiva empírica asociada a la muestra aleatoria simple . Entonces la aplicación:
cumple que:
💡Nota
Podemos observar que, al definir como la distancia máxima entre la ojiva empírica y la función de distribución, el Teorema de Glivenko-Cantelli nos dice que la distancia entre ambas funciones tiende a casi seguramente cuando el tamaño muestral tiende a infinito. Es decir, que la ojiva empírica es un estimador consistente de la función de distribución.
📐Demostración
Veamos un par de ideas clave que se usarán en la demostración:
Sea fijo, consideramos las variables aleatorias:
que son variables aleatorias de Bernoulli ya que indican si la observación cae por debajo del valor o no.
Por lo tanto, . Dado que son variables aleatorias independientes e idénticamente distribuidas y cumplen que sus medias y varianzas son finitas, por la Ley Fuerte de los Grandes Números se tiene que:
Análogamente, para el caso general, se podría ver que:
donde se tiene que:
Por las propiedades de la probabilidad, la intersección finita o numerable de sucesos tales que para todo también tiene probabilidad :
Para el resto de la demostración, hay que considerar el caso de variables discretas con un número finito de posibles resultados y el caso general. En este caso, solo vamos a ver el caso discreto finito.
Sea variable aleatoria discreta que toma los valores con sus respectivas probabilidades para .
Notar que, de esta forma, tanto la función de distribución como la ojiva empírica asociada a cada muestra son funciones escalonadas, con saltos en los puntos para . Por tanto:
Para cada fijo, definimos:
Por la Ley Fuerte de los Grandes Números se tiene que:
Por lo tanto, considerando la intersección finita de los sucesos :
Finalmente, para cada se tiene por tanto, existe tal que:
Por tanto, si tomamos se tiene que:
Es decir, que cuando para todo y como , se tiene que:
💡Nota
A través de este resultado, podemos ver que en un conjunto de muestras cualquiera de probabilidad 1, la función de distribución está determinada por la ojiva empírica de la forma siguiente:
Es decir, que se puede estimar la función de distribución a partir de la ojiva empírica con un error arbitrariamente pequeño cuando el tamaño muestral es suficientemente grande.
Simulación
La simulación es una técnica que permite generar valores aleatorios de un estadístico cualquiera, a partir de los cuales se puede aproximar la función de distribución del estadístico mediante la ojiva empírica.
Generación de números aleatorios con distribución uniforme
Uno de los pasos básicos en la simulación es la generación de números aleatorios (o pseudo-aleatorios) con una distribución .
💡Nota
Se dicen números pseudo-aleatorios a aquellos números que son generados mediante un algoritmo que, conociendo la semilla inicial, siempre generan la misma secuencia de números.
La mayoría de lenguajes de programación, calculadoras y software estadístico incluyen funciones para generar números pseudo-aleatorios con distribución uniforme en el intervalo , como puede ser runif en R. Estos emplean algoritmos congruenciales tales que:
Lo que genera una secuencia de números enteros que se pueden pasar al intervalo dividiendo entre . La semilla inicial sería y los parámetros y .
Generación de valores aleatorios con distribución arbitraria
Para generar valores aleatorios con una distribución arbitraria se pueden emplear diversos métodos, que a menudo se combinan entre sí.
Método de Montecarlo
Esta técnica se basa en la generación de valores aleatorios de distribuciones a partir de generados aleatorios con distribución . Para ello, sea una variable aleatoria que toma los valores con probabilidades , tales que y , para generar cada valor aleatorio de se sigue el siguiente procedimiento:
- Partición de en subintervalos de longitudes respectivamente.
- Generación de un número aleatorio con distribución .
- Ver en que subintervalo está , así:
💡Nota
También es válido para variables aleatorias discretas no finitas, ya que en ese caso se puede considerar una partición infinita numerable de .
✏️Ejemplo
Se considera la variable aleatoria discreta tal que:
Para generar una muestra aleatoria de tamaño los pasos son:
- Generar la partición del intervalo en 3 subintervalos con longitudes que correspondan con las probabilidades, es decir: , y :
Lo que gráficamente se representa como:
2. Generar 5 números aleatorios con distribución . Supongamos que los números generados son:
- Ver en que subintervalo cae cada número generado:
Lo que gráficamente se representa como:
💡Nota
Este procedimiento se puede aplicar en R con las distribuciones discretas más comunes mediante las funciones rbinom, rpois, rgeom, etc.
Método de transformación
Otra técnica para generar valores aleatorios con una distribución arbitraria continua es el método de transformación. Este método se basa en los generadores de números aleatorios con distribución y la función inversa de la función de distribución .
Por el teorema de la la transformación de la distribución acumulada tenemos que si es continua entonces . Por tanto, se genera un valor de y se aplica la función inversa de la función de distribución para obtener el correspondiente valor de , es decir:
✏️Ejemplo
Se considera la variable aleatoria cuya función de distribución es:
Ahora, para generar valores aleatorios de mediante el método de transformación, se sigue el siguiente procedimiento:
- Generar un número aleatorio con distribución .
- Calcular la función inversa de la función de distribución :
- Aplicar la función inversa al número aleatorio generado:
Gráficamente, este procedimiento se representa como:
Transformación de Box-Muller
Aunque el método de transformación es aplicable a cualquier distribución continua, algunas distribuciones no tienen función inversa explícita, como es el caso de la normal. Para estos casos, se pueden emplea la transformación de Box-Muller.
Sean variables aleatorias independientes entonces:
son variables aleatorias independientes con distribución .
💡Nota
En R existen funciones para la generación de valores de las distribuciones continuas más comunes, como son rnorm, rexp, runif, etc.
Método de aceptación rechazo
Otro método para generar valores aleatorios de una distribución continua que no necesita la función inversa es el método de aceptación-rechazo. Para este caso, se require de la función de densidad de la variable aleatoria y una acotación superior dada por donde es otra función de densidad asociada a una variable aleatoria de la que se puede calcular fácilmente la inversa de su función de distribución . Es decir, que se necesita:
El procedimiento para generar un valor aleatorio de es el siguiente:
- Generación de un valor de a través de su función inversa empleando el método de transformación:
- Calculo de y .
- Generación de otro número aleatorio a través de
- Si se acepta como valor generado de , en caso contrario se rechaza y se vuelve al paso 1.
Gráficamente, este procedimiento se representa como:
Validez del método de aceptación-rechazo. Proposición
Sea variable aleatoria con función de densidad , el método de aceptación-rechazo genera valores de una variable con función de densidad .
📐Demostración
Calculemos la función de distribución de la variable aleatoria generada:
Así, tenemos que:
Entonces, como la probabilidad de no rechazo es:
Entonces:
es decir, la función de densidad de la variable aleatoria generada es .
✏️Ejemplo
Sea variable aleatoria normal estándar, es decir, con función de densidad:
Se sabe sabe que la función de distribución no tiene una expresión implícita y, por tanto, tampoco su inversa. Sin embargo, sabemos que la función de densidad alcanza su máximo en , donde vale:
Además, si entonces:
Por lo que, podemos acotar mediante la función definida como:
Que cumple:
- para todo
- La integral de es finita:
Por lo tanto, definimos la función de densidad como:
- La función inversa de la función de distribución asociada a es:
Por tanto, se puede generar valores aleatorios de la distribución normal estándar mediante el método de aceptación-rechazo con y definidos anteriormente.