Inferencia - Tema 1

inferencia estadística
Estadígrafos de orden
Muestras ordenadas
2026-01-12
76 min de lectura

Estadígrafos de orden

En inferencia estadística, uno de los objetivos comunes es estimar el valor de cierto parámetro θ\theta que caracteriza una cierta característica de interés, XX, de una población.

Esta variable XX seguirá una distribución de probabilidad FθF_\theta dependiente de θ\theta. Además, este parámetro θ\theta pertenece a un conjunto ΘRk\Theta \subseteq \mathbb{R}^k llamado espacio paramétrico.

Habitualmente, para obtener el valor del parámetros se obtiene una muestra aleatoria (X1,,Xn)(X_1, \dots, X_n) de tamaño nn de la población que ``resuma'' la información sobre XX utilizando transformaciones medibles que llamamos estadígrafos.

Estadígrafo. Definición

Llamamos estadígrafo a cualquier función medible de la muestra aleatoria (X1,,Xn)(X_1, \dots, X_n) de la forma:

T:(X1,,Xn)T(X1,,Xn)Rp\begin{align*} T : (X_1, \dots, X_n) \longrightarrow T(X_1, \dots, X_n) \in \mathbb{R}^p \end{align*}

donde pnp \leq n.

💡Observación

El objetivo de los estadígrafos es simplificar la estructura de la muestra de Rn\mathbb{R}^n a Rp\mathbb{R}^p (habitualmente p=1p = 1 o p=2p = 2), facilitando así el análisis de los datos.

Estimador. Definición

Llamamos estimador a un estadígrafo que toma valores en el espacio paramétrico Θ\Theta, i.e.:

T:(X1,,Xn)T(X1,,Xn)ΘRk\begin{align*} T : (X_1, \dots, X_n) \longrightarrow T(X_1, \dots, X_n) \in \Theta \subseteq \mathbb{R}^k \end{align*}

Muestra ordenada. Definición

Sea (X1,,Xn)(X_1, \dots, X_n) muestra aleatoria simple de tamaño nn, se pueden ordenar sus componentes de forma no decreciente obteniendo X(1)X(2)X(n)X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}. Así, llamamos muestra ordenada a la aplicación:

X():RnRn(x1,,xn)(x(1),,x(n))\begin{array}{rccl} X_{(\cdot)} : & \mathbb{R}^n & \longrightarrow & \mathbb{R}^n \\ & (x_1, \dots, x_n) & \longmapsto & (x_{(1)}, \dots, x_{(n)}) \end{array}

💡Nota

La importancia de las muestras ordenadas radica en que permitirán definir estadígrafos de orden, que son especialmente útiles para estimar parámetros que tengan que ver con el máximo, el mínimo, etc.

✏️Ejemplo

Esto es tan intuitivo como puede parecer. Si tenemos una muestra de datos:

(x1,x2,x3,x4)=(10,3,5,2)\begin{align*} (x_1, x_2, x_3, x_4) = (10, 3, 5, 2) \end{align*}

Entonces, la muestra ordenada será:

(x(1),x(2),x(3),x(4))=(2,3,5,10)\begin{align*} (x_{(1)}, x_{(2)}, x_{(3)}, x_{(4)}) = (2, 3, 5, 10) \end{align*}

Y la notación x(i)x_{(i)} simplemente sirve para diferenciar entre el valor original xix_i y su posición en la muestra ordenada. Por lo tanto, la aplicación X()X_{(\cdot)} en este caso vendría dada por:

X(1)=2,X(2)=3,X(3)=5,X(4)=10\begin{align*} X_{(1)} = 2, \quad X_{(2)} = 3, \quad X_{(3)} = 5, \quad X_{(4)} = 10 \end{align*}

💡Nota

Notar que esta aplicación no es inyectiva, ya que podemos tener varios vectores iniciales distintos que den lugar a la misma muestra ordenada, por ejemplo:

(10,3,5,2)y(3,2,10,5)\begin{align*} (10, 3, 5, 2) \quad \text{y} \quad (3, 2, 10, 5) \end{align*}

Ambos vectores dan lugar a la misma muestra ordenada (2,3,5,10)(2, 3, 5, 10).

En particular, estaríamos hablando de n!n! vectores distintos que dan lugar a la misma muestra ordenada ya que son permutaciones distintas con nn elementos.

Estadígrafos de orden. Definición

Llamamos estadígrafo de orden kk a la aplicación:

X(k):RnR(x1,,xn)x(k)\begin{array}{rccl} X_{(k)} : & \mathbb{R}^n & \longrightarrow & \mathbb{R} \\ & (x_1, \dots, x_n) & \longmapsto & x_{(k)} \end{array}

que nos da la kk-ésima componente de la muestra ordenada.

✏️Ejemplo

Intuitivamente, podemos pensar en los dos estadígrafos de orden más simples:

  • Mínimo: X(1)=min{X1,,Xn}X_{(1)} = \min \{X_1, \dots, X_n\}
  • Máximo: X(n)=max{X1,,Xn}X_{(n)} = \max \{X_1, \dots, X_n\}

De hecho, podemos notar que los estadígrafos siguen la siguiente cadena de desigualdades:

mini=1nXi=X(1)X(2)X(n1)X(n)=maxi=1nXi\begin{align*} \min_{i = 1}^n X_i = X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n-1)} \leq X_{(n)} = \max_{i = 1}^n X_i \end{align*}

💡Observación

Pese a que la observación muestral (X1,,Xn)(X_1, \dots, X_n) pueda ser independiente e idénticamente distribuida, las componentes del estadígrafo de orden (X(1),,X(n))(X_{(1)}, \dots, X_{(n)}) no son independientes entre sí, ya que están relacionadas por la condición de ordenación, y tampoco son idénticamente distribuidas.

Propiedades de los estadígrafos de orden. Proposición

Sea XX variable aleatoria con función de distribución FF de la que obtenemos una muestra aleatoria simple (X1,,Xn)(X_1, \dots, X_n) de tamaño nn entonces se verifica que:

  1. FX(n)(x)=[F(x)]nF_{X_{(n)}}(x) = [F (x)]^n
  2. FX(1)(x)=1[1F(x)]nF_{X_{(1)}}(x) = 1 - [1 - F(x)]^n
  3. FX(k)(x)=j=kn(nj)[F(x)]j[1F(x)]njF_{X_{(k)}}(x) = \displaystyle \sum_{j = k}^{n} \binom{n}{j} [F(x)]^j[1 - F(x)]^{n - j}

📐Demostración

  1. Basta notar que X(n)xX_{(n)} \leq x si y sólo si XixX_i \leq x para todo i=1,,ni = 1, \dots, n. Por tanto:
FX(n)(x)=P(X(n)x)=P(X1x,,Xnx)==P((X1x)(Xnx))=i=1nP(Xix)=[F(x)]n\begin{align*} F_{X_{(n)}}(x) & = P(X_{(n)} \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = \\[2ex] & = P\left((X_1 \leq x) \cap \dots \cap (X_n \leq x)\right) = \prod_{i = 1}^n P(X_i \leq x) = [F(x)]^n \end{align*}
  1. De forma análoga, X(1)xX_{(1)} \leq x si y sólo si existe algún ii tal que XixX_i \leq x así:
FX(1)(x)=P(X(1)x)=1P(X(1)>x)=1P(X1>x,,Xn>x)==1P((X1>x)(Xn>x))=1i=1nP(Xi>x)==1i=1n[1P(Xix)]=1[1F(x)]n\begin{align*} F_{X_{(1)}}(x) & = P(X_{(1)} \leq x) = 1 - P(X_{(1)} > x) = 1 - P(X_1 > x, \dots, X_n > x) = \\[2ex] & = 1 - P\left((X_1 > x) \cap \dots \cap (X_n > x)\right) = 1 - \prod_{i = 1}^n P(X_i > x) = \\[2ex] & = 1 - \prod_{i = 1}^n [1 - P(X_i \leq x)] = 1 - [1 - F(x)]^n \end{align*}
  1. Este caso ya no es tan directo, para ello:
FX(k)(x)=P(X(k)x)\begin{align*} F_{X_{(k)}}(x) = P(X_{(k)} \leq x) \end{align*}

Aquí, podemos notar que P(X(k)x)P(X_{(k)} \leq x) es precisamente la probabilidad de que al menos kk valores muestrales sean menores o iguales a xx. Así, podemos entender esto como una variable aleatoria binomial B(n,F(x))\mathcal{B}(n, F(x)) que nos da el número de éxitos (valores menores o iguales a xx) en nn ensayos independientes.

Por tanto:

FX(k)(x)=P(X(k)x)=P(al menos k valores Xix)==j=knP((nº de observaciones muestrales x)=j)==j=kn(nj)[F(x)]j[1F(x)]nj\begin{align*} F_{X_{(k)}}(x) & = P(X_{(k)} \leq x) = P(\text{al menos } k \text{ valores } X_i \leq x) = \\[2ex] & = \sum_{j = k}^{n} P((\text{nº de observaciones muestrales } \leq x) = j) = \\[2ex] & = \sum_{j = k}^{n} \binom{n}{j} [F(x)]^j [1 - F(x)]^{n - j} \end{align*}

✏️Ejemplo

A partir de estas propiedades y las definiciones previas, podemos ver el comportamiento de los estadígrafos de orden más simples. Supongamos una variable aleatoria XX con distribución uniforme U(0,1)\mathcal{U}(0, 1). Entonces:

FX(n)(x)={0x<0xn0x11x>1    X(n)Beta(n,1)\begin{align*} F_{X_{(n)}}(x) & = \begin{cases} 0 & x < 0 \\ x^n & 0 \leq x \leq 1 \\ 1 & x > 1 \end{cases} \implies X_{(n)} \rightsquigarrow \text{Beta}(n, 1) \\[2ex] \end{align*}

De hecho, si considerásemos YU(0,θ)Y \rightsquigarrow \mathcal{U}(0, \theta) tendríamos:

F(Y(n))(y)={0y<0(yθ)n0yθ1y>θ    Y(n)Beta(n,1)θ\begin{align*} F_{(Y_{(n)})}(y) & = \begin{cases} 0 & y < 0 \\ \left(\frac{y}{\theta}\right)^n & 0 \leq y \leq \theta \\ 1 & y > \theta \end{cases} \implies Y_{(n)} \rightsquigarrow \text{Beta}(n, 1) \cdot \theta \end{align*}

Otro estadígrafo de orden interesante es el rango o recorrido muestral que viene dado por:

R=X(n)X(1)\begin{align*} R = X_{(n)} - X_{(1)} \end{align*}

Función de densidad del estadígrafo de orden kk. Proposición

Sea XX una variable aleatoria continua con función de densidad ff y función de distribución FF de la que obtenemos una muestra aleatoria simple (X1,,Xn)(X_1, \dots, X_n) de tamaño nn. Entonces, la función de densidad del estadígrafo de orden kk, X(k)X_{(k)} viene dada por:

fX(k)(x)=n![F(x)]k1(k1)!f(x)[1F(x)]nk(nk)!\begin{align*} f_{X_{(k)}}(x) = n! \frac{[F(x)]^{k - 1}}{(k - 1)!} f(x) \frac{[1 - F(x)]^{n - k}}{(n - k)!} \end{align*}

📐Demostración

Para obtener la función de densidad, procederemos por derivación de la función de distribución. Para una muestra aleatoria (X1,,Xn)(X_1, \dots, X_n) de tamaño nn de una variable aleatoria continua XX con función de distribución FF y función de densidad ff, la función de distribución del estadígrafo de orden kk, por la proposición anterior, viene dada por:

FX(k)(x)=P(X(k)x)=j=kn(nj)[F(x)]j[1F(x)]nj\begin{align*} F_{X_{(k)}}(x) = P(X_{(k)} \leq x) = \displaystyle \sum_{j = k}^{n} \binom{n}{j} [F(x)]^j[1 - F(x)]^{n - j} \end{align*}

Por lo tanto, derivando respecto a xx obtenemos:

fX(k)(x)=ddxFX(k)(x)=ddx(j=kn(nj)[F(x)]j[1F(x)]nj)\begin{align*} f_{X_{(k)}} (x) & = \frac{d}{dx} F_{X_{(k)}}(x) = \frac{d}{dx} \left(\displaystyle \sum_{j = k}^{n} \binom{n}{j} [F(x)]^j [1 - F(x)]^{n - j}\right) \end{align*}

Tenemos que la derivada del término general de la suma es:

ddx((nj)[F(x)]j[1F(x)]nj)=(nj)ddx([F(x)]j[1F(x)]nj)==(nj)(j[F(x)]j1f(x)[1F(x)]nj+[F(x)]j((nj)[F(x)]nj1)f(x))==(nj)f(x)[j[F(x)]j1[1F(x)]nj(nj)[F(x)]j[F(x)]nj1]\begin{align*} & \frac{d}{dx} \left(\binom{n}{j} [F(x)]^j [1 - F(x)]^{n - j}\right) = \binom{n}{j} \frac{d}{dx} \left([F(x)]^j [1 - F(x)]^{n - j}\right) = \\[2ex] & = \binom{n}{j} \left(j [F(x)]^{j - 1} f(x)[1 - F(x)]^{n - j} + [F(x)]^j( - (n - j)[F(x)]^{n - j - 1})f(x)\right) = \\[2ex] & = \binom{n}{j} f(x) \left[j[F(x)]^{j - 1}[1 - F(x)]^{n - j} - (n - j)[F(x)]^j[F(x)]^{n - j - 1}\right] \end{align*}

Por tanto:

fX(k)(x)=f(x)j=kn(nj)[j[F(x)]j1[1F(x)]nj(nj)[F(x)]j[F(x)]nj1]\begin{align*} f_{X_{(k)}}(x) & = f(x) \sum_{j = k}^{n} \binom{n}{j} \left[j[F(x)]^{j - 1}[1 - F(x)]^{n - j} - (n - j)[F(x)]^j[F(x)]^{n - j - 1}\right] \end{align*}

Ahora, podemos emplear las entidades binomiales siguientes:

(nj)j=n(n1j1)y(nj)(nj)=n(n1j)\begin{align*} \binom{n}{j} \cdot j = n \cdot \binom{n - 1}{j - 1} \quad \text{y} \quad \binom{n}{j} \cdot (n - j) = n \cdot \binom{n - 1}{j} \end{align*}

Por lo que, reescribiendo la suma anterior llegamos a:

f(x)j=kn[n(n1j1)[F(x)]j1[1F(x)]njn(n1j)[F(x)]j[F(x)]nj1]\begin{align*} f(x) \displaystyle \sum_{j = k}^{n} \left[n \binom{n - 1}{j - 1} [F(x)]^{j - 1}[1 - F(x)]^{n - j} - n \binom{n - 1}{j}[F(x)]^j[F(x)]^{n - j - 1}\right] \end{align*}

Donde podemos sacar factor común a nn:

fX(k)(x)=nf(x)i=1n[(n1j1)[F(x)]j1[1F(x)]nj(n1j)[F(x)]j[F(x)]nj1]\begin{align*} f_{X_{(k)}}(x) & = n f(x) \displaystyle \sum_{i = 1}^{n} \left[\binom{n - 1}{j - 1} [F(x)]^{j - 1}[1 - F(x)]^{n - j} - \binom{n - 1}{j}[F(x)]^j[F(x)]^{n - j - 1}\right] \end{align*}

Y ahora, notando que la suma anterior es una suma telescópica, ya que:

  • Si j=kj = k entonces:
(n1k1)[F(x)]k1[1F(x)]nk(n1k)[F(x)]k[F(x)]nk1\begin{align*} \binom{n - 1}{k - 1} [F(x)]^{k - 1}[1 - F(x)]^{n - k} - \binom{n - 1}{k}[F(x)]^k[F(x)]^{n - k - 1} \end{align*}
  • Si j=k+1j = k + 1 entonces:
(n1k)[F(x)]k[1F(x)]nk1(n1k+1)[F(x)]k+1[F(x)]nk2\begin{align*} \binom{n - 1}{k} [F(x)]^k[1 - F(x)]^{n - k - 1} - \binom{n - 1}{k + 1}[F(x)]^{k + 1}[F(x)]^{n - k - 2} \end{align*}
  • \dots
  • Si j=nj = n entonces:
(n1n1)=1[F(x)]n1[1F(x)]0=1(n1n)=0[F(x)]n[F(x)]1=[F(x)]n1\begin{align*} \underbrace{\binom{n - 1}{n - 1}}_{ = 1} [F(x)]^{n - 1}\underbrace{[1 - F(x)]^0}_{ = 1} - \cancel{\underbrace{\binom{n - 1}{n}}_{ =\, 0}[F(x)]^n[F(x)]^{-1}} = [F(x)]^{n - 1} \end{align*}

Por lo que, al sumar todos los términos, obtenemos:

fX(k)(x)=nf(x)[(n1k1)[F(x)]k1[1F(x)]nk0]==n(n1k1)[F(x)]k1[1F(x)]nkf(x)==n(n1)!(k1)!(nk)![F(x)]k1[1F(x)]nkf(x)==n![F(x)]k1(k1)!f(x)[1F(x)]nk(nk)!\begin{align*} f_{X_{(k)}}(x) & = n f(x) \left[\binom{n - 1}{k - 1} [F(x)]^{k - 1}[1 - F(x)]^{n - k} - 0 \right] = \\[2ex] & = n \binom{n - 1}{k - 1} [F(x)]^{k - 1}[1 - F(x)]^{n - k} f(x) = \\[2ex] & = n \cdot \frac{(n - 1)!}{(k - 1)!(n - k)!} [F(x)]^{k - 1}[1 - F(x)]^{n - k} f(x) = \\[2ex] & = n! \frac{[F(x)]^{k - 1}}{(k - 1)!} f(x) \frac{[1 - F(x)]^{n - k}}{(n - k)!} \end{align*}

Los casos particulares de X(1)X_{(1)} y X(n)X_{(n)} se obtienen sustituyendo k=1k = 1 y k=nk = n:

fX(1)(x)=n![F(x)]00!f(x)[1F(x)]n1(n1)!=n[1F(x)]n1f(x)fX(n)(x)=n![F(x)]n1(n1)!f(x)[1F(x)]00!=n[F(x)]n1f(x)\begin{align*} f_{X_{(1)}}(x) & = n! \frac{[F(x)]^{0}}{0!} f(x) \frac{[1 - F(x)]^{n - 1}}{(n - 1)!} = n [1 - F(x)]^{n - 1} f(x) \\[2ex] f_{X_{(n)}}(x) & = n! \frac{[F(x)]^{n - 1}}{(n - 1)!} f(x) \frac{[1 - F(x)]^{0}}{0!} = n [F(x)]^{n - 1} f(x) \end{align*}

💡Nota

Notar que esto solo se da en caso de emplear notación ``estándar'', en el caso de la española, tendríamos que:

fX(k)(x)=¡n![F(x)]k1¡(k1)!f(x)[1F(x)]nk¡(nk)!\begin{align*} f_{X_{(k)}}(x) = \text{¡}n! \frac{[F(x)]^{k - 1}}{\text{¡}(k - 1)!} f(x) \frac{[1 - F(x)]^{n - k}}{\text{¡}(n - k)!} \end{align*}

Densidad conjunta de la muestra ordenada. Teorema

Sea XX variable aleatoria continua con función de densidad ff, se extrae una muestra aleatoria simple de tamaño nn, entonces la función de densidad conjunta de la muestra ordenada es:

fX()(x1,,xn)=n!i=1nf(xi)I(x1x2xn)\begin{align*} f_{X_{(\cdot)}}(x_1, \dots, x_n) = n! \displaystyle \prod_{i = 1}^n f(x_i) I (x_1 \leq x_2 \leq \dots \leq x_n) \end{align*}

💡Nota

A lo largo de los apuntes, se pueden emplear diferentes notaciones para el caso de las funciones indicadores/indicatrices:

I(A),IA,χA\begin{align*} I (A), \quad I_A, \quad \chi_A \end{align*}

Al final, lo que tenemos es que la expresión anterior vale 11 si se cumple la condición AA y 00 en caso contrario:

fX()(x1,,xn)={n!i=1nf(xi)x1x2xn0en otro caso\begin{align*} f_{X_{(\cdot)}}(x_1, \dots, x_n) = \begin{cases} n! \displaystyle \prod_{i = 1}^n f(x_i) & x_1 \leq x_2 \leq \dots \leq x_n \\ 0 & \text{en otro caso} \end{cases} \end{align*}

💡Nota

Hay que notar que, cada muestra ordenada (x(1),,x(n))(x_{(1)}, \dots, x_{(n)}) puede ser obtenida a partir de n!n! permutaciones distintas de la muestra original (x1,,xn)(x_1, \dots, x_n), es decir, que tiene n!n! posibles resultados.

Podemos ver un ejemplo sencillo con n=2n = 2. Supongamos que tenemos X1X_1 y X2X_2 dos variables aleatorias independientes e idénticamente distribuidas y dos realizaciones muestrales (x1,x2)(x_1, x_2) y (x1,x2)(x_1', x_2') tales que:

x1<x2 y x2<x1y(x1,x2)=(x2,x1)\begin{align*} x_1 < x_2 \quad \text{ y } \quad x_2' < x_1' \quad y \quad (x_1, x_2) = (x_2', x_1') \end{align*}

Esto gráficamente sería:

TikZ Graph

Por lo tanto, al ordenar ambas muestras, obtenemos la misma muestra ordenada:

(x(1),x(2))=(x1,x2)=(x2,x1)\begin{align*} (x_{(1)}, x_{(2)}) = (x_1, x_2) = (x_2', x_1') \end{align*}

Que gráficamente sería:

TikZ Graph

📐Demostración

La demostración de este resultado se puede abordar de dos formas distintas:

  • Empleando el Teorema de Cambio de Variable
  • Mediante el cálculo de la distribución conjunta y derivando

En este caso, se opta por la primera opción, por lo que empleamos el Teorema del Cambio de Variable:

💡Teorema del Cambio de Variable

Sean:

  • XX continua en S=iIAiS = \bigcup_{i \in I} A_i con II numerable y AiA_i disjuntos.
  • gg diferenciable y con gi1g^{ - 1}_i inversa en cada AiA_i

Entonces se tiene que Y=g(X)Y = g(X) tiene densidad:

fY(y)=iIfX(gi1(y))ddygi1(y)yg(S)\begin{align*} f_Y(y) = \displaystyle \sum_{i \in I} f_X(g_i^{ - 1}(y)) \left| \frac{d}{dy} g_i^{ - 1}(y) \right| \quad y \in g(S) \end{align*}

En nuestro caso, tenemos que hacer la partición del espacio Rn\mathbb{R}^n en n!n! regiones A1,,An!A_1, \dots, A_{n!} donde cada región AiA_i corresponde a una permutación distinta del orden de las variables:

A1={(x1,,xn)Rnx1<x2<xn1<xn}A2={(x1,,xn)Rnx2<x1<x3<<xn1<xn}An!={(x1,,xn)Rnxn<xn1<<x2<x1}\begin{align*} A_1 & = \left\{(x_1, \dots, x_n) \in \mathbb{R}^n \mid x_1 < x_2 \dots < x_{n - 1} < x_n\right\}\\ A_2 & = \left\{(x_1, \dots, x_n) \in \mathbb{R}^n \mid x_2 < x_1 < x_3 < \dots < x_{n - 1} < x_n\right\}\\ & \vdots \\ A_{n!} & = \left\{(x_1, \dots, x_n) \in \mathbb{R}^n \mid x_n < x_{n - 1} < \dots < x_2 < x_1\right\} \end{align*}

En cada AiA_i la muestra ordenada será una permutación distinta con jacobiano 11 o 1-1 (dependiendo de si la permutación es par o impar). Por tanto, aplicando el Teorema del Cambio de Variable:

fX()(x1,,xn)=i=1n!j=1nf(xj)Jgi1(x1,,xn)=1I((x1,,xn)Ai)\begin{align*} f_{X_{(\cdot)}} (x_1, \dots, x_n) & = \displaystyle \sum_{i = 1}^{n!} \prod_{j = 1}^n f(x_j) \underbrace{\left|J_{g_i^{ - 1}}(x_1, \dots, x_n)\right|}_{ = 1} I((x_1, \dots, x_n) \in A_i) \end{align*}

Como el producto j=1nf(xj)\prod_{j = 1}^n f(x_j) es constante y Jgi1=1|J_{g_i^{ - 1}}| = 1, esta suma se puede simplificar como:

i=1n!j=1nf(xj)=n!j=1nf(xj)I((x1,,xn)Ai)\begin{align*} \displaystyle \sum_{i = 1}^{n!} \prod_{j = 1}^n f(x_j) = n! \prod_{j = 1}^n f(x_j) I ((x_1, \dots, x_n) \in A_i) \end{align*}

Ahora, veamos que se cumple en n=2n = 2, n=3n = 3 y luego se generaliza:

  • Si n=2n = 2 entonces la función de distribución conjunta es:
FX(1),X(2)(a,b)=P(X(1)a,X(2)b)==P(X1aX2bX1X2)++P(X2aX1bX2<X1)==ax1bf(x2)f(x1)dx2dx1+ax2bf(x1)f(x2)dx1dx2==a[F(b)F(x1)]f(x1)dx1+a[F(b)F(x2)]f(x2)dx2==[12[F(b)F(x1)]2]a+[12[F(b)F(x2)]2]a==F(b)2[F(b)F(a)]2\begin{align*} F_{X_{(1)}, X_{(2)}} (a, b) & = P(X_{(1)} \leq a, X_{(2)} \leq b) = \\[2ex] & =P(X_1 \leq a \cap X_2 \leq b \cap X_1 \leq X_2) + \\ & + P(X_2 \leq a \cap X_1 \leq b \cap X_2 < X_1) = \\[2ex] & = \int_{ - \infty}^a \int_{x_1}^b f(x_2)f(x_1) \, dx_2 \, dx_1 + \int_{ - \infty}^a \int_{x_2}^b f(x_1)f(x_2) \, dx_1 \, dx_2 = \\[2ex] & = \int_{ - \infty}^a [F(b) - F(x_1)] f(x_1) \, dx_1 + \int_{ - \infty}^a [F(b) - F(x_2)] f(x_2) \, dx_2 = \\[2ex] & = \left[ - \frac{1}{2} [F(b) - F(x_1)]^2\right]_{ - \infty}^{a} + \left[ - \frac{1}{2} [F(b) - F(x_2)]^2\right]_{ - \infty}^{a} = \\[2ex] & = F(b)^2 - [F(b) - F(a)]^2 \end{align*}

Por lo que, derivando:

fX(1),X(2)(x1,x2)=2x1x2FX(1),X(2)(x1,x2)==x2(2[F(x2)F(x1)]f(x1))=2f(x2)f(x1)\begin{align*} f_{X_{(1)}, X_{(2)}} (x_1, x_2) & = \frac{\partial^2}{\partial x_1 \partial x_2} F_{X_{(1)}, X_{(2)}} (x_1, x_2) = \\[2ex] & = \frac{\partial}{\partial x_2} \left(2[F(x_2) - F(x_1)] f(x_1)\right) = 2 f(x_2) f(x_1) \end{align*}
  • Para n=3n = 3 tenemos:
FX(1),X(2),X(3)(a,b,c)=P(X(1)a,X(2)b,X(3)c)==3!P(X1aX2bX3cX1X2X3)==6ax1bx2cf(x3)f(x2)f(x1)dx3dx2dx1==6ax1b[F(c)F(x2)]f(x2)f(x1)dx2dx1==6a[12[F(c)F(x2)]2]x2=x1x2=bf(x1)dx1==3a([F(c)F(x1)]2[F(c)F(b)]2)f(x1)dx1==3[13[F(c)F(x1)]3+[F(c)F(b)]2F(x1)]a==[(F(c)F(x1))3]x1=x1=a3[F(c)F(b)]2F(a)==F(c)3[F(c)F(a)]33[F(c)F(b)]2F(a)\begin{align*} F_{X_{(1)}, X_{(2)}, X_{(3)}} (a, b, c) & = P(X_{(1)} \leq a, X_{(2)} \leq b, X_{(3)} \leq c) = \\[2ex] & = 3! P(X_1 \leq a \cap X_2 \leq b \cap X_3 \leq c \cap X_1 \leq X_2 \leq X_3) = \\[2ex] & = 6 \int_{ - \infty}^a \int_{x_1}^b \int_{x_2}^c f(x_3)f(x_2)f(x_1) \, dx_3 \, dx_2 \, dx_1 = \\[2ex] & = 6 \int_{ - \infty}^a \int_{x_1}^b [F(c) - F(x_2)] f(x_2) f(x_1) \, dx_2 \, dx_1 = \\[2ex] & = 6 \int_{ - \infty}^a \left[ - \frac{1}{2} [F(c) - F(x_2)]^2\right]_{x_2 = x_1}^{x_2 = b} f(x_1) \, dx_1 = \\[2ex] & = 3 \int_{ - \infty}^a \left([F(c) - F(x_1)]^2 - [F(c) - F(b)]^2\right) f(x_1) \, dx_1 = \\[2ex] & = 3 \left[ - \frac{1}{3} [F(c) - F(x_1)]^3 + [F(c) - F(b)]^2 F(x_1)\right]_{ - \infty}^{a} = \\[2ex] & = \left[ - \left(F(c) - F(x_1)\right)^3\right]_{x_1 = - \infty}^{x_1 = a} - 3 [F(c) - F(b)]^2 F(a) = \\[2ex] & = F(c)^3 - [F(c) - F(a)]^3 - 3 [F(c) - F(b)]^2 F(a) \end{align*}

Por lo que, derivando:

fX(1),X(2),X(3)(x1,x2,x3)=3x1x2x3FX(1),X(2),X(3)(x1,x2,x3)===6f(x3)f(x2)f(x1)\begin{align*} f_{X_{(1)}, X_{(2)}, X_{(3)}} (x_1, x_2, x_3) & = \frac{\partial^3}{\partial x_1 \partial x_2 \partial x_3} F_{X_{(1)}, X_{(2)}, X_{(3)}} (x_1, x_2, x_3) = \\[2ex] & = \dots = 6f(x_3)f(x_2)f(x_1) \end{align*}
  • Para un nn cualquiera, la función de distribución conjunta de los estadísticos de orden involucra n!n! términos, cada uno correspondiente con una permutación de las variables. Al derivar nn veces con respecto a todas las variables, se obtiene la densidad conjunta que es precisamente:
fX()(x1,,xn)=n!i=1nf(xi)I(x1x2xn)\begin{align*} f_{X_{(\cdot)}}(x_1, \dots, x_n) = n! \prod_{i = 1}^n f(x_i) I (x_1 \leq x_2 \leq \dots \leq x_n) \end{align*}

Ojiva empírica

La función de distribución empírica o ojiva empírica es un estadígrafo funcional que permite aproximar la función de distribución de una variable aleatoria a partir de una muestra muestral.

Ojiva empírica. Definición

Sea (X1,,Xn)(X_1, \dots, X_n) una muestra aleatoria simple XX variable aleatoria con función de distribución FF. Se define la ojiva empírica de XX asociada a la muestra aleatoria simple (X1,,Xn)(X_1, \dots, X_n) como la función Fn:R[0,1]F_n : \mathbb{R} \to [0, 1] que asocia a cada xRx \in \mathbb{R} el valor:

Fn(x)=Card {Xix}n=1ni=1nI(,x](Xi)=1ni=1nI[Xi,)(x)\begin{align*} F_n(x) = \dfrac{\text{Card } \{X_i \leq x\}}{n} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{ (- \infty, x]} (X_i) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{[X_i, \infty)} (x) \end{align*}

💡Nota

Esta función se puede entender también como:

Fn(x)={0 si x<X(1)in si X(i)x<X(i+1) para alguˊi=1,,n11 si xX(n)\begin{align*} F_n(x) = \left\{ \begin{array}{cl} 0 & \text{ si } x < X_{(1)} \\ \frac{i}{n} & \text{ si } X_{(i)} \leq x < X_{(i + 1)} \text{ para algún } i = 1, \dots, n - 1 \\ 1 & \text{ si } x \geq X_{(n)} \end{array} \right. \end{align*}

Por lo que, a cada realización muestral le asocia una función escalonada que es función de distribución. Así, para cada muestra, la ojiva empírica cambia (salvo que la muestra simplemente cambie el orden de los datos).

✏️Ejemplo

Sea la muestra de tamaño n=5n = 5 dada por (2.1,3.5,1.8,4.2,2.7)(2.1, 3.5, 1.8, 4.2, 2.7) de una variable aleatoria XX. Entonces, la ojiva empírica asociada a esta muestra es:

Los estadísticos de orden de la muestra son:

X(1)=1.8,X(2)=2.1,X(3)=2.7,X(4)=3.5,X(5)=4.2\begin{align*} X_{(1)} = 1.8, \quad X_{(2)} = 2.1, \quad X_{(3)} = 2.7, \quad X_{(4)} = 3.5, \quad X_{(5)} = 4.2 \end{align*}

Así, la ojiva empírica asociada a esta muestra es:

Fn(x)={0 si x<1.815 si 1.8x<2.125 si 2.1x<2.735 si 2.7x<3.545 si 3.5x<4.21 si x4.2\begin{align*} F_n(x) = \left\{ \begin{array}{cl} 0 & \text{ si } x < 1.8 \\[1ex] \frac{1}{5} & \text{ si } 1.8 \leq x < 2.1 \\[1ex] \frac{2}{5} & \text{ si } 2.1 \leq x < 2.7 \\[1ex] \frac{3}{5} & \text{ si } 2.7 \leq x < 3.5 \\[1ex] \frac{4}{5} & \text{ si } 3.5 \leq x < 4.2 \\[1ex] 1 & \text{ si } x \geq 4.2 \end{array} \right. \end{align*}

Gráficamente, la ojiva empírica asociada a esta muestra es:

TikZ Graph

Propiedades de la ojiva empírica. Proposición

Algunas propiedades de la ojiva empírica FnF_n son:

  1. Sea xRx \in \mathbb{R} fijo, entonces la ojiva empírica FnF_n puede expresarse como:
Fn(x)=1ni=1nI(,x](Xi)=1ni=1nI[Xi,)(x)\begin{align*} F_n(x) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{(-\infty, x]} (X_i) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{[X_i, \infty)} (x) \end{align*}
  1. La ojiva empírica FnF_n es un estimador insesgado de la función de distribución FF de la variable aleatoria XX.

📐Demostración

Sea xRx \in \mathbb{R} fijo, se definen las variables aleatorias:

Yi=I[Xi,)(x)={1Xix0Xi>xi=1,,n\begin{align*} Y_i = I_{[X_i, \infty)} (x) = \begin{cases} 1 & X_i \leq x \\ 0 & X_i > x \end{cases} \quad i = 1, \dots, n \end{align*}

que son variables aleatorias de Bernoulli ya que indican si la observación XiX_i cae por debajo del valor xx o no. Por lo tanto, YiB(p)Y_i \rightsquigarrow \mathcal{B}(p). Dado que son variables aleatorias independientes e idénticamente distribuidas, se tiene que:

P(Yi=1)=P(Xix)=FXi(x)=F(x)=p\begin{align*} P(Y_i = 1) = P(X_i \leq x) = F_{X_i}(x) = F(x) = p \end{align*}

Por lo tanto, YiB(F(x))Y_i \rightsquigarrow \mathcal{B}(F(x)) y por reproductividad de la distribución binomial, se tiene que:

i=1nYiB(n,F(x))\begin{align*} \displaystyle \sum_{i = 1}^{n} Y_i \rightsquigarrow \mathcal{B}(n, F(x)) \end{align*}

Para xRx \in \mathbb{R} fijo tenemos que la ojiva empírica viene dada por:

Fn(x)=1ni=1nYi\begin{align*} F_n(x) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} Y_i \end{align*}

Es decir, que es el promedio muestral de las variables aleatorias YiY_i de Bernoulli. Por lo que, si calculamos la esperanza de Fn(x)F_n(x):

E(Fn(x))=E(1ni=1nYi)=1ni=1nE(Yi)=1nnF(x)=F(x)\begin{align*} E(F_n(x)) & = E\left(\frac{1}{n} \displaystyle \sum_{i = 1}^{n}Y_i\right) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} E(Y_i) = \frac{1}{n} \cdot n \cdot F(x) = F(x) \end{align*}

💡Nota

Además, si calculamos la varianza de Fn(x)F_n(x):

Var(Fn(x))=Var(1ni=1nYi)=1n2i=1nVar(Yi)==1n2nF(x)(1F(x))=F(x)(1F(x))n\begin{align*} Var(F_n(x)) & = Var\left(\frac{1}{n} \displaystyle \sum_{i = 1}^{n} Y_i\right) = \frac{1}{n^2} \displaystyle \sum_{i = 1}^{n} Var(Y_i) = \\[2ex] & = \frac{1}{n^2} \cdot n \cdot F(x)(1 - F(x)) = \frac{F(x)(1 - F(x))}{n} \end{align*}

que es una parábola que alcanza su valor máximo en F(x)=0.5F(x) = 0.5, por lo que:

  • Cuando F(x)=0F(x) = 0 o F(x)=1F(x) = 1 entonces Var(Fn(x))=0Var(F_n(x)) = 0
  • Cuando F(x)=0.5F(x) = 0.5 entonces Var(Fn(x))=14nVar(F_n(x)) = \frac{1}{4n} es máxima

De esta forma, la estimación es más precisa en las colas de la distribución que en el centro.

  1. Por la ley de los grandes números se tiene que:
Fn(x)nc.s.F(x)xR\begin{align*} F_n(x) \xrightarrow[n \to \infty]{\text{c.s.}} F(x) \quad \forall x \in \mathbb{R} \end{align*}
  1. Por el Teorema del Límite Central se tiene que:
Fn(x)F(x)F(x)(1F(x))/nnLN(0,1)xR\begin{align*} \dfrac{F_n(x) - F(x)}{\sqrt{F(x)(1 - F(x)) / n}} \xrightarrow[n \to \infty]{\mathcal{L}} \mathcal{N}(0, 1) \quad \forall x \in \mathbb{R} \end{align*}

Teorema de Glivenko-Cantelli

Sea (Xn)nN(X_n)_{n \in \mathbb{N}} sucesión de variables aleatorias independientes e idénticamente distribuidas con función de distribución común FF. Sean (X1,,Xn)(X_1, \dots, X_n) las nn primeras componentes de la sucesión y FnF_n la ojiva empírica asociada a la muestra aleatoria simple (X1,,Xn)(X_1, \dots, X_n). Entonces la aplicación:

Δn:(X1,,Xn)R(x1,,xn)D(Fn,F)=supxRFn(x)F(x)\begin{array}{rcl} \Delta_n : (X_1, \dots , X_n) & \longrightarrow & \mathbb{R} \\ (x_1, \dots, x_n) & \longmapsto & D_\infty(F_n, F) = \displaystyle \sup_{x \in \mathbb{R}} |F_n(x) - F(x)| \end{array}

cumple que:

Δnnc.s.0\begin{align*} \Delta_n \xrightarrow[n \to \infty]{\text{c.s.}} 0 \end{align*}

💡Nota

Podemos observar que, al definir Δn\Delta_n como la distancia máxima entre la ojiva empírica y la función de distribución, el Teorema de Glivenko-Cantelli nos dice que la distancia entre ambas funciones tiende a 00 casi seguramente cuando el tamaño muestral tiende a infinito. Es decir, que la ojiva empírica es un estimador consistente de la función de distribución.

📐Demostración

Veamos un par de ideas clave que se usarán en la demostración:

Sea xRx \in \mathbb{R} fijo, consideramos las variables aleatorias:

Yi=I(,x](Xi)i=1,,n\begin{align*} Y_i = I_{( - \infty, x]} (X_i) \quad i = 1, \dots, n \end{align*}

que son variables aleatorias de Bernoulli ya que indican si la observación XiX_i cae por debajo del valor xx o no.

Por lo tanto, YiB(p)Y_i \rightsquigarrow \mathcal{B}(p). Dado que son variables aleatorias independientes e idénticamente distribuidas y cumplen que sus medias y varianzas son finitas, por la Ley Fuerte de los Grandes Números se tiene que:

Fn(x)=1ni=1nI(,x](Xi)=1ni=1nYinc.s.E(Yi)=F(x)\begin{align*} F_n(x) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{( - \infty, x]} (X_i) = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} Y_i \xrightarrow[n \to \infty]{\text{c.s.}} E(Y_i) = F(x) \end{align*}

Análogamente, para el caso general, se podría ver que:

Fn(x)=Card(Xi<x)n=1ni=1nI(,x)(Xi)nc.s.F(x)\begin{align*} F_n(x^ - ) = \dfrac{\text{Card}(X_i < x)}{n} = \frac{1}{n} \displaystyle \sum_{i = 1}^{n} I_{( - \infty, x)} (X_i) \xrightarrow[n \to \infty]{\text{c.s.}} F(x^ - ) \end{align*}

donde se tiene que:

F(x)=limcxF(c)\begin{align*} F(x^{ - }) = \lim_{c \to x^{ - }} F(c) \end{align*}

Por las propiedades de la probabilidad, la intersección finita o numerable de sucesos AiA_i tales que P(Ai)=1P(A_i) = 1 para todo ii también tiene probabilidad 11:

P(capi=1Ai)=1P(i=1Aic)1i=1P(Aic)=1\begin{align*} P\left(cap_{i = 1}^{\infty} A_i\right) = 1 - P\left(\bigcup_{i = 1}^{\infty} A_i^c\right) \geq 1 - \displaystyle \sum_{i = 1}^{\infty} P(A_i^c) = 1 \end{align*}

Para el resto de la demostración, hay que considerar el caso de variables discretas con un número finito de posibles resultados y el caso general. En este caso, solo vamos a ver el caso discreto finito.

Sea XX variable aleatoria discreta que toma los valores x1<x2<<xkx_1 < x_2 < \dots < x_k con sus respectivas probabilidades pi=P(X=xi)>0p_i = P(X = x_i) > 0 para i=1,,ki = 1, \dots, k.

Notar que, de esta forma, tanto la función de distribución FF como la ojiva empírica asociada a cada muestra Fn(w)F_n(w) son funciones escalonadas, con saltos en los puntos xix_i para i=1,,ki = 1, \dots, k. Por tanto:

Δn(w)=D(Fn(w),F)=supxRFn(x,w)F(x)=maxxi,i=1,,kFn(xi,w)F(xi)\begin{align*} \Delta_n(w) = D_\infty(F_n(w), F) = \sup_{x \in \mathbb{R}} |F_n(x, w) - F(x)| = \max_{x_i, i = 1, \dots, k} |F_n(x_i, w) - F(x_i)| \end{align*}

Para cada xjx_j fijo, definimos:

Aj:{w:limnFn(xj,w)=F(xj)}\begin{align*} A_j \coloneq \left\{w : \lim_{n \to \infty} F_n(x_j, w) = F(x_j)\right\} \end{align*}

Por la Ley Fuerte de los Grandes Números se tiene que:

Fn(xj)nc.s.F(xj)    P(Aj)=1\begin{align*} F_n(x_j) \xrightarrow[n \to \infty]{\text{c.s.}} F(x_j) \quad \implies \quad P(A_j) = 1 \end{align*}

Por lo tanto, considerando la intersección finita de los sucesos AjA_j:

A=j=1kAj    P(A)=1\begin{align*} A = \displaystyle \bigcap_{j = 1}^{k} A_j \implies P(A) = 1 \end{align*}

Finalmente, para cada wAw \in A se tiene wAjw \in A_j por tanto, ε>0\forall \varepsilon > 0 existe nj,εn_{j,\varepsilon} tal que:

n>nj,ε    Fn(xj,w)F(xj)<ε\begin{align*} n > n_{j, \varepsilon} \implies |F_n(x_j, w) - F(x_j)| < \varepsilon \end{align*}

Por tanto, si tomamos nε=maxj=1,,knj,εn_\varepsilon = \max_{j = 1, \dots, k} n_{j, \varepsilon} se tiene que:

n>nε    Δn(w)=maxi=1,,kFn(xi,w)F(xi)<ε\begin{align*} n > n_\varepsilon \implies \Delta_n(w) = \max_{i = 1, \dots, k} |F_n(x_i, w) - F(x_i)| < \varepsilon \end{align*}

Es decir, que Δn(w)0\Delta_n(w) \to 0 cuando nn \to \infty para todo wAw \in A y como P(A)=1P(A) = 1, se tiene que:

Δnnc.s.0\begin{align*} \Delta_n \xrightarrow[n \to \infty]{\text{c.s.}} 0 \end{align*}

💡Nota

A través de este resultado, podemos ver que en un conjunto de muestras cualquiera de probabilidad 1, la función de distribución FF está determinada por la ojiva empírica de la forma siguiente:

Fn(x)ε<F(x)<Fn(x)+εε>0,xR\begin{align*} F_n(x) - \varepsilon < F(x) < F_n(x) + \varepsilon \quad \forall \varepsilon > 0, \quad \forall x \in \mathbb{R} \end{align*}

Es decir, que se puede estimar la función de distribución FF a partir de la ojiva empírica FnF_n con un error arbitrariamente pequeño cuando el tamaño muestral es suficientemente grande.

Simulación

La simulación es una técnica que permite generar valores aleatorios de un estadístico cualquiera, a partir de los cuales se puede aproximar la función de distribución del estadístico mediante la ojiva empírica.

Generación de números aleatorios con distribución uniforme

Uno de los pasos básicos en la simulación es la generación de números aleatorios (o pseudo-aleatorios) con una distribución U(0,1)\mathcal{U}(0, 1).

💡Nota

Se dicen números pseudo-aleatorios a aquellos números que son generados mediante un algoritmo que, conociendo la semilla inicial, siempre generan la misma secuencia de números.

La mayoría de lenguajes de programación, calculadoras y software estadístico incluyen funciones para generar números pseudo-aleatorios con distribución uniforme en el intervalo (0,1)(0, 1), como puede ser runif en R. Estos emplean algoritmos congruenciales tales que:

ni+1=(ani+c)modm\begin{align*} n_{i + 1} = (a \cdot n_i + c) \mod m \end{align*}

Lo que genera una secuencia de números enteros ni[0,m1]n_i \in [0, m - 1] que se pueden pasar al intervalo [0,1)[0, 1) dividiendo entre mm. La semilla inicial sería n0n_0 y los parámetros a,ca, c y mm.

Generación de valores aleatorios con distribución arbitraria

Para generar valores aleatorios con una distribución arbitraria FF se pueden emplear diversos métodos, que a menudo se combinan entre sí.

Método de Montecarlo

Esta técnica se basa en la generación de valores aleatorios de distribuciones a partir de generados aleatorios con distribución U(0,1)\mathcal{U}(0, 1). Para ello, sea XX una variable aleatoria que toma los valores x1,x2,,xkx_1, x_2, \dots, x_k con probabilidades p1,p2,,pkp_1, p_2, \dots, p_k, tales que pi>0p_i > 0 y i=1kpi=1\sum_{i = 1}^{k} p_i = 1, para generar cada valor aleatorio de XX se sigue el siguiente procedimiento:

  1. Partición de [0,1][0, 1] en kk subintervalos C1,,CkC_1, \dots, C_k de longitudes p1,,pkp_1, \dots, p_k respectivamente.
  2. Generación de un número aleatorio uu con distribución U(0,1)U(0, 1).
  3. Ver en que subintervalo CiC_i está uu, así:
uCj     valor generado de X es xj\begin{align*} u \in C_j \implies \text{ valor generado de } X \text{ es } x_j \end{align*}

💡Nota

También es válido para variables aleatorias discretas no finitas, ya que en ese caso se puede considerar una partición infinita numerable de [0,1][0, 1].

✏️Ejemplo

Se considera la variable aleatoria discreta XX tal que:

P(X=1)=12,P(X=1.5)=13,P(X=3)=16\begin{align*} P(X = 1) = \frac{1}{2}, \qquad P(X = 1.5) = \frac{1}{3} , \qquad P(X = 3) = \frac{1}{6} \end{align*}

Para generar una muestra aleatoria de tamaño 55 los pasos son:

  1. Generar la partición del intervalo en 3 subintervalos con longitudes que correspondan con las probabilidades, es decir: 12\frac{1}{2}, 13\frac{1}{3} y 16\frac{1}{6}:
C1=[0,12),C2=[12,56),C3=[56,1)\begin{align*} C_1 = \left[0, \frac{1}{2}\right), \quad C_2 = \left[\frac{1}{2}, \frac{5}{6}\right), \quad C_3 = \left[\frac{5}{6}, 1\right) \end{align*}

Lo que gráficamente se representa como:

TikZ Graph 2. Generar 5 números aleatorios u1,,u5u_1, \dots, u_5 con distribución U(0,1)\mathcal{U}(0, 1). Supongamos que los números generados son:

u1=0.23,u2=0.67,u3=0.91,u4=0.45,u5=0.12\begin{align*} u_1 = 0.23, \quad u_2 = 0.67, \quad u_3 = 0.91, \quad u_4 = 0.45, \quad u_5 = 0.12 \end{align*}
  1. Ver en que subintervalo cae cada número generado:
uiSubintervaloCjValorgeneradodeXu1=0.23C11u2=0.67C21.5u3=0.91C33u4=0.45C11u5=0.12C11\begin{array}{c|c|c} u_i & Subintervalo C_j & Valor generado de X \\ \hline u_1 = 0.23 & C_1 & 1 \\ u_2 = 0.67 & C_2 & 1.5 \\ u_3 = 0.91 & C_3 & 3 \\ u_4 = 0.45 & C_1 & 1 \\ u_5 = 0.12 & C_1 & 1 \end{array}

Lo que gráficamente se representa como:

TikZ Graph

💡Nota

Este procedimiento se puede aplicar en R con las distribuciones discretas más comunes mediante las funciones rbinom, rpois, rgeom, etc.

Método de transformación

Otra técnica para generar valores aleatorios con una distribución arbitraria FF continua es el método de transformación. Este método se basa en los generadores de números aleatorios con distribución U(0,1)\mathcal{U}(0, 1) y la función inversa de la función de distribución FF.

Por el teorema de la la transformación de la distribución acumulada tenemos que si XX es continua entonces F(X)U(0,1)F(X) \equiv \mathcal{U}(0, 1). Por tanto, se genera un valor uu de U(0,1)\mathcal{U}(0, 1) y se aplica la función inversa de la función de distribución FF para obtener el correspondiente valor de XX, es decir:

x=F1(u)\begin{align*} x = F^{ - 1}(u) \end{align*}

✏️Ejemplo

Se considera la variable aleatoria XE(λ)X \rightsquigarrow \mathcal{E}(\lambda) cuya función de distribución es:

F(x)=(1eλx)I[0,)(x)\begin{align*} F(x) = \left(1 - e^{ - \lambda x}\right) \cdot I_{[0, \infty)} (x) \end{align*}

Ahora, para generar valores aleatorios de XX mediante el método de transformación, se sigue el siguiente procedimiento:

  1. Generar un número aleatorio uu con distribución U(0,1)\mathcal{U}(0, 1).
  2. Calcular la función inversa de la función de distribución FF:
y=F(x)=1eλx    eλx=1y        λx=log(1y)    x=log(1n)λ\begin{align*} y = F(x) = 1 - e^{ - \lambda x} &\iff e^{ - \lambda x} = 1 - y \iff \\[2ex] & \iff - \lambda \cdot x = \log (1 - y) \iff x = - \frac{\log (1 - n)}{\lambda} \end{align*}
  1. Aplicar la función inversa al número aleatorio generado:
x=F1(u)=1λln(1u)\begin{align*} x = F^{ - 1} (u) = - \frac{1}{\lambda} \ln(1 - u) \end{align*}

Gráficamente, este procedimiento se representa como:

TikZ Graph

Transformación de Box-Muller

Aunque el método de transformación es aplicable a cualquier distribución continua, algunas distribuciones no tienen función inversa explícita, como es el caso de la normal. Para estos casos, se pueden emplea la transformación de Box-Muller.

Sean U1,U2U(0,1)U_1, U_2 \rightsquigarrow \mathcal{U}(0, 1) variables aleatorias independientes entonces:

X=2log(U1)cos(2πU2) y Y=2log(U1)sin(2πU2)\begin{align*} X = \sqrt{ - 2 \log (U_1)} \cdot \cos (2\pi U_2) \quad \text{ y } \quad Y = \sqrt{ - 2 \log (U_1)} \cdot \sin (2\pi U_2) \end{align*}

son variables aleatorias independientes con distribución N(0,1)\mathcal{N}(0, 1).

💡Nota

En R existen funciones para la generación de valores de las distribuciones continuas más comunes, como son rnorm, rexp, runif, etc.

Método de aceptación rechazo

Otro método para generar valores aleatorios de una distribución continua que no necesita la función inversa F1F^{ - 1} es el método de aceptación-rechazo. Para este caso, se require de la función de densidad ff de la variable aleatoria XX y una acotación superior dada por CgC \cdot g donde gg es otra función de densidad asociada a una variable aleatoria YY de la que se puede calcular fácilmente la inversa de su función de distribución G1G^{ - 1}. Es decir, que se necesita:

f(x)Cg(x)xR,C>0\begin{align*} f(x) \leq C \cdot g(x) \quad \forall x \in \mathbb{R}, \quad C > 0 \end{align*}

El procedimiento para generar un valor aleatorio de XX es el siguiente:

  1. Generación de un valor de YY a través de su función inversa empleando el método de transformación:
a=G1(u1) con u1U(0,1)\begin{align*} a = G^{ - 1} (u_1) \quad \text{ con } u_1 \rightsquigarrow \mathcal{U}(0, 1) \end{align*}
  1. Calculo de f(a)f(a) y Cg(a)C \cdot g(a).
  2. Generación de otro número aleatorio bb a través de U(0,Cg(a))\mathcal{U}(0, C g(a))
  3. Si b<f(a)b < f(a) se acepta aa como valor generado de XX, en caso contrario se rechaza y se vuelve al paso 1.

Gráficamente, este procedimiento se representa como:

TikZ Graph

Validez del método de aceptación-rechazo. Proposición

Sea XX variable aleatoria con función de densidad ff, el método de aceptación-rechazo genera valores de una variable con función de densidad ff.

📐Demostración

Calculemos la función de distribución de la variable aleatoria generada:

X=YNo rechazo\begin{align*} X = Y |_{\text{No rechazo}} \end{align*}

Así, tenemos que:

f(Y=xNo rechazo)=P(No rechazoY=x)g(x)P(No rechazo)\begin{align*} f\left(Y = x|_{\text{No rechazo}}\right) = \frac{P(\text{No rechazo}|_{Y = x})g(x)}{P(\text{No rechazo})} \end{align*}

Entonces, como la probabilidad de no rechazo es:

P(No rechazo)=P(No rechazoY=x)g(x)dx=f(x)Cg(x)g(x)dx=1C\begin{align*} P(\text{No rechazo}) = \int_{ - \infty}^{\infty} P(\text{No rechazo}|_{Y = x}) g(x) \, dx = \int_{ - \infty}^{\infty} \frac{f(x)}{C \cdot g(x)} g(x) \, dx = \frac{1}{C} \end{align*}

Entonces:

f(Y=xNo rechazo)=P(No rechazoY=x)g(x)P(No rechazo)=f(x)Cg(x)g(x)1C=f(x)\begin{align*} f\left(Y = x|_{\text{No rechazo}}\right) & = \frac{P(\text{No rechazo}|_{Y = x})g(x)}{P(\text{No rechazo})} = \frac{\frac{f(x)}{C \cdot g(x)} g(x)}{\frac{1}{C}} = f(x) \end{align*}

es decir, la función de densidad de la variable aleatoria generada es ff.

✏️Ejemplo

Sea XX variable aleatoria normal estándar, es decir, XN(0,1)X \rightsquigarrow \mathcal{N}(0, 1) con función de densidad:

f(x)=12πex22xR\begin{align*} f(x) = \frac{1}{\sqrt{2\pi}} e^{ - \frac{x^2}{2}} \quad x \in \mathbb{R} \end{align*}

Se sabe sabe que la función de distribución no tiene una expresión implícita y, por tanto, tampoco su inversa. Sin embargo, sabemos que la función de densidad alcanza su máximo en x=μ=0x^* = \mu = 0, donde vale:

f(x)=f(0)=12π\begin{align*} f(x^*) = f(0) = \frac{1}{\sqrt{2\pi}} \end{align*}

Además, si x[1,1]x \notin [ - 1, 1] entonces:

x2>x    f(x)<12πex2\begin{align*} x^2 > |x| \implies f(x) < \frac{1}{\sqrt{2\pi}} e^{ - \frac{|x|}{2}} \end{align*}

Por lo que, podemos acotar ff mediante la función g1g_1 definida como:

g1(x)={12π si x[1,1]12πex2 si x[1,1]\begin{align*} g_1(x) = \left\{ \begin{array}{ll} \dfrac{1}{\sqrt{2\pi}} & \text{ si } x \in [ - 1, 1] \\[4ex] \dfrac{1}{\sqrt{2\pi}} e^{ - \frac{|x|}{2}} & \text{ si } x \notin [ - 1, 1] \end{array} \right. \end{align*}

Que cumple:

  • f(x)g1(x)f(x) \leq g_1(x) para todo xRx \in \mathbb{R}
  • La integral de gg es finita:
g(x)dx=2π(2e12+1)1.766=C\begin{align*} \int_{ - \infty}^{\infty} g(x) \, dx = \sqrt{\frac{2}{\pi}} \cdot \left(2e^{ - \frac{1}{2}} + 1\right) \approx 1.766 = C \end{align*}

Por lo tanto, definimos la función de densidad gg como:

g:1Cg1\begin{align*} g \coloneq \frac{1}{C} g_1 \end{align*}
  • La función inversa de la función de distribución GG asociada a gg es:
G1(y)={log(π2y2) si y(0,2πe)2π2e1 si y[2πe,2πe+2π]2log(1+2e2πy) si y(2πe+2π,1)\begin{align*} G^{ - 1}(y) = \left\{ \begin{array}{ll} \log \left(\dfrac{\pi}{2} y^2\right) & \text{ si } y \in \left(0, \sqrt{\frac{2}{\pi e}}\right)\\[4ex] \sqrt{2\pi} - \dfrac{2}{\sqrt{e}} - 1 & \text{ si } y \in \left[\sqrt{\frac{2}{\pi e}}, \sqrt{\frac{2}{\pi e}} + \sqrt{\frac{2}{\pi}}\right]\\[4ex] - 2 \log \left(1 + \dfrac{2}{\sqrt{e}} - \sqrt{\dfrac{2}{\pi}} y\right) & \text{ si } y \in \left(\sqrt{\frac{2}{\pi e}} + \sqrt{\frac{2}{\pi}}, 1\right) \end{array} \right. \end{align*}

Por tanto, se puede generar valores aleatorios de la distribución normal estándar mediante el método de aceptación-rechazo con gg y CC definidos anteriormente.