Inferencia - Tema 0

inferencia estadística
Probabilidad
Estadística
2026-01-12
23 min de lectura

Introducción

El objetivo de la inferencia estadística es extraer conclusiones sobre la población a partir de la información obtenida de una muestra. Para ello, partimos de una población de la que no es posible conocer los parámetros o algunas características (μ\mu, σ\sigma, pp, independencia, etc.) y se dispone de la información suministrada por una muestra (X1,,Xn)(X_1, \dots, X_n).

Probabilidad

Sea cualquier característica de interés de la población, a esta se le asigna el conjunto de valores posibles Ω\Omega que llamamos espacio muestral. También, se le asocia una colección de sucesos A\mathcal{A} con estructura de σ\sigma-álgebra.

A partir de ellos, se define una medida de probabilidad P ⁣:A[0,1]P \colon \mathcal{A} \longrightarrow [0, 1] que verifica los axiomas de Kolmogórov:

  • P(A)0P(A) \geq 0 para todo AAA \in \mathcal{A}.
  • P(Ω)=1P(\Omega) = 1.
  • Si A1,A2,A_1, A_2, \dots son sucesos disjuntos dos a dos, entonces
P(i=1Ai)=i=1P(Ai)\begin{align*} P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\\ \end{align*}

Propiedades de la probabilidad

A partir de los axiomas, se pueden deducir las siguientes propiedades:

  • P()=0P(\emptyset ) = 0
  • Sea ABA \subseteq B entonces P(A)P(B)P(A) \leq P(B)
  • P(A)1P(A) \leq 1 para todo AAA \in \mathcal{A}
  • P(Ac)=1P(A)P(A^c) = 1 - P(A) para todo AAA \in \mathcal{A}
  • P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B) para todo A,BAA, B \in \mathcal{A}

Propabilidad condicionada

Sean A,BAA, B \in \mathcal{A} sucesos con P(B)>0P(B) > 0 entonces:

P(AB)=P(AB)P(B)\begin{align*} P\left(A_{|_B}\right) = \frac{P(A \cap B)}{P(B)}\\ \end{align*}

Teorema de la probabilidad total

Sean A1,A2,,AnAA_1, A_2, \dots, A_n \in \mathcal{A} una partición del espacio muestral Ω\Omega y sea BAB \in \mathcal{A} cualquiera, del que se conoce P(BBi)P\left(B_{|_{B_i}}\right) para i=1,,ni = 1, \dots, n entonces la probabilidad de BB viene dada por:

P(B)=i=1nP(BAi)P(Ai)\begin{align*} P(B) = \sum_{i=1}^{n} P\left(B_{|_{A_i}}\right) P(A_i)\\ \end{align*}

Teorema de Bayes

Sean {A1,,An}\{A_1, \dots, A_n\} partición de Ω\Omega y tales que P(Ai)>0P(A_i) > 0 para i=1,,ni = 1, \dots, n. Sea BAB \in \mathcal{A} donde es conocida P(BAi)P\left(B_{|_{A_i}}\right) para i=1,,ni = 1, \dots, n y P(B)>0P(B) > 0. Entonces:

P(AiB)=P(BAi)P(Ai)P(B)\begin{align*} P\left({A_i}_{|_B}\right) = \frac{P(B_{|_{A_i}}) P(A_i)}{P(B)}\\ \end{align*}

Variables aleatorias

Podemos entender una variable aleatoria como una medición de los resultados asociados a un experimento aleatorio que nos permite trabajar con modelos estadísticos.

Formalmente, sea espacio de probabilidad (Ω,A,P)(\Omega, \mathcal{A}, P), decimos XX es variable aleatoria si es una función medible respecto de A\mathcal{A} y la σ\sigma-álgebra de Borel B(R)\mathcal{B}(\mathbb{R}), es decir:

X ⁣:ΩR tal que BB(R),X1(B)A\begin{align*} X \colon \Omega \longrightarrow \mathbb{R} \text{ tal que } \forall B \in \mathcal{B}(\mathbb{R}), X^{-1}(B) \in \mathcal{A}\\ \end{align*}

La función de distribución FXF_X caracteriza su comportamiento y viene dada por:

FX ⁣:R[0,1]xFX(x)=P(ωX(ω)x)\begin{align*} F_X \colon \mathbb{R} & \longrightarrow [0, 1]\\ x & \longmapsto F_X(x) = P(\omega \mid X(\omega) \leq x)\\ \end{align*}

Variable aleatoria discreta

Decimos que XX es discreta si toma un número finito o numerable de valores xix_i con probabilidades no nulas que verifican:

iP(X=xi)=1\begin{align*} \sum_{i} P(X = x_i) = 1 \end{align*}

En este caso, tenemos que:

  • Su función de distribución viene dada por:
FX(x)=P(Xx)=xixP(X=xi)\begin{align*} F_X(x) = P(X \leq x) = \sum_{x_i \leq x} P(X = x_i) \end{align*}
  • Su esperanza (en caso de existir) viene dada por:
μ=E(X)=ixiP(X=xi)\begin{align*} \mu = E(X) = \sum_{i} x_i P(X = x_i) \end{align*}
  • Su varianza (en caso de existir) viene dada por:
σ2=Var(X)=E[(Xμ)2]=i(xiμ)2P(X=xi)\begin{align*} \sigma^2 = \text{Var}(X) = E\left[(X - \mu)^2\right] = \sum_{i} (x_i - \mu)^2 P(X = x_i) \end{align*}

Variable aleatoria continua

Decimos que XX es continua si puede tomar valores en un continuo, intervalo o unión de intervalos. Queda caracterizada por su función de densidad fXf_X que cumple:

  • fX(x)0f_X(x) \geq 0 para todo xRx \in \mathbb{R}
  • RfX(x)dx=1\int_{\mathbb{R}} f_X(x) \, dx = 1

En este caso, tenemos que:

  • Su función de distribución viene dada por:
FX(x)=xfX(t)dt\begin{align*} F_X(x) = \int_{ - \infty}^x f_X(t) \, dt \end{align*}
  • Su esperanza (en caso de existir) viene dada por:
μ=E(X)=xfX(x)dx\begin{align*} \mu = E(X) = \int_{-\infty}^{\infty} x f_X(x) \, dx \end{align*}
  • Su varianza (en caso de existir) viene dada por:
σ2=Var(X)=(xμ)2fX(x)dx=E(X2)(E(X))2\begin{align*} \sigma^2 = \text{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f_X(x) \, dx = E(X^2) - (E(X))^2 \end{align*}

Distribuciones discretas más comunes

Algunos de los modelos de distribución discreta más comunes son:

  • Bernoulli XB(p)X \rightsquigarrow \mathcal{B}(p) con p(0,1)p \in (0, 1)

  • Binomial XB(n,p)X \rightsquigarrow \mathbb{B}(n, p) con nNn \in \mathbb{N} y p(0,1)p \in (0, 1)

  • P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} para k=0,1,,nk = 0, 1, \dots, n

  • E(X)=npE(X) = np

  • Var(X)=np(1p)=npq\text{Var}(X) = np(1 - p) = npq

  • Geométrica XG(p)X \rightsquigarrow \mathcal{G}(p) con p(0,1)p \in (0, 1)

  • P(X=k)=(1p)k1pP(X = k) = (1 - p)^{k - 1} p para k=1,2,k = 1, 2, \dots

  • E(X)=1pE(X) = \frac{1}{p}

  • Var(X)=1pp2=qp2\text{Var}(X) = \frac{1 - p}{p^2} = \frac{q}{p^2}

  • Poisson XP(λ)X \rightsquigarrow \mathcal{P}(\lambda) con λ>0\lambda > 0

  • P(X=k)=λkeλk!P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} para k=0,1,2,k = 0, 1, 2, \dots

  • E(X)=λE(X) = \lambda

  • Var(X)=λ\text{Var}(X) = \lambda

Distribuciones continuas más comunes

Algunos de los modelos de distribución continua más comunes son:

  • Uniforme XU(a,b)X \rightsquigarrow \mathcal{U}(a, b) con a<ba < b

  • Exponencial XE(λ)X \rightsquigarrow \mathcal{E}(\lambda) con λ>0\lambda > 0

  • fX(x)=λeλxf_X(x) = \lambda e^{-\lambda x} para x0x \geq 0 y 00 en otro caso

  • E(X)=1λE(X) = \frac{1}{\lambda}

  • Var(X)=1λ2\text{Var}(X) = \frac{1}{\lambda^2}

  • Gamma XΓ(α,λ)X \rightsquigarrow \Gamma(\alpha, \lambda) con α,λ>0\alpha, \lambda > 0

  • fX(x)=λαΓ(α)xα1eλxf_X(x) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\lambda x} para x0x \geq 0 y 00 en otro caso

  • E(X)=αλE(X) = \frac{\alpha}{\lambda}

  • Var(X)=αλ2\text{Var}(X) = \frac{\alpha}{\lambda^2}

  • Normal XN(μ,σ2)X \rightsquigarrow \mathcal{N}(\mu, \sigma^2) con μR\mu \in \mathbb{R} y σ>0\sigma > 0

  • fX(x)=1σ2πe(xμ)22σ2f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}} para xRx \in \mathbb{R}

  • E(X)=μE(X) = \mu

  • Var(X)=σ2\text{Var}(X) = \sigma^2

  • Beta XBe(α,β)X \rightsquigarrow \mathcal{B}e(\alpha, \beta) con α,β>0\alpha, \beta > 0

  • fX(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1f_X(x) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha - 1} (1 - x)^{\beta - 1} para x[0,1]x \in [0, 1] y 00 en otro caso

  • E(X)=αα+βE(X) = \frac{\alpha}{\alpha + \beta}

  • Var(X)=αβ(α+β)2(α+β+1)\text{Var}(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}

Cambio de variable

Cualquier variable obtenida por transformación de otra puede caracterizarse a través de la función de distribución o de densidad de la variable original.

Sea XX una variable aleatoria continua con soporte (a,b)(a, b) y función de densidad fX(x)f_X(x), sea gg función diferenciable en (a,b)(a, b) con derivada no nula (inyectiva) entonces la función de densidad de la variable Y=g(X)Y = g(X) viene dada por:

fY(y)=f(g1(y))ddyg1(y) para y(g(a),g(b))\begin{align*} f_Y(y) = f(g^{ - 1}(y)) \left| \frac{d}{dy} g^{ - 1}(y) \right| \quad \text{ para } y \in (g(a), g(b))\\ \end{align*}

Muestras aleatorias simples

Una muestra aleatoria simple de tamaño nn es un conjunto de nn variables aleatorias X1,X2,,XnX_1, X_2, \dots, X_n independientes e idénticamente distribuidas (i.i.d.) con la misma distribución que la variable aleatoria XX que representa a la población.

El comportamiento de la variable aleatoria XX determina el comportamiento de la muestra aleatoria simple, donde:

Caso discreto: P(x1,,xn)=i=1nP(Xi=xi)Caso continuo: f(x1,,xn)=i=1nfX(xi)\begin{align*} \text{Caso discreto: } & \longrightarrow P(x_1, \dots, x_n) = \prod_{i=1}^{n} P(X_i = x_i)\\[2ex] \text{Caso continuo: } & \longrightarrow f(x_1, \dots, x_n) = \prod_{i=1}^{n} f_X(x_i)\\ \end{align*}

Estadístico

Un estadístico es cualquier función medible del conjunto de posibles resultados muestrales en Rp\mathbb{R}^p, es decir:

T ⁣:(X1,,Xn)T(X1,,Xn)Rp\begin{align*} T \colon (X_1, \dots, X_n) \longmapsto T(X_1, \dots, X_n) \in \mathbb{R}^p \end{align*}

El manejo de estadísticos pretende simplificar la información contenida en la muestra y permiten trasladar las probabilidades de Rn\mathbb{R}^n a Rp\mathbb{R}^p con p<np < n.

Estadístico media muestral

Sea X1,,XnX_1, \dots, X_n una muestra aleatoria simple de tamaño nn de una población con media μ\mu y varianza σ2\sigma^2. La media muestral viene dada por:

X=1ni=1nXi\begin{align*} \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \end{align*}

La media muestral es un estadístico que cumple:

  • E(X)=μE(\overline{X}) = \mu
  • Var(X)=σ2n\text{Var}(\overline{X}) = \frac{\sigma^2}{n}
  • Si XN(μ,σ2)X \rightsquigarrow \mathcal{N}(\mu, \sigma^2) entonces XN(μ,σ2n)\overline{X} \rightsquigarrow \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right)
  • Si nn es grande, X\overline{X} se aproxima a una distribución normal (Teorema Central del Límite), es decir:
Xμσ/ndN(0,1) cuando n\begin{align*} \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} \mathcal{N}(0, 1) \text{ cuando } n \to \infty\\ \end{align*}

Estadístico cuasivarianza muestral

Sea X1,,XnX_1, \dots, X_n una muestra aleatoria simple de tamaño nn de una población con media μ\mu y varianza σ2\sigma^2. La cuasivarianza muestral viene dada por:

S^2=1n1i=1n(XiX)2\begin{align*} \widehat{S}^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (X_i - \overline{X})^2 \end{align*}

La cuasivarianza muestral es un estadístico que cumple:

  • E(S^2)=σ2E(\widehat{S}^2) = \sigma^2
  • Si XN(μ,σ2)X \rightsquigarrow \mathcal{N}(\mu, \sigma^2) entonces:
S^2σ2χn12=σ2γ(n12,12)\begin{align*} \widehat{S}^2 \rightsquigarrow \sigma^2 \chi^2_{n - 1} = \sigma^2 \gamma\left(\frac{n - 1}{2}, \frac{1}{2} \right) \end{align*}

Convergencia en ley

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} sucesión de variables aleatorias, se dice que converge en ley a una variable aleatoria XX si:

FXn(x)nFX(x) para todo x donde FX es continua\begin{align*} F_{X_n}(x) \xrightarrow{n \to \infty} F_X(x) \text{ para todo } x \text{ donde } F_X \text{ es continua}\\ \end{align*}

Convergencia en probabilidad

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} sucesión de variables aleatorias definidas en el mismo espacio probabilístico (Ω,σ,P)(\Omega, \sigma, P), se dice que converge en probabilidad a una variable aleatoria XX si:

P(XnXε)n0 para todo ε>0\begin{align*} P(|X_n - X| \geq \varepsilon) \xrightarrow{n \to \infty} 0 \text{ para todo } \varepsilon > 0\\ \end{align*}

Convergencia casi segura

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} sucesión de variables aleatorias definidas en el mismo espacio probabilístico (Ω,σ,P)(\Omega, \sigma, P), se dice que converge casi seguramente a una variable aleatoria XX si y solo si:

P(ω ⁣:Xn(ω)nX(ω))=1\begin{align*} P\left(\omega \colon X_n(\omega) \xrightarrow[n\to \infty]{} X(\omega)\right) = 1 \end{align*}

Es decir, que existe un conjunto CC con P(C)=1P(C) = 1 tal que si ωC\omega \in C entonces Xn(ω)X_n(\omega) converge puntualmente a X(ω)X(\omega).

Propiedades de las convergencias

Se cumplen las siguientes propiedades:

  • Si XnPX    XnLXX_n \overset{P}{\longrightarrow} X \implies X_n \overset{L}{\longrightarrow} X
  • Si XnLk    XnPkX_n \overset{L}{\longrightarrow} k \implies X_n \overset{P}{\longrightarrow} k con kk constante
  • Si Xnc.s.X    XnPXX_n \overset{c.s.}{\longrightarrow} X \implies X_n \overset{P}{\longrightarrow} X

Teorema de Slutsky

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} y {Yn}nN\{Y_n\}_{n \in \mathbb{N}} dos sucesiones de variables aleatorias tales que XnLXX_n \overset{L}{\longrightarrow} X y YnPcY_n \overset{P}{\longrightarrow} c con cc constante. Entonces:

  • Xn+YnLX+cX_n + Y_n \overset{L}{\longrightarrow} X + c
  • XnYnLcXX_n Y_n \overset{L}{\longrightarrow} cX
  • XnYnLXc\frac{X_n}{Y_n} \overset{L}{\longrightarrow} \frac{X}{c} si c0c \neq 0

Teorema central del límite

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} una sucesión de variables aleatorias i.i.d. con E(Xi)=μE(X_i) = \mu y Var(Xi)=σ2\text{Var}(X_i) = \sigma^2. Se verifica que:

n(Xnμσ)LN(0,1) cuando n\begin{align*} \sqrt{n} \left(\frac{\overline{X_n} - \mu}{\sigma} \right) \overset{L}{\longrightarrow} \mathcal{N}(0, 1) \text{ cuando } n \to \infty\\ \end{align*}

Ley fuerte de los grandes números

Sea {Xn}nN\{X_n\}_{n \in \mathbb{N}} una sucesión de variables aleatorias i.i.d. con E(Xi)=μE(X_i) = \mu, se verifica que:

Xnc.s.μ cuando n\begin{align*} \overline{X_n} \overset{c.s.}{\longrightarrow} \mu \text{ cuando } n \to \infty\\ \end{align*}