Los momentos determinan los cumulantes en el sentido de que dadas dos distribuciones de probabilidad cuyos momentos sean idénticos, también tendrán cumulantes idénticos, y de manera similar, los cumulantes determinan los momentos.
El primer cumulante es la media, el segundo cumulante es la varianza, y el tercer cumulante es el mismo que el tercer momento central. Pero los cumulantes de cuarto orden o superiores no son iguales a los momentos centrales. En algunos casos, los tratamientos teóricos de los problemas en términos de cumulantes son más simples que los que usan momentos. En particular, cuando dos o más variables aleatorias son independientes, el cumulante de orden nésimo de su suma es igual a la suma de sus cumulantes de orden nésimo. Además, los cumulantes de tercer y mayor orden de una distribución normal son cero, siendo la única distribución con esta propiedad.
Al igual que para los momentos, donde se utilizan momentos conjuntos cuando se trabaja con múltiples variables aleatorias, es posible definir cumulantes conjuntos.
Los cumulantes κn se obtienen de una expansión en serie de potencias de la función de generación del cumulante:
Esta expansión es una serie de Taylor, por lo que el n-ésimo cumulante se puede obtener al diferenciar n veces la expansión anterior e igualar el resultado a cero:[1]
Si la función que genera el momento no existe, los cumulantes se pueden definir en términos de una relación con los propios momentos, que se analiza más adelante.
Definición alternativa de la función de generación de cumulantes
editar
Algunos autores[2][3] prefieren definir la función de generación de cumulantes como el logaritmo natural de la función característica, que a veces también se denomina la función característica segunda:[4][5]
Una ventaja de H(t) (en cierto sentido, la función K(t) evaluada para argumentos puramente imaginarios), es que E(eitX) está bien definida para todos los valores reales de t, incluso cuando E(etX) no está bien definido para todos los valores reales de t, como puede ocurrir cuando hay demasiada probabilidad de que X tenga una gran magnitud. Aunque la función H(t) estará bien definida, no obstante, se asemejará a K(t) en términos de la longitud de su serie de Taylor, que puede no extenderse más allá (o, rara vez, incluso a) el orden lineal en el argumento t, y en particular el número de Los cumulantes que están bien definidos no cambiará. Sin embargo, incluso cuando H(t) no tiene una serie larga de Maclaurin, puede usarse directamente para analizar y, particularmente, para agregar variables aleatorias. Tanto la distribución de Cauchy (también llamada Lorentziana) como, en general, las distribuciones estables (relacionadas con la distribución de Lévy) son ejemplos de distribuciones para las cuales las expansiones de las funciones de generación de la serie de potencias tienen solo finamente muchos términos bien definidos.
Usos en estadística
editar
Trabajar con cumulantes puede tener una ventaja sobre el uso de momentos, porque para las variables aleatorias estadísticamente independientes X y Y,
de modo que cada cumulante de una suma de variables aleatorias independientes, es la suma de los correspondientes cumulantes de los sumandos. Es decir, cuando los sumandos son estadísticamente independientes, la media de la suma es la suma de las medias, la varianza de la suma es la suma de las varianzas, el tercer cumulante (que es el tercer momento central) de la suma es la suma de los terceros cumulantes, y así sucesivamente para cada orden de cumulante.
Una distribución con los κn cumulantes dados se puede aproximar a través de una expansión de Edgeworth.
Cumulantes de algunas distribuciones de probabilidad discretas
editar
Las variables aleatorias constantes X = μ. La función de generación acumulada es K(t) =μt. El primer cumulante es κ1 = K '(0) = μ y los otros cumulantes son cero, κ2 = κ3 = κ4 = ... = 0.
Las distribuciones de Bernouilli, (número de éxitos en una prueba con probabilidad p de éxito). La función de generación acumulada es K(t) = log(1 − p + pet). Los primeros cumulantes son κ1 = K '(0) = p y κ2 = K′′(0) = p·(1 − p). Los cumulantes satisfacen una fórmula de recursión.
Las distribuciones geométricas, (número de fallos antes de un éxito con probabilidad p de éxito en cada prueba). La función de generación acumulada es K(t) = log(p / (1 + (p − 1)et)). Los primeros cumulantes son κ1 = K′(0) = p−1 − 1 y κ2 = K′′(0) = κ1p−1. Sustituyendo p = (μ + 1)−1 resulta K(t) = −log(1 + μ(1−et)) y κ1 = μ.
Las distribuciones de Poisson. La función de generación acumulada es K(t) = μ(et − 1). Todos los cumulantes son iguales al parámetro: κ1 = κ2 = κ3 = ... = μ.
Las distribuciones binomiales, (número de éxitos en n pruebas independientes, con probabilidad p de éxito en cada prueba). El caso especial n = 1 es una distribución de Bernoulli. Cada cumulante es exactamente n veces el correspondiente cumulante de la distribución de Bernoulli considerada. La función de generación acumulada es K(t) = n log(1 − p + pet). Los primeros cumulantes son κ1 = K′(0) = np y κ2 = K′′(0) = κ1(1 − p). Sustituyendo p = μ·n−1 da K '(t) = ((μ−1 − n−1)·e−t + n−1)−1 y κ1 = μ. El caso límite n−1 = 0 es una distribución de Poisson.
Las distribuciones binomiales negativas, (número de fallos antes de n éxitos, con probabilidad p de éxito en cada prueba). El caso especial n = 1 es una distribución geométrica. Cada cumulante es exactamente n veces el correspondiente cumulante de la distribución geométrica considerada. La derivada de la función de generación acumulativa es K '(t) = n· ((1 - p)−1· e−t −1) −1. Los primeros cumulantes son κ1 = K '(0) = n· (p−1 − 1), y κ2 = K ' '(0) = κ1· p−1. Sustituyendo p = (μ · n−1 + 1) −1 da K′(t) = ((μ−1 + n−1)e−t − n−1)−1 y κ1 = μ. La comparación de estas fórmulas con las de las distribuciones binomiales explica el nombre de distribución binomial negativa. El caso límite n−1 = 0 es una distribución de Poisson.
Introduciendo la relación varianza-media
las distribuciones de probabilidad anteriores proporcionan una fórmula unificada para la derivada de la función de generación acumulativa:
La segunda derivada es
confirmando que el primer cumulante es κ1 = K′(0) = μ y el segundo cumulante es κ2 = K′′(0) = με. Las variables aleatorias constantes X = μ tienen ε = 0. Las distribuciones binomiales tienen ε = 1 − p para que 0 < ε < 1. Las distribuciones de Poisson tienen ε = 1. Las distribuciones binomiales negativas tienen ε = p−1 para que ε > 1. Nótese la analogía con la clasificación de las secciones cónicas según su excentricidad: círculos ε = 0, elipses 0 < ε < 1, parábolas ε = 1, e hipérbolas ε > 1.
Cumulantes de algunas distribuciones de probabilidad continua
editar
Para la distribución normal con esperanza matemática μ y varianza σ2, la función de generación de cumulantes es K(t) = μt + σ2t2 / 2. La primera y la segunda derivadas de la función de generación de cumulantes son K '(t) = μ + σ2·t y K (t) = σ2.
Los cumulantes son κ1 = μ, κ2 = σ2, y κ3 = κ4 = ... = 0. El caso especial σ2 = 0 es una variable aleatoria constante X = μ.
Algunas propiedades de la función de generación de cumulantes
editar
La función de generación de cumulantes K (t), si existe, es una función continuamente diferenciable y convexa, y pasa a través del origen. Su primera derivada varía monótonamente en el intervalo abierto desde el ínfimo al supremo del soporte de la distribución de probabilidad, y su segunda derivada es siempre estrictamente positiva, excepto en el caso de la distribución degenerada de una sola masa puntual. La función de generación de cumulantes existe si y solo si las colas de la distribución son mayoradas por un decaimiento exponencial, es decir, (véase cota superior asintótica)
donde es la función de distribución. La función de generación de cumulantes tendrá asíntota(s) en el ínfimo de tal c, si existe tal ínfimo, y en el supremo de tal d, si existe tal supremo, de lo contrario será definido para todos los números reales.
Si el soporte de una variable aleatoria X tiene límites finitos superiores o inferiores, entonces su función de generación de cumulantes y = K (t), si existe, se acerca a la asíntota(s) cuya pendiente es igual al supremo y/o al mínimo del soporte,
respectivamente, siempre por encima de estas dos líneas. (Las integrales
proporcionan la intersección con el eje y de estas asíntotas, ya que K(0) = 0).
Para un desplazamiento de la distribución de valor c, Para una masa puntual degenerada en c, la función generadora de cumulantes es la línea recta , y más generalmente, si y solo si X e Y son independientes y sus funciones generadoras de cumulantes existen; (la subindependencia y la existencia de segundos momentos son suficientes para implicar la independencia).[6]
La familia exponencial natural de una distribución puede realizarse cambiando o trasladando K(t), y ajustándolo verticalmente para que siempre pase por el origen: si f es la serie de potencias con función generadora de cumulantes y es su familia exponencial natural, entonces y
Si K(t) es finito para un rango t1 < Re(t) < t2, entonces si t1 < 0 < t2 entonces K(t) es analítica e infinitamente diferenciable para t1 < Re(t) < t2. Además, para t real y t1 < t < t2K(t) es estrictamente convexo, y K' (t) es estrictamente creciente.
Algunas propiedades de los cumulantes
editar
Invarianza y equivarianza
editar
El primer cumulante es equivariante y todos los demás son invariantes. Esto significa que, si se denota con κn (X) el n-ésimo cumulante de la distribución de probabilidad de la variable aleatoria X, entonces para cualquier constante c:
En otras palabras, cambiar una variable aleatoria (agregando c) cambia el primer cumulante (la media) y no afecta a ninguno de los otros.
Homogeneidad
editar
El n-ésimo cumulante es homogéneo de grado n, es decir, si c es una constante, entonces
Aditividad
editar
Si X e Y son variables aleatorias independientes, entonces κn(X + Y) = κn(X) + κn(Y).
Resultado negativo
editar
Dados los resultados para los cumulantes de la distribución normal, podría esperarse encontrar familias de distribuciones para las cuales
κm = κm+1 = ⋯ = 0 para algunos m > 3, con los cumulantes de orden inferior (órdenes 3 a m − 1) que no son cero. No existen tales distribuciones.[7] El resultado subyacente aquí es que la función de generación de cumulantes no puede ser un polinomio de orden finito de grado mayor que 2.
Así que la función de generación de cumulantes es el logaritmo de la función de generación de momentos
El primer cumulante es la esperanza matemática; el segundo y tercer cumulantes son, respectivamente, el segundo y el tercer momento central (el segundo momento central es la varianza); pero los cumulantes superiores no son ni momentos ni momentos centrales, sino más bien funciones polinomiales más complicadas de los momentos.
Los momentos se pueden recuperar en términos de cumulantes mediante la evaluación de la n-ésima derivada de en .
Del mismo modo, los cumulantes se pueden recuperar en términos de momentos mediante la evaluación de la n-ésima derivada de en ,
La expresión explícita para el momento n-ésimo en términos de los primeros n cumulantes, y viceversa, se puede obtener utilizando la fórmula de Faà di Bruno para derivadas más altas de funciones compuestas. En general, se tiene que
De manera similar, si la media viene dada por , la función de generación del momento central está dada por
y el n-ésimo momento central se obtiene en términos de cumulantes como
Además, para n > 1, el n-ésimo cumulante en términos de los momentos centrales es
El n-ésimo momentoμ´n es un polinomio de grado n en los primeros n cumulantes. Las primeras expresiones son:
La notación con comillas distingue los momentos μ′n de los momentos centralesμn. Para expresar los momentos centrales como funciones de los cumulantes, se deben eliminar de estos polinomios todos los términos en los cuales κ1 aparece como un factor:
De manera similar, el n-ésimo cumulante κn es un polinomio de grado n en los primeros n momentos no centrales. Las primeras expresiones son:
Para expresar los cumulantes κn para n > 1 como funciones de los momentos centrales, se deben eliminar de estos polinomios todos los términos en los que μ'1 aparece como un factor:
Para expresar los cumulantes κn para n > 2 como funciones de momentos estándar centrales, también hágase μ'2=1 en los polinomios:
Los cumulantes también están relacionados con los momentos por la siguiente fórmula de recursión:
Cumulantes y particiones
editar
Estos polinomios tienen una notable interpretación combinatoria: los coeficientes permiten contabilizar ciertas particiones de conjuntos. Una forma general de estos polinomios es
donde
Π recorre la lista de todas las particiones de un conjunto de tamaño n;
"B ∈ Π" significa que B es uno de los "bloques" en los que se divide el conjunto; y
| B | es el tamaño del conjunto B.
Por lo tanto, cada monomio es una constante por un producto de cumulantes en el que la suma de los índices es n (por ejemplo, en el término κ3κ22κ1, la suma de los índices es 3 + 2 + 2 + 1 = 8; esto aparece en el polinomio que expresa el octavo momento en función de los primeros ocho cumulantes. Una partición de un número enteron corresponde a cada término. El "coeficiente" en cada término es el número de particiones de un conjunto de miembros de n que colapsan en esa partición del entero n cuando los miembros del conjunto se vuelven indistinguibles.
El cumulante conjunto de varias variables aleatorias X1, ..., Xn se define por una función de generación de cumulantes similar
Una consecuencia es que
donde Π recorre la lista de todas las particiones de { 1, ..., n }, B recorre la lista de todos los bloques de la partición Π, y | Π | es el número de partes en la partición. Por ejemplo,
Si alguna de estas variables aleatorias son idénticas, por ejemplo, X = Y, se aplican las mismas fórmulas, por ejemplo:
Aunque para tales variables repetidas hay fórmulas más concisas. Para vectores aleatorios de media cero,
El cumulante conjunto de una sola variable aleatoria es su valor esperado, y el de dos variables aleatorias es su covarianza. Si algunas de las variables aleatorias son independientes de todas las demás, entonces cualquier cumulante que involucre dos (o más) variables aleatorias independientes es cero. Si todas las variables aleatorias de n son iguales, entonces el cumulante conjunto es el n-ésimo cumulante ordinario.
El significado combinatorio de la expresión de momentos en términos de cumulantes es más fácil de entender que el de los cumulantes en términos de momentos:
Por ejemplo:
Otra propiedad importante de los cumulantes conjuntos es la multilinealidad:
Así como el segundo cumulante es la varianza, el cumulante conjunto de solo dos variables aleatorias es su covarianza. La conocida identidad
se generaliza a los cumulantes:
Cumulantes condicionales y la ley de cumulancia total
editar
Artículo principal: Ley de cumulancia total
La ley de expectativa total y la ley de varianza total se generalizan naturalmente a los cumulantes condicionales. El caso n = 3, expresado en el lenguaje de momentos (centrales) en lugar de en el de los cumulantes, dice
La suma supera a todas las particiones Π del conjunto { 1, ..., n } de los índices, y
Π1, ..., Πb son todos los "bloques" de la partición Π; la expresión κ(XΠm) indica que el conjunto de cumulantes de las variables aleatorias cuyos índices están en ese bloque de la partición.
Relación con la física estadística
editar
En física estadística, muchas propiedades intensivas y extensivas, es decir, cantidades que son proporcionales al volumen o tamaño de un sistema dado, están relacionadas con los cumulantes de variables aleatorias. La conexión profunda es que, en un sistema grande, una cantidad extensa como la energía o el número de partículas se puede considerar como la suma de (por caso) la energía asociada con un número de regiones casi independientes. El hecho de que los cumulantes de estas variables aleatorias casi independientes (casi) se sumen, hace que sea razonable que se espere que grandes cantidades estén relacionadas con los cumulantes.
Un sistema en equilibrio con un baño térmico a temperatura "T" puede ocupar los estados de energía E. La energía E puede considerarse una variable aleatoria, teniendo una densidad de probabilidad. La función de partición del sistema es
donde β = 1 / (kT) y k es la constante de Boltzmann; usando la notación en lugar de para el valor esperado para evitar confusiones con la energía, E. La energía de Helmholtz es entonces
y está claramente muy relacionada con la función de generación de cumulantes para la energía. La energía libre da acceso a todas las propiedades termodinámicas del sistema a través de sus derivadas de orden primero, segundo o superior, como su energía interna, entropía y capacidad calorífica. Debido a la relación entre la energía libre y la función de generación de cumulantes, todas estas cantidades están relacionadas con los cumulantes, por ejemplo, la energía y el calor específico vienen dados por
y simboliza el segundo cumulante de la energía. Otra energía libre a menudo también es una función de otras variables como el campo magnético o el potencial químico , por ejemplo.
donde N es el número de partículas y es el potencial principal. Una vez más, la estrecha relación entre la definición de energía libre y la función de generación de cumulantes implica que varias derivadas de esta energía libre se pueden describir en términos de cumulantes conjuntos de E y de N.
Historia
editar
La historia de los cumulantes ha sido estudiada por Anders Hald.[10][11]
Los cumulantes fueron introducidos por primera vez por Thorvald N. Thiele, en 1889, quien los llamó "semi-invariantes".[12] Fueron llamados cumulantes por primera vez en un artículo[13] de 1932 firmado por Ronald Fisher y John Wishart. Fisher recordó públicamente el trabajo de Thiele a través de Neyman, quien también señala las citas publicadas anteriores de Thiele que llamaron la atención de Fisher.[14] Stephen Stigler señaló que el nombre cumulante fue sugerido a Fisher en una carta de Harold Hotelling. En un artículo publicado en 1929,[15] Fisher los había llamado "funciones de momento acumulativo". La función de partición en física estadística fue introducida por Josiah Willard Gibbs en 1901. La energía libre a menudo se llama energía libre de Gibbs. En física estadística, los cumulantes también se conocen como funciones de Ursell, relacionados con una publicación en 1927.
Cumulantes en entornos generalizados
editar
Cumulantes formales
editar
De manera más general, los cumulantes de una secuencia {mn: n = 1, 2, 3, ...}, no necesariamente los momentos de cualquier distribución de probabilidad, son, por definición,
donde los valores de κn para n = 1, 2, 3, ... se encuentran formalmente, es decir, solo por álgebra, sin tener en cuenta las dudas de si alguna serie converge. Todas las dificultades del "problema de los cumulantes" están ausentes cuando se trabaja formalmente. El ejemplo más simple es que el segundo cumulante de una distribución de probabilidad siempre debe ser no negativo, y es cero solo si todos los cumulantes más altos son cero. Los cumulantes formales no están sujetos a tales restricciones.
Cumulantes de una secuencia polinómica de tipo binomial
editar
Para cualquier secuencia {κn: n = 1, 2, 3, ...} de escalares en un campo de característica cero, que se consideran cumulantes formales, existe una secuencia correspondiente { μ ′: n = 1, 2, 3, ... } de los momentos formales, dados por los polinomios de arriba. Para esos polinomios, es posible construir una sucesión polinómica de la siguiente manera. Fuera del polinomio
constrúyase un nuevo polinomio con una variable adicional x:
y a continuación se generaliza el patrón, consistente en que los números de bloques en las particiones antes mencionadas son los exponentes en x. Cada coeficiente es un polinomio en los cumulantes; estos son los polinomios de Bell, nombrados así en honor del matemático Eric Temple Bell.
Esta secuencia de polinomios es de tipo binomial. De hecho, no existen otras secuencias de tipo binomial; cada secuencia polinomial de tipo binomial está completamente determinada por su secuencia de cumulantes formales.
Cumulantes libres
editar
En la fórmula de momento-cumulante anterior
para los cumulantes conjuntos, se suman todas las particiones del conjunto {1, ..., n}. Si, por el contrario, solo se suman las particiones no cruzadas, al resolver estas fórmulas para en términos de los momentos, se obtienen cumulantes libres en lugar de los cumulantes convencionales tratados anteriormente. Estos cumulantes libres fueron introducidos por Roland Speicher[16] y juegan un papel central en la teoría de probabilidad libre.[17] En esa teoría, en lugar de considerar la independencia de las variables aleatorias, definidas en términos de producto tensorial de variables aleatorias, se considera en cambio la independencia libre de variables aleatorias, definidas en términos de productos libres de álgebras.[17]
Los cumulantes ordinarios de grado superior a 2 de una distribución normal son cero. Los cumulantes libres de grado superior a 2 de la distribución semicircular de Wigner son cero.[17] Este es un aspecto en el cual el papel de la distribución de Wigner en la teoría de probabilidad libre es análogo al de la distribución normal en la teoría de probabilidad convencional.
↑Aapo Hyvarinen, Juha Karhunen, and Erkki Oja (2001) Independent Component Analysis, John Wiley & Sons. (Section 2.7.2)
↑Hamedani, G. G.; Volkmer, Hans; Behboodian, J. (1 de marzo de 2012). «A note on sub-independent random variables and a class of bivariate mixtures». Studia Scientiarum Mathematicarum Hungarica49 (1): 19-25. doi:10.1556/SScMath.2011.1183.
↑Rota, G.-C.; Shen, J. (2000). «On the Combinatorics of Cumulants». Journal of Combinatorial Theory. Series A 91 (1–2): 283-304. doi:10.1006/jcta.1999.3017.
↑Brillinger, D.R. (1969). «The Calculation of Cumulants via Conditioning». Annals of the Institute of Statistical Mathematics21: 215-218. doi:10.1007/bf02532246.
↑
Hald, A. (2000) "The early history of the cumulants and the Expansiones de Edgeworth" International Statistical Review, 68 (2): 137–153. (Reprinted in Steffen L. Lauritzen, ed. (2002). Thiele: Pioneer in Statistics. Oxford U. P. ISBN978-0-19-850972-1. «Thorvald N. Thiele».)
↑Hald, Anders (1998). A History of Mathematical Statistics from 1750 to 1930. New York: Wiley. ISBN978-0-471-17912-2.
↑H. Cramér (1946) Mathematical Methods of Statistics, Princeton University Press, Section 15.10, p. 186.
↑Fisher, R.A., John Wishart, J.. (1932) The derivation of the pattern formulae of two-way partitions from those of simpler patterns, Proceedings of the London Mathematical Society, Series 2, v. 33, pp. 195–208 doi 10.1112/plms/s2-33.1.195
↑Neyman, J. (1956): ‘Note on an Article by Sir Ronald Fisher,’ Journal of the Royal Statistical Society, Series B (Methodological), 18, pp. 288–94.
↑Fisher, R. A. (1929). «Moments and Product Moments of Sampling Distributions». Proceedings of the London Mathematical Society30: 199-238. doi:10.1112/plms/s2-30.1.199.
↑Speicher, Roland (1994), "Multiplicative functions on the lattice of non-crossing partitions and free convolution", Mathematische Annalen, 298 (4): 611–628