En la teoría estadística de la estimación, estimar el máximo de una distribución uniforme discreta es un ejemplo común de las diferencias entre métodos de estimación. El caso específico de tomar muestras sin reemplazo de una distribución uniforme discreta es conocido en el mundo angloparlante como problema de los tanques alemanes debido a su aplicación real durante la Segunda Guerra Mundial a la estimación del número de tanques alemanes.
Estimar el máximo de una población basándose en una única muestra suscita cuestiones filosóficas sobre la evaluación de estimadores y probabilidad (particularmente el sesgo de un estimador de máxima probabilidad) y puede llevar a resultados divergentes, mientras que la estimación basada en múltiples muestras se usa en la educación estadística elemental como una cuestión instructiva en la estimación práctica cuya solución es simple pero no obvia.
El problema es habitualmente expuesto en el caso de una distribución discreta, pero un análisis virtualmente idéntico es también correcto para una distribución continua.
Se puede formular el problema de la estimación del máximo en una población de la siguiente manera:
Para la estimación puntual (estimar un valor único para el total), el estimador de mínima varianza sin sesgo viene dado por la fórmula:
donde m es el mayor número de serie observado (máximo de la muestra) y k es el número de tanques observado (tamaño de la muestra).[1] [2] [3] La fórmula puede entenderse como
En la primera ecuación, el primer sumando es el máximo y el segundo sumando es el hueco medio.
El nombre del estimador (sin sesgo) se puede entender si consideramos que estamos tomando el máximo de la muestra como nuestra estimación básica y luego corrigiendo su sesgo, tendente a "subestimar" el verdadero máximo de la población, puesto que el máximo en la muestra puede ser igual o menor, pero nunca mayor que el máximo de la población.
Nótese que, debido a la suposición de que no hay reemplazo, una vez se ha observado un número de serie, ya no se encuentra en el repositorio de observaciones y no puede volver a ser visto.
En tiempos de guerra, un objetivo clave de la inteligencia militar es determinar la fuerza numérica del enemigo: en la Segunda Guerra Mundial, los Aliados querían estimar el número de tanques que tenían los alemanes, y trataron de solucionar este problema desde dos enfoques diferentes: la recopilación de fuentes de inteligencia convencionales, y la estimación estadística. El enfoque estadístico resultó ser mucho más preciso que los métodos convencionales de inteligencia, según demostró el análisis a posteriori publicado por Ruggles y Brodie.[4][notes 1] En algunos casos el análisis estadístico contradijo y mejoró sustancialmente la inteligencia convencional; en otros, la inteligencia convencional y el enfoque estadístico trabajaron juntos, como por ejemplo en la estimación de la producciones de tanques Panther, discutida más adelante. Estimar la producción no fue el único uso de este análisis de números en serie; se utilizó también para comprender la producción alemana más generalmente, incluyendo el número de fábricas, la importancia relativa de cada una de ellas, la longitud de las cadenas de suministros (basándose en el retraso entre producción y uso de los tanques), cambios en la producción, y el uso de recursos como el caucho.
Para estimar el número de tanques producidos hasta un momento determinado, los Aliados usaron los números de serie de los tanques. Los números usados principalmente fueron los de la caja de cambios, puesto que esto formaban dos secuencias no interrumpidas. Los números de chasis y de motor fueron también usados, aunque su utilización resultó más compleja. Varios otros componentes fueron utilizados para la comprobación cruzada del análisis. Análisis similares fueron hechos sobre los neumáticos[4] al observarse que éstos también estaban numerados secuencialmente (por ejemplo desde 1 hasta N).[notes 2][5][6]
Según las estimaciones de la inteligencia convencional aliada, los alemanes estaban produciendo en torno a 1400 tanques por mes entre junio de 1940 y septiembre de 1942. Aplicando la fórmula citada más abajo a los números de serie de los tanques alemanes capturados (tanto aquellos que aún estuvieran en estado de ser utilizados como aquellos parcialmente destruidos), el número resultante se calculó en 256 al mes. Después de la guerra, las cifras de producción oficiales, obtenidas de documentos incautados en el Ministerio de la Guerra de Albert Speer, mostraron que el número real fue de 255.[5]
Se han citado las siguientes estimaciones para algunos meses específicos:[7][8]
Mes | Estimación estadística | Estimación de inteligencia | Registro alemán |
Junio de 1940 | 169 | 1000 | 122 |
Junio de 1941 | 244 | 1550 | 271 |
Agosto de 1942 | 327 | 1550 | 342 |
Poco antes del Día D, siguiendo los rumores de una gran producción de tanques Panther obtenidos por la inteligencia convencional, un análisis de las marcas en la carretera de dos tanques (consistentes cada una de 48 ruedas, para un total de 96 ruedas) obtuvo una estimación de 270 Panthers producidos en febrero de 1944, substancialmente más de lo que se sospechaba previamente; los registros alemanes hallados tras la guerra mostraron que la producción para ese mes fue de 276.[9] Específicamente, el análisis de las huellas dieron una estimación para el número de moldes usados para fabricar las ruedas; una consulta a los productores de ruedas para carretera en Gran Bretaña estimó a continuación cuál era el número de ruedas que era posible producir con ese número de moldes.
Análisis similares sobre los números de serie fueron utilizados para otros tipos de pertrechos militares, con el mayor éxito en la estimación de la producción de cohetes V-2[10]
Durante la Segunda Guerra Mundial, la inteligencia alemana analizó las marcas de fábrica de los vehículos militares soviéticos, y durante la Guerra de Corea, las marcas de fábrica en los vehículos soviéticos fueron de nuevo analizadas, esta vez por los americanos. Los soviéticos también estimaron la producción de tanques alemana durante la Segunda Guerra Mundial.[11]
En los años 80, algunos ciudadanos estadounidenses obtuvieron acceso a la línea de producción de los tanques israelíes Merkava. Los números de producción eran secretos, pero los tanques tenían números de serie, permitiendo una estimación de la producción.[1]
Para evitar el análisis de números de serie, uno puede simplemente no incluir número de serie en el equipamiento militar, o reducir la información auxiliar que pueda ser usable. Alternativamente, se pueden diseñar números de serie que resistan el criptoanálisis; la manera más efectiva es elegir números al azar y sin reemplazo de una lista que sea mucho más larga que el número de objetos a producir (véase la técnica de la libreta de un solo uso para el cifrado de mensajes), o simplemente producir números al azar y compararlos con la lista de números ya asignados; las colisiones tienen posibilidad de aparecer mientras el número de dígitos posible no sea mayor del doble de los dígitos en el número de objetos a producir (aquí el número de serie puede estar expresado en base decimal, base hexadecimal o en cualquier base); véase la paradoja del cumpleaños.[notes 3] Para esto, se puede usar un generador de números pseudoaleatorios criptográficamente seguro. Con menor grado de seguridad, para evitar problemas de búsqueda, se puede usar cualquier generador de números pseudoaleatorios con un periodo largo, que garantice la ausencia de colisiones. Todos estos métodos requieren de una tabla de consulta (o romper el cifrado) para recuperar desde los números de serie el orden de producción, lo que dificulta el uso de los números de serie: uno no puede simplemente recordar un rango de números de serie, por ejemplo, sino que debe consultar individualmente cada uno de ellos, o generar una lista.
Alternativamente, se podrían usar números de serie secuenciales y encriptarlos, lo que permitiría una descodificación sencilla, pero entonces existe un ataque de texto plano conocido: aunque uno empiece desde un punto arbitrario, el texto plano tiene un patrón (a saber, los números forman una secuencia).