Marcar y recuperar es un método comúnmente usado en ecología para estimar el tamaño de una población animal donde no es práctico contar a cada individuo.[1] Una parte de la población es capturada, marcada y liberada. Posteriormente, se capturará otra porción y se contará el número de individuos marcados dentro de la muestra. Dado que el número de individuos marcados dentro de la segunda muestra debe ser proporcional al número de individuos marcados en toda la población, se puede obtener una estimación del tamaño total de la población dividiendo el número de individuos marcados por la proporción de individuos marcados en la segunda muestra. El método es más útil cuando no es práctico contar a todos los individuos de la población. Otros nombres para este método, o métodos estrechamente relacionados, incluyen captura-recaptura, captura-marca-recaptura, marca-recaptura, avistamiento de nuevo, marca-liberación-recaptura, estimación de sistemas múltiples, recuperación de banda, el método Petersen,[2] y el método Lincoln.
Otra aplicación importante de estos métodos es la epidemiología,[3] donde se utilizan para estimar la integridad de la verificación de registros de enfermedades. Las aplicaciones típicas incluyen estimar el número de personas que necesitan servicios particulares (es decir, servicios para niños con discapacidades de aprendizaje, servicios para ancianos médicamente frágiles que viven en la comunidad) o con condiciones particulares (es decir, drogadictos ilegales, personas infectadas con el VIH, etc.).[4]
Por lo general, un investigador visita un área de estudio y usa trampas para capturar a un grupo de individuos vivos. Cada uno de estos individuos se marca con un identificador único (por ejemplo, una etiqueta o banda numerada) y luego se libera ileso de regreso al medio ambiente. En 1896, C. G. Johannes Petersen utilizó por primera vez un método de marcado-recaptura para un estudio ecológico para estimar las poblaciones de solla, Pleuronectes platesa.[5]
Se deja pasar suficiente tiempo para que los individuos marcados se redistribuyan entre la población no marcada.[5]
A continuación, el investigador regresa y captura otra muestra de individuos. Algunas personas de esta segunda muestra habrán sido marcadas durante la visita inicial y ahora se conocen como recapturas.[6] Otros animales capturados durante la segunda visita, no habrán sido capturados durante la primera visita al área de estudio. Estos animales sin marcar generalmente reciben una etiqueta o banda durante la segunda visita y luego son liberados.[5]
El tamaño de la población se puede estimar a partir de tan solo dos visitas al área de estudio. Por lo general, se realizan más de dos visitas, especialmente si se desean estimaciones de supervivencia o movimiento. Independientemente del número total de visitas, el investigador simplemente registra la fecha de cada captura de cada individuo. Las "historias de captura" generadas se analizan matemáticamente para estimar el tamaño, la supervivencia o el movimiento de la población.[5]
Al capturar y marcar organismos, los ecólogos deben considerar el bienestar de los organismos. Si el identificador elegido daña al organismo, entonces su comportamiento puede volverse irregular.
Independientemente del método escogido, este debería asegurar que[7]:
En algunos métodos se requiere la existencia de un periodo de tiempo apreciable entre el marcado y la recaptura para garantizar que los animlaes marcados se distribuyan entre la población.[7]
Dejando
Un biólogo quiere estimar el tamaño de una población de tortugas en un lago. Captura 10 tortugas en su primera visita al lago y les marca el lomo con pintura. Una semana después regresa al lago y captura 15 tortugas. Cinco de estas 15 tortugas tienen pintura en la espalda, lo que indica que son animales recapturados. Este ejemplo es (n, K, k) = (10, 15, 5). El problema es estimar N.
El método Lincoln-Petersen[8] (también conocido como índice Petersen-Lincoln[5] o índice Lincoln) se puede utilizar para estimar el tamaño de la población si solo se realizan dos visitas al área de estudio. Este método asume que la población de estudio es "cerrada". En otras palabras, las dos visitas al área de estudio son lo suficientemente cercanas en el tiempo para que ninguna persona muera, nazca o se mude dentro o fuera del área de estudio entre visitas. El modelo también asume que no se caen marcas de los animales entre visitas al sitio de campo por parte del investigador, y que el investigador registra correctamente todas las marcas.
Dadas esas condiciones, el tamaño de población estimado es:
Se asume que todos los individuos tienen la misma probabilidad de ser capturados en la segunda muestra, independientemente de si fueron capturados previamente en la primera muestra (con solo dos muestras, esta suposición no se puede probar directamente).[9]
Esto implica que, en la segunda muestra, la proporción de individuos marcados que son capturados ( ) debe ser igual a la proporción de la población total marcada ( ). Por ejemplo, si la mitad de los individuos marcados fueran recapturados, se supondría que la mitad de la población total se incluyó en la segunda muestra.
En símbolos,
Una reordenación de esto da
la fórmula utilizada para el método Lincoln-Petersen.[9]
En el ejemplo (n, K, k) = (10, 15, 5) el método Lincoln-Petersen estima que hay 30 tortugas en el lago.
El estimador de Lincoln-Petersen es asintóticamente insesgado a medida que el tamaño de la muestra se acerca al infinito, pero está sesgado en tamaños de muestra pequeños.[10] El estimador de Chapman proporciona un estimador alternativo menos sesgado del tamaño de la población:
El ejemplo (K, n, k) = (10, 15, 5) da
Tenga en cuenta que la respuesta proporcionada por esta ecuación debe ser truncada, no redondeada. Así, el método Chapman estima 28 tortugas en el lago.
Sorprendentemente, la estimación de Chapman fue una conjetura de un rango de posibles estimadores:
"En la práctica, el número entero inmediatamente menor que (K+1)(n+1)/(k+1) o incluso Kn/(k+1) será ser la estimación. La forma anterior es más conveniente para propósitos matemáticos."[10]
Chapman también encontró que el estimador podría tener un sesgo negativo considerable para Kn/N pequeño, pero no le preocupaba porque las desviaciones estándar estimadas eran grandes para estos casos.
Un aproximado , el intervalo de confianza para el tamaño de la población N se puede obtener como: ,
donde corresponde a la cuantil de una variable aleatoria normal estándar, y
.
Se ha demostrado que este intervalo de confianza tiene probabilidades de cobertura reales cercanas a la nominal. nivel incluso para poblaciones pequeñas y probabilidades de captura extremas (cercanas a 0 o 1), en cuyo caso otros intervalos de confianza no alcanzan los niveles de cobertura nominal.[11]
El valor medio ± desviación estándar es
donde
El ejemplo (K, n, k) = (10, 15, 5) da la estimación N ≈ 42 ± 21.5
La probabilidad de captura se refiere a la probabilidad de detectar un animal individual o una persona de interés,[12] y se ha utilizado tanto en ecología como en epidemiología para detectar enfermedades animales o humanas,[13] respectivamente.
La probabilidad de captura se define a menudo como un modelo de dos variables, en el que f se define como la fracción de un recurso finito dedicado a detectar el animal o la persona de interés de un sector de alto riesgo de una población animal o humana, y q es la frecuencia de tiempo en que el problema (por ejemplo, una enfermedad animal) ocurre en el sector de alto riesgo frente al de bajo riesgo.[14] Por ejemplo, una aplicación del modelo en la década de 1920 fue detectar portadores de fiebre tifoidea en Londres, que llegaban de zonas con altas tasas de tuberculosis (probabilidad q de que un pasajero con la enfermedad viniera de dicha zona, donde q>0,5), o tasas bajas (probabilidad 1- q).[15] Se postuló que solo se pudieron detectar 5 de cada 100 de los viajeros y que 10 de cada 100 procedían de la zona de alto riesgo. Entonces, la probabilidad de captura P se definió como:
donde el primer término se refiere a la probabilidad de detección (probabilidad de captura) en una zona de alto riesgo, y el último término se refiere a la probabilidad de detección en una zona de bajo riesgo. Es importante destacar que la fórmula se puede reescribir como una ecuación lineal en términos de f :
Debido a que esta es una función lineal, se deduce que para ciertas versiones de q para las cuales la pendiente de esta línea (el primer término multiplicado por f) es positiva, todo el recurso de detección debe dedicarse a la población de alto riesgo (f debe establecerse en 1 para maximizar la probabilidad de captura), mientras que para otro valor de q, para el cual la pendiente de la línea es negativa, toda la detección debe dedicarse a la población de bajo riesgo (f debe establecerse en 0. Podemos resolver la ecuación anterior para los valores de q para los cuales la pendiente será positiva para determinar los valores para los cuales f debería establecerse en 1 para maximizar la probabilidad de captura:
que se simplifica a:
Este es un ejemplo de optimización lineal.[14] En casos más complejos, donde más de un recurso f se dedica a más de dos áreas, se suele utilizar la optimización multivariante, a través del algoritmo simplex o sus derivados.
Existen modelos estadísticos muy elaborados disponibles para el análisis de estos experimentos.[16] Un modelo simple que se adapta fácilmente a las tres fuentes, o al estudio de tres visitas, es ajustar un modelo de regresión de Poisson. Los modelos sofisticados de marcado y recaptura pueden adaptarse a varios paquetes para el lenguaje de programación Open Source R. Estos incluyen "Captura-Recaptura Espacialmente Explícita (secr)",[17] "Modelos Loglineales para Experimentos de Captura-Recaptura (Rcapture)",[18] y "Muestreo de Distancia de Marca-Recaptura (mrds)".[19] Estos modelos también pueden adaptarse a programas especializados como MARK[20] o M-SURGE.[21]
Otros métodos relacionados que se utilizan a menudo incluyen el modelo Jolly-Seber (utilizado en poblaciones abiertas y para estimaciones de censos múltiples) y los estimadores de Schnabel[22] (descritos anteriormente como una expansión del método Lincoln-Petersen para poblaciones cerradas).[23]
El modelado de datos de marcado-recaptura tiende hacia un enfoque más integrador,[24] que combina los datos de marcado-recaptura con modelos de dinámica de población y otros tipos de datos. El enfoque integrado es más exigente desde el punto de vista computacional, pero extrae más información de los datos mejorando los parámetros y las estimaciones de incertidumbre.[25]