Cómo el ataque de Pearl Harbor cambió la estadística de las pruebas diagnósticas

La humillación sufrida por Estados Unidos cambió la metodología con la que se evalúan pruebas como las PCR, con el nacimiento de la curva ROC

Javier Álvarez Liébana Joaquín Martínez Minaya

07 dic 2021 - 19:30CET

Hace 80 años, un 7 de diciembre de 1941, el otrora “Gran Imperio del Japón” atacaba, sin previo aviso y en mitad de una negociación, la base naval más importante de Estados Unidos en el Pacífico: Pearl Harbor. Un día más tarde el presidente Roosevelt declaraba la guerra contra el imperio nipón. Esta humillación no solo cambió el curso de la guerra sino también el de las pruebas diagnósticas.

¿Cómo es posible que no detectasen el ataque? Una de las hipótesis es la carencia de herramientas estadísticas que les permitiesen distinguir una amenaza real de una falsa alarma (provocada por el «ruido» del radar). Por ello, EE UU empezó a trabajar en un clasificador binario para discernirlas, es decir, un método que asigna a las señales la probabilidad de ser ataque real, un valor entre 0 y 1. Además, también necesitaban una herramienta para decidir el umbral de probabilidad a partir del cual una señal sería clasificada como un ataque real o una falsa amenaza. Si hubiesen querido ser conservadores (estableciendo un umbral alto, de 0.8, por ejemplo), muy pocas señales hubiesen sido etiquetadas como ataque real, mientras que si hubiesen querido ser alarmistas (con un umbral bajo, de 0.2), la mayoría de señales hubiesen sido consideradas como ataque real, lo fueran o no.

Simulación de una pantalla de un receptor de rádar. Las líneas verticales reflejan las diferentes señales que recibe, interpretadas como la probabilidad de ser amenaza real obtenida por el clasificador binario: en blanco las falsas amenazas (ruido), en verde los ataques reales. Las líneas horizontales representan dos posibles umbrales para clasificar: en rojo si somos alarmistas, y en naranja si somos más conservadores.

Existen infinitos umbrales y, por tanto, infinitas opciones. Para visualizarlas todas, el ejército estadounidense desarrolló la conocida como Receiver Operating Characteristic Curve o curva ROC. Esta herramienta permite relacionar, para cada clasificador concreto, la proporción de amenazas falsas clasificadas como reales (tasa de falsos positivos) con la sensibilidad o tasa de verdaderos positivos (proporción de ataques reales clasificados como tal), para cada uno de los posibles umbrales.

En el ejemplo anterior ilustrado en la imagen, el umbral rojo clasifica como positivo todos los ataques reales (sensibilidad del 100%) y 24 de las 35 falsas amenazas (tasa de falsos positivos del 68.6%), mientras que el umbral naranja clasifica como positivo solo siete de los 15 ataques reales (46.7%) y ocho de las 35 falsas amenazas (22.9%). Ambos umbrales representan dos puntos particulares de la curva ROC, los puntos (0.686, 1) y (0.229, 0.467). Dependiendo de la tasa de verdaderos y falsos positivos que se esté dispuesto a asumir, seleccionará un punto u otro de la curva ROC, asociado a un umbral específico.

Curva ROC correspondiente a una simulación de una pantalla de un receptor de rádar. Representación de los dos puntos particulares correspondientes a los dos umbrales elegidos (alarmista rojo y conservador en naranja) en la curva ROC.

Dado que la curva ROC nos permite visualizar para los infinitos umbrales cómo funcionan las infinitas formas de clasificar, es una herramienta eficaz para comparar distintos métodos. Basta con observar el área encerrada bajo la curva obtenida con cada uno. Si, para todos los umbrales, un método es capaz de distinguir perfectamente los ataques reales de las falsas amenazas, el área bajo su curva será 1. Conforme el área se va reduciendo, el clasificador reduce su capacidad de distinguir entre ataques reales y falsas amenazas (por ejemplo, un área de 0.5 representaría el área de un método que clasifica completamente al azar).

Esta idea fue usada años más tarde por el radiólogo Lee B. Lusted para estudiar el poder diagnóstico de la radiografía en la detección de la tuberculosis pulmonar. Lusted reunió en 1971 a 10 radiofísicos y les proporcionó radiografías de pecho de 14 000 pacientes. Su misión era decidir si los pacientes tenían tuberculosis o no, tal que la probabilidad de estar enfermo fue calculada como la proporción de expertos que coincidían en ello. En unos pocos casos todos los expertos coincidían, siendo obvio que estaban sanos o enfermos, pero en la mayoría de ellos no había unanimidad. ¿Qué proporción de opiniones eran necesarias para diagnosticar la enfermedad? ¿Bastaba con la mitad o era necesario un consenso mayor? Lusted rescató la curva ROC para visualizar las diferentes opciones basadas en los diferentes umbrales, y así pudo obtener el poder predictivo global de la radiografía como prueba y compararla con otras técnicas.

Curiosamente, al mismo tiempo, en Canadá, se comercializaba el primer test de embarazo, ideado por Margaret Crane, usando esta vez como criterio los niveles de la hormona gonadotropina coriónica en muestras de orina. ¿A partir de qué valores se debía considerar un resultado como positivo (embarazo)? ¿Con niveles superiores a 30 mUI/ml? ¿Superiores a 50? De los infinitos umbrales que se pueden visualizar con la curva ROC, aquel que permite clasificar mejor entre embarazadas y no embarazadas está normalmente comprendido entre 20 y 35 mUl/ml. Con él, la prueba diagnóstica tiene una sensibilidad y especificidad (definida como uno menos la tasa de falsos positivos) cercanas al 100%.

La curva ROC ha sido también clave en las ya conocidas como PCR (qRT-PCR) para la detección del SARS-CoV-2. En estas pruebas se extrae el material genético del virus (ARN), se convierte en ADN (retrotranscripción) y se amplifica realizando ciclos de réplicas, para después añadirle una sonda fluorescente. Cuantos más ciclos, más copias se obtienen y mayor fluorescencia se emite; esa fluorescencia es la que determina si el resultado es positivo o negativo. Para cada umbral de fluorescencia se obtiene una tasa de verdaderos y falsos positivos (enfermos con PCR positiva y negativa, respectivamente). De esta forma, es posible comparar pruebas de distintos fabricantes (en función del área bajo la curva ROC), y elegir, para cada una, el punto de la curva que proporciona las tasas de verdaderos y falsos positivos que se considere adecuada. Las pruebas comercializadas en España tienen una altísima especificidad (99.9%, 0.1% de falsos positivos) y una alta sensibilidad (80-95%).

Todo esto, consecuencia de una batalla que cambió el curso de la bioestadística.

A la izquierda: explicación gráfica de cómo funciona una PCR reflejando con línea discontinua y en azul el umbral a partir del cuál una PCR es positiva. A la derecha: representación gráfica del umbral escogido en la curva ROC

Javier Álvarez Liébana es divulgador (@dadosdelaplace), doctor en Estadística y profesor Ayudante Doctor en la Universidad Complutense de Madrid

Joaquín Martínez Minaya es doctor en Estadística y profesor Ayudante Doctor en la Universitat Politècnica de València

Café y Teoremas es una sección dedicada a las matemáticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matemáticas (ICMAT), en la que los investigadores y miembros del centro describen los últimos avances de esta disciplina, comparten puntos de encuentro entre las matemáticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar café en teoremas. El nombre evoca la definición del matemático húngaro Alfred Rényi: “Un matemático es una máquina que transforma café en teoremas”.

Edición y coordinación: Ágata A. Timón G Longoria (ICMAT).

Puedes seguir a MATERIA en Facebook, Twitter e Instagram, o apuntarte aquí para recibir nuestra newsletter semanal.