Estadísticamente significativo ≠ Clínicamente relevante: Descifrando ensayos clínicos para terapeutas
⏱️ Tiempo de lectura: 8 minutos | 🧠 Para: Terapeutas que acompañan pacientes medicados
La conversación que me hizo reflexionar
"He probado cuatro antidepresivos diferentes. Cada uno estaba 'científicamente probado', según mi psiquiatra. Pero ¿sabes qué? Ninguno me hizo sentir significativamente mejor. ¿Cómo puede algo estar científicamente probado y aun así no funcionar?"
Carlos, un consultante de 41 años, me planteó esta pregunta durante nuestra sesión .
Es una pregunta que revela una desconexión fundamental entre lo que la literatura científica afirma sobre la eficacia de los fármacos psiquiátricos y lo que muchos pacientes experimentan en la vida real.
Como terapeutas que trabajamos con personas medicadas, navegamos constantemente esta brecha.
Para hacerlo efectivamente, necesitamos entender la diferencia crucial entre significación estadística y relevancia clínica en los ensayos que fundamentan las aprobaciones de psicofármacos.
El malentendido fundamental: significación estadística
Cuando escuchamos que un medicamento es "científicamente probado" o "estadísticamente superior al placebo", la mayoría asume intuitivamente que el fármaco produce una mejora sustancial, claramente perceptible para el paciente.
Sin embargo, la realidad metodológica es muy diferente.
Para que un fármaco psiquiátrico sea aprobado por las agencias reguladoras, solo necesita demostrar "significación estadística" frente a placebo en dos ensayos clínicos (incluso si muchos otros ensayos no muestran diferencias).
La significación estadística (típicamente p<0.05) simplemente indica que la diferencia observada es improbable que se deba al azar.
No dice nada sobre la magnitud o relevancia clínica de esa diferencia.
Traduciendo puntuaciones a experiencia real
👎 Creencia común: Un medicamento "estadísticamente superior" al placebo produce mejoras notables en el bienestar del paciente.
👍 Evidencia actual: Los metaanálisis de Kirsch (2008) y Moncrieff (2009) han demostrado que para antidepresivos, la diferencia promedio frente a placebo es de aproximadamente 2 puntos en la escala Hamilton (HAMD-17) de 52 puntos. Esta diferencia, aunque estadísticamente significativa en estudios con grandes muestras, está muy por debajo del umbral de perceptibilidad clínica.
Escala Hamilton para Depresión (HAMD-17): Contextualizando las diferencias
La escala HAMD-17, utilizada en la mayoría de ensayos de antidepresivos, tiene una puntuación máxima de 52.
Los investigadores independientes han establecido que se necesita una reducción de al menos 7-8 puntos para que un cambio sea clínicamente perceptible para los pacientes.
Sin embargo:
El efecto placebo típicamente produce una reducción de ~8-9 puntos.
Los antidepresivos producen una reducción de ~10-11 puntos.
La diferencia real antidepresivo vs. placebo es de ~1.8-2.5 puntos.
Esta diferencia de 2 puntos, aunque "estadísticamente significativa", está muy por debajo del umbral de perceptibilidad clínica de 7-8 puntos.
El problema del número necesario a tratar (NNT)
Otro concepto útil para interpretar la relevancia clínica es el Número Necesario a Tratar (NNT): cuántos pacientes necesitan recibir un tratamiento para que uno obtenga un beneficio significativo comparado con placebo.
Para contextualizar:
Antibióticos para infecciones bacterianas: NNT = 1.1-1.5.
Estatinas para prevención primaria: NNT = 60.
Antidepresivos para depresión (Cipriani, 2018): NNT = 8-10.
Esto significa que por cada 8-10 personas que toman un antidepresivo, solo 1 obtendrá un beneficio que no habría conseguido con placebo. Las otras 7-9 personas experimentarán:
El efecto placebo (que podría conseguirse sin exposición a efectos adversos).
Ningún efecto.
Efectos adversos sin beneficio terapéutico.
Problemas metodológicos que inflan la eficacia aparente
Incluso la modesta superioridad estadística reportada está probablemente sobreestimada debido a varios problemas metodológicos:
Sesgo de publicación selectiva: El análisis de Turner et al. (2008) demostró que aproximadamente el 31% de los ensayos de antidepresivos registrados en la FDA nunca se publicaron. De los estudios no publicados, el 94% tuvieron resultados negativos o ambiguos.
"Outcome switching": Cambio de variables de resultado principales cuando las originalmente designadas no muestran diferencias significativas.
Ruptura efectiva del ciego: Los efectos secundarios permiten a pacientes y evaluadores identificar quién recibe el fármaco activo vs. placebo, inflando las puntuaciones por expectativa.
Población de estudio no representativa: Los ensayos excluyen sistemáticamente pacientes con comorbilidades, ideas suicidas, o resistencia previa a tratamientos.
Duración inadecuada: La mayoría de ensayos duran 6-8 semanas, pero los fármacos se prescriben típicamente durante años o décadas.
La Escala Hamilton: midiendo lo incorrecto
Un problema adicional es que la escala Hamilton (HAMD-17), utilizada en la mayoría de ensayos de antidepresivos, es metodológicamente problemática:
6 de los 17 ítems evalúan problemas de sueño, que son fácilmente modificados por efectos sedantes.
Asigna solo 2 puntos al estado de ánimo deprimido (el síntoma central).
Asigna 1 punto a pensamientos suicidas (potencialmente el síntoma más grave).
Esta estructura permite que medicamentos con efectos principalmente sedantes mejoren las puntuaciones sin necesariamente mejorar los aspectos centrales de la depresión.
Joanna Moncrieff señala que esto explica por qué los sedantes puros como las benzodiacepinas también "mejoran" las puntuaciones en la escala Hamilton, aunque no están considerados antidepresivos.
Aplicación práctica: comunicación honesta
1. En lugar de decir: "Este medicamento ha demostrado ser efectivo para la depresión."
Prueba esto: "Los estudios muestran que, en promedio, aproximadamente 1 de cada 8-10 personas experimentará un beneficio superior al placebo con este medicamento. Para el resto, los efectos serán similares a placebo, nulos, o principalmente adversos."
2. En lugar de decir: "Si el primer antidepresivo no funciona, probamos con otro hasta encontrar el adecuado."
Prueba esto: "Si no has notado beneficios claros con el primer antidepresivo, es importante evaluar si este abordaje farmacológico es el más adecuado para ti, considerando también alternativas con evidencia comparable."
3. En lugar de decir: "El medicamento tarda 4-6 semanas en hacer efecto completo."
Prueba esto: "Aunque algunos efectos pueden tardar semanas en desarrollarse completamente, los estudios muestran que la mayoría de los beneficios que superan al placebo se observan en las primeras 2 semanas. Si no has notado ninguna mejora en este período, es menos probable que aparezca posteriormente."
Herramientas para evaluar resultados significativos
Como terapeutas, podemos ayudar a evaluar si la medicación está produciendo beneficios clínicamente relevantes, más allá de fluctuaciones normales o efectos placebo:
Evaluación funcional estructurada: Evaluar cambios en funcionamiento concreto (trabajo, relaciones, autocuidado) no solo síntomas reportados.
Escala de cambio percibido: Utilizar escalas como la CGI (Clinical Global Impression) que evalúan cambio general perceptible.
Valoración coste-beneficio: Evaluación sistemática de beneficios experimentados vs. efectos adversos.
Monitorización de trayectorias previas: Comparar la evolución actual con patrones previos de remisión/recuperación.
Multiinformantes: Incorporar perspectivas de personas cercanas sobre cambios observables.
Alternativas con evidencia comparable
Un aspecto raramente comunicado a los pacientes es que existen intervenciones no farmacológicas con tamaños de efecto comparables o superiores a los psicofármacos para muchas condiciones:
Depresión leve-moderada: El metaanálisis de Cuijpers (2014) mostró que la Terapia de Activación Conductual tiene un tamaño de efecto de 0.87 vs. 0.33 de antidepresivos.
Ansiedad: El metaanálisis de Bandelow (2015) encontró que la Terapia Cognitivo-Conductual tiene eficacia comparable a farmacoterapia para trastornos de ansiedad, con menor tasa de abandono y efectos más duraderos.
Insomnio: La TCC para insomnio ha demostrado en múltiples estudios ser superior a farmacoterapia a medio y largo plazo, sin riesgos de dependencia.
Estas opciones rara vez se presentan como alternativas de primera línea equivalentes, a pesar de la evidencia comparable, posiblemente debido a factores económicos, inercia clínica, y mayor facilidad logística de la prescripción.
Preguntas para reflexionar
¿Cómo podemos traducir datos estadísticos complejos en información significativa y práctica para nuestros pacientes?
¿Cómo influye nuestra comprensión de la evidencia científica en nuestra forma de acompañar a pacientes que están considerando opciones farmacológicas?
¿Qué responsabilidad tenemos como terapeutas para complementar la información que los pacientes reciben de sus prescriptores?
Para profundizar
Lectura accesible: "Unhinged: The Trouble with Psychiatry" - Daniel Carlat
Artículo científico: "Initial Severity and Antidepressant Benefits: A Meta-Analysis of Data Submitted to the Food and Drug Administration" - Kirsch et al. (2008), PLOS Medicine
💡 EN LA PRÓXIMA EDICIÓN
Exploraremos las metáforas que utilizamos para explicar los trastornos mentales ("desequilibrio químico", "es como la diabetes") y cómo estas narrativas afectan las expectativas de tratamiento y la autoimagen de los pacientes.
Furor Medicandi existe para apoyar a terapeutas que acompañan a pacientes en tratamiento farmacológico. Si encontraste útil esta información, considera compartirla con colegas que podrían beneficiarse.