Introducción
Los sistemas de evaluación de severidad o de puntuación pronóstica de la enfermedad como APACHE (Acute Physiology and Chronic Health Evaluation),1 SAPS (Simplified Acute Physiology Score),2 MPM (Mortality Probability Models),3 y SOFA (Sequential Organ Failure Assessment)4 fueron elaborados con el propósito de evaluar el pronóstico individual de los pacientes y guiar su cuidado.
Su creación se realiza a través de la selección subjetiva de variables clínicas y fisiológicas, las cuales son adaptables a modelos de regresión logística con el objetivo de predecir variables significativas. Posteriormente, son expuestos a regresión logística múltiple para determinar las variables que predicen la supervivencia, y por último, son reexaminados de manera prospectiva para validar la exactitud de la predicción.5
Se considera que un adecuado sistema de puntuación pronóstica debe presentar las siguientes características:5
Discriminación: habilidad de un modelo para distinguir entre un paciente que vivirá y uno que morirá basándose en curvas ROC (verdaderos positivos versus 1- falsos positivos).
Calibración: comparación entre la mortalidad observada y la presentada dentro de los datos de severidad. Se toma como modelo matemático la “bondad de ajuste” de Hosmer-Lemeshow.
Confiabilidad: acuerdo entre y dentro del observador en el uso de cualquier escala de severidad, tomando en cuenta que entre mayor subjetividad, menor confiabilidad. Se utiliza como modelo matemático al índice κ (kappa).
Validación del contenido: una adecuada comprensión del modelo.
Rigor metodológico: con el objetivo de evitar el sesgo.
Con el objetivo de ampliar el panorama de estas escalas, se han utilizado con propósitos administrativos para evaluar el desempeño de las unidades de terapia intensiva y en estudios controlados aleatorizados en investigación médica.5 También se han pretendido emplear como criterio para ingreso, para adecuar el grado de monitorización y para decidir el alta de los pacientes. No obstante, no existen datos que demuestren su utilidad en estas indicaciones.6
Debido a que las escalas requieren de un mejoramiento continuo, ha sido necesario el desarrollo de múltiples versiones de estas. Esto se puede ver, por ejemplo, para la escala APACHE, con sus versiones II,7 III8 y IV,9 así como para MPM, con diversas variantes de sus versiones que incluyen distintos modelos con distintas mediciones a las cero, 24, 48 y 72 horas,3,10-13) y con SAPS, con sus versiones I,2 II14 y III.15
Dentro de la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal (UTI-HAP), son dos las escalas que se utilizan de manera cotidiana: SAPS III15 y SOFA.4
La escala SAPS en su tercera versión se realizó en 2003 y comenzó a aplicarse en 2005.5 Se formuló a partir de 19,577 pacientes de 307 unidades de terapia intensiva entre el 14 de octubre y el 15 de diciembre de 2002, y en su validación se incluyeron 35 países divididos en siete regiones: Austra-asia, Sudamérica y Centroamérica, Europa Central y Europa de Oriente, Europa del Este, Norteamérica, Europa del Norte y Europa del Sur y países del Mediterráneo.15 Se creó con la necesidad de incluir factores clínicos y no clínicos que se presentan en la unidad de terapia intensiva y que podrían tener un impacto importante en el pronóstico del paciente.15 Se representa por la suma aritmética de tres puntuaciones parciales o cajas, que por medio de un modelo matemático logarítmico determinan la probabilidad de muerte al egreso hospitalario:
Caja I. Lo que sabemos de las características del paciente antes de su ingreso a la UTI. Está compuesta por cinco variables: edad, comorbilidades, uso de drogas vasoactivas previamente a la admisión a la UTI y tiempo de estancia en el hospital antes de la admisión a la UTI.15
Caja II. Lo que sabemos acerca de la circunstancias de admisión a la UTI. Está compuesta también de cinco variables: razón de ingreso a la UTI, admisión planeada o no planeada, estatus quirúrgico al momento de su admisión a la UTI, sitio anatómico de la cirugía y presencia de la infección antes del ingreso a la UTI.15
Caja III: Lo que sabemos de la presencia y grado de alteración fisiológica al ingreso a la UTI (hasta una hora antes de la admisión). Está compuesta de 10 variables: puntaje más bajo en la escala de Glasgow, frecuencia cardiaca más alta, presión sistólica más baja, bilirrubina más alta, temperatura corporal más alta, creatinina más alta, leucocitos más altos, niveles de plaquetas más bajos, menor concentración de iones de hidrógeno (pH) y presencia de soporte ventilatorio y oxigenación.15
En cuanto a la escala de evaluación SOFA, fue originalmente descrita como un continuo en la disfunción orgánica en pacientes críticos en el curso de su estancia en la UTI, considerando al fallo orgánico como un estado dinámico cuya descripción de la disfunción debe basarse en variables simples, específicas del órgano en cuestión y rutinariamente disponible en todas partes.3 Se compone de seis sistemas orgánicos (respiratorio, de coagulación, hepático, cardiovascular, neurológico y renal) graduados de cero a cuatro y fue planeada para describir la morbilidad de los pacientes;3 sin embargo, un estudio retrospectivo demostró una mejor relación con la mortalidad.16
El presente trabajo buscará evaluar el desempeño de los sistemas de puntuación pronóstica SAPS III y SOFA en la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal.
Material y métodos
La investigación se desarrolló como un estudio retrospectivo de cohorte. Se incluyó a todos los pacientes mayores de 18 años ingresados a la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal en un periodo comprendido entre el 01 de enero de 2016 y el 30 de junio de 2017, en quienes se realizó una evaluación SAPS III y/o SOFA a su ingreso. Se excluyeron todos aquellos cuya estancia en la Unidad de Terapia Intensiva fue menor a 24 horas, aquellos ingresados a la Unidad de Cuidados Coronarios, quienes ingresaron a nuestra unidad como parte de una estrategia administrativa de optimización de espacio y quienes para el 30 de junio de 2017 aún se encontraban dentro de la Unidad de Terapia Intensiva. Asimismo, se excluyó a aquellos que reingresaron a la UTI-HAP en la misma hospitalización y aquellos en quienes se limitaron los esfuerzos terapéuticos. Por último, eliminamos a los pacientes cuyos datos fueron considerados incompletos al momento de la recolección de los mismos por el equipo de investigación.
Al momento del ingreso de la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal, se calculó la mortalidad pronosticada para SAPS III y el puntaje de SOFA. Con el objetivo de evitar el sesgo por operador, se efectuaron las siguientes intervenciones: primero, se estandarizó la fuente de ambas escalas. En el caso de SAPS III, se utilizó la “hoja de cálculo de puntuación SAPS 3” suministrada por el SAPS 3 Outcomes Research Group (SORG),17 mientras que en el caso del puntaje de SOFA, se realizó con base en la Tabla 1, referenciada en su artículo original.4
Variable | Frecuencia/mediana | Shapiro-Wilk | p |
---|---|---|---|
Sexo | Femenino 180 (40.9%) | ||
Masculino 260 (59.1%) | |||
Edad años | 65 años* p25 = 46, p75 = 76, r = 79 | 0.960 | 0.00 |
Días de estancia | 2 días* p25 = 1, p75 = 5, r = 73 | 0.495 | 0.00 |
Fuente de ingreso a la UTI | Urgencias 191 (43.4%) | ||
Hospitalización 55 (12.5%) | |||
UTIM 33 (7.5%) | |||
Quirófano 161 (36.6%) | |||
Condición clínica de ingreso | A. Falla orgánica 224 (50.9%) | ||
B. Riesgo de falla orgánica 69 (15.7%) | |||
C. Cuidados especiales 147 (33.4%) |
*Mediana. p25 = percentil 25, p75= percentil 75, r = rango.
Posteriormente, se realizó una capacitación del personal a cargo de la evaluación del SAPS III y la escala SOFA, que en nuestra unidad son los médicos residentes y adscritos. Esta capacitación se llevó a cabo en un sistema tutorial persona a persona durante un mes. Más tarde, se efectuó una evaluación del tipo two-point verification, que consiste en la comprobación de la escala por medio de los residentes de mayor jerarquía o por el médico de guardia -en caso de que la primera valoración hubiera sido hecha por el médico residente de mayor jerarquía- (primer punto de verificación), y posteriormente, por el médico adscrito a cargo de la recepción de guardia, quien al momento de verificar la evaluación plasma su firma en el ingreso del paciente (segundo punto de verificación). Por último, el cumplimiento de la evaluación de las dos escalas es calificado por el jefe de la unidad.
La validación de los sistemas fue probada evaluando la calibración y discriminación de las pruebas. La discriminación (habilidad de un modelo para distinguir entre un paciente que vivirá y uno que morirá) se realizó por medio de las curvas ROC y su área bajo la curva, con un intervalo de confianza de 95%. La calibración (comparación entre la mortalidad observada y la presentada) se realizó por medio de las curvas entre la mortalidad calculada y la mortalidad esperada, utilizando la prueba de bondad de ajuste Lemeshow-Hosmer para determinar si la discrepancia fue estadísticamente no significativa (p > 0.05). Debido a que no existe un estudio que relacione la mortalidad esperada en la escala SOFA, no se podría hacer una adecuada calibración sin recurrir a un sesgo importante. Por lo anterior, en su lugar, se decidió realizar una evaluación de la sensibilidad y la especificidad, con sus respectivos valores predictivos positivos y negativos.
Para el resto del análisis, se utilizó la estadística con medidas de tendencia central y de dispersión para describir las características generales de la cohorte, utilizando la prueba estadística Shapiro-Wilk para establecer la normalidad de cada una de nuestras variables cuantitativas. Se consideró como estadísticamente significativa a una p < 0.05. El análisis estadístico en su totalidad fue realizado con el programa SPSS v. 19.
Resultados
Durante el periodo comprendido entre el 01 de enero de 2016 y el 30 de junio de 2017 se reportaron 1,071 ingresos a la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal. Siguiendo nuestros criterios de inclusión, exclusión y eliminación, establecimos una cohorte de 440 individuos. La razón de pacientes que conformaron parte de la cohorte se demuestra en la Figura 1.
Análisis descriptivo de la cohorte
Nuestra cohorte se conformó de 440 pacientes. De ellos, 40.9% (n = 180) fueron del sexo femenino y 59.1% (n = 260) del sexo masculino. La mediana de edad presentada fue de 65 años, con un percentil 25 de 46 años y un percentil 75 de 76 años, con un rango de 79 años. La mediana de días de estancia en la Unidad de Terapia Intensiva fue de dos días, con un percentil 25 de un día y un percentil 75 de cinco días, con un rango de 73 días. Con respecto a su fuente de ingreso a la Unidad de Terapia Intensiva, 191 provinieron del Servicio de Urgencias, 55 del Área de Hospitalización, 33 de la Unidad de Terapia Intermedia y 161 del Área de Quirófanos. Respecto a la condición clínica de ingreso, estatificamos a los pacientes en condición clínica A o falla orgánica, 224 ingresos (50.9%); condición clínica B o en riesgo de falla orgánica, 69 ingresos (15.7%), y condición clínica C o cuidados especiales, 147 ingresos (33.4%). Este análisis descriptivo de nuestra cohorte, con sus respectivas pruebas de normalidad, se muestra en la Tabla 1.
Mortalidad
Se prosiguió a buscar la incidencia de mortalidad en nuestra cohorte; esta fue de 11.1% (n = 49).
SAPS III
En nuestro estudio, encontramos que la puntuación de SAPS III presentó una distribución anormal (Shapiro-Wilk de 0.826, p = 0.00), con una mediana de 15 puntos, un percentil 25 de cinco puntos, percentil 75 de 36 puntos, con un mínimo de cero puntos, un máximo de 98 puntos (rango de 98 puntos) y una moda de un punto.
SAPS III. Discriminación
Posteriormente, proseguimos a evaluar la discriminación (habilidad de un modelo para distinguir entre un paciente que vivirá y uno que morirá) de la prueba, por lo que se calculó el área bajo la curva, la cual fue de 0.852 ± 0.030, con un intervalo de confianza de 95% de 0.793 a 0.912, con una p = 0.00. Lo anterior se muestra en la Figura 2.
SAPS III. Calibración
Para evaluar la calibración (comparación de la mortalidad observada contra la presentada dentro de los datos de severidad) del SAPS III en nuestra UTI-HAP, se utilizó la prueba de bondad de ajuste Lemeshow-Hosmer, la cual se calculó de 0.852 ± 0.30 con una p = 0.362, lo cual traduce que no se encontró una diferencia estadísticamente significativa entre la mortalidad esperada y la presentada en la unidad.
SOFA
En nuestro estudio encontramos que la puntuación de SOFA presentó una distribución anormal (Shapiro-Wilk de 0.826, p = 0.00), con una mediana de dos puntos, un percentil 25 de un punto, percentil 75 de seis puntos. Un mínimo de cero puntos, un máximo de 17 puntos (rango de 17 puntos) y una moda de cero puntos.
SOFA. Discriminación
Al evaluar la discriminación (habilidad de un modelo para distinguir entre un paciente que vivirá y uno que morirá) de la prueba, encontramos un área bajo la curva de 0.859 ± 0.025, con un intervalo de confianza de 0.810 a 0.908, con una p = 0.00. Lo anterior se muestra en la Figura 3.
SOFA. Calibración
Tal y como se explicó en la metodología, debido a que no existe un estudio que relacione la mortalidad esperada en la escala de SOFA, no se podría hacer una adecuada calibración sin recurrir a un sesgo importante, por lo que se buscó la sensibilidad y especificidad de la prueba. Se determinó como el punto de mayor discriminación (sensibilidad de 0.776 y 1-especificidad de 0.263) a cinco, con lo que se encontró una sensibilidad de 75% y una especificidad de 74%, así como un valor predictivo positivo de 26% y un valor predictivo negativo de 96% (Tabla 2).
Discusión de resultados
Para realizar una evaluación objetiva de SAPS III y SOFA como sistema de puntuación en la Unidad de Terapia Intensiva del Hospital Ángeles Pedregal, se buscó que estas presentaran una adecuada discriminación y calibración.
Respecto a la discriminación, encontramos en este estudio para SAPS III un área bajo la curva de 0.852 ± 0.030 (IC 95% 0.793-0.912; p = 0.00), y para SOFA, un área bajo la curva de 0.859 ± 0.025 (IC 95% 0.810 a 0.908; p = 0.00). Estos valores no solo muestran una adecuada discriminación, sino que son similares a lo encontrado previamente; podemos ver un ejemplo de esto en el estudio realizado por López-Caler y colaboradores18 en el que se buscó validar a SAPS III, por lo que se reunió una muestra de 2,171 pacientes, de la que se obtuvo una mortalidad del 11.6%. Otro estudio mostró un área bajo la curva de 0.90 (IC 95%: 0.89-0.92), pero para SAPS II, y de 0.86 (IC 95%: 0.84-0.88) para SOFA.19
Respecto a la calibración, se logró demostrar una adecuada calibración para SAPS III en nuestra unidad, siendo esta por bondad de ajuste Lemeshow-Hosmer de 0.852 ± 0.30, con p de 0.362; esto confirma que no existe diferencia significativa entre la mortalidad esperada y la presentada. Curiosamente, en el estudio de López-Caler y su grupo,18 aun cuando se encontró una adecuada discriminación, no se halló una adecuada calibración por bondad de ajuste de Lemeshow-Hosmer: 31.71, con p < 0.05, lo que demuestra una diferencia estadísticamente significativa entre la mortalidad esperada y la presentada.
Respecto a la calibración de SOFA, creemos que aplicar una bondad de ajuste por Lemeshow-Hosmer podría implicar un sesgo debido a que en la mayoría de los estudios de SOFA, al momento en que se busca relacionar el puntaje con la mortalidad, se presentan los resultados en intervalos, tanto en el puntaje mostrado como en la mortalidad relacionada con ese puntaje. Así se puede ver en el estudio de Afshan Shabir y Muzaffar Maqbool,20 en donde con una población de 190 pacientes, se mostró que aquellos con puntaje de cero a seis presentaban un 0% de mortalidad, mientras que puntajes de seis a nueve tenían 14%, y puntajes mayores a nueve, 85%. Por lo anterior, en nuestro trabajo se decidió utilizar mejor la sensibilidad y especificidad de la prueba, tomando el valor de cinco como el punto de mayor sensibilidad y especificidad (sensibilidad: 0.776 y 1-especificidad: 0.263); con esto se obtuvo una sensibilidad de 75% y una especificidad de 74%.
Respecto a la confiabilidad de la prueba, se ha demostrado que para SOFA es buena entre los médicos, presentando índices kappa que van de casi perfectos para las subclases de coagulación, hepático, circulatorio y renal de la escala (con índices κ -kappa- de 0.851-0.953) a bueno y moderado para la subclase respiratorio y neurológico (con índices κ de 0.552-0.634).21 En nuestro estudio no se realizó un estudio de confiabilidad debido a las intervenciones efectuadas en la unidad para mantener el rigor metodológico, que incluyeron tanto la capacitación tutorial persona a persona durante un mes como la evaluación del tipo two-point verification. Aun así, creemos que es una buena oportunidad para el futuro.