SciELO - Scientific Electronic Library Online

 
 número37Estimación de la intención de voto a nivel municipal: modelo MRP en las elecciones del Edomex 2023Encuestas controladas por cuotas: una aproximación empírica a su error total índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Revista mexicana de opinión pública

versión On-line ISSN 2448-4911versión impresa ISSN 1870-7300

Rev. mex. opinión pública  no.37 Ciudad de México jul./dic. 2024  Epub 04-Feb-2025

https://doi.org/10.22201/fcpys.24484911e.2024.37.88594 

Dossier

Exactitud de las encuestas para las elecciones de gubernaturas en México según modo de aproximación (2021-2023)

Polls for Governorships in Mexico Accuracy According to Approach Mode (2021-2023)

1 Sociólogo por la Facultad de Ciencias Políticas y Sociales de la Universidad Nacional Autónoma de México (UNAM). Presidente del Consejo Directivo de la Cátedra Internacional de Opinión Pública. Líder del Grupo de Trabajo sobre Metodologías de la Sociedad Mexicana de Estudios Electorales. Coordinador de Relaciones Institucionales y Académicas del Colegio de Especialistas en Demoscopia y Encuestas. Correo electrónico: ricartur@gmail.com.


Resumen

En este texto se revisa la exactitud de las estimaciones producto de encuestas publicadas en fecha próxima a las elecciones para las gubernaturas en México celebradas de 2021 a 2023 según los distintos modos de aproximación de los que actualmente se dispone.

La primera parte del ensayo se destina a la exposición de las características de los indicadores convencionalmente más usados para medir la exactitud de los estudios demoscópicos de carácter cuantitativo orientados a la medición de las preferencias electorales previas a unos comicios, así como de indicadores que pudieran ser más correctos y eficientes desde un punto de vista teórico-metodológico para la medición de fenómeno.

Una vez expuestos los estimadores tradicionales y aquellos que metodológicamente resultan ser más correctos y eficientes para medir la exactitud de las encuestas, se efectúa un cotejo entre lo previsto por los ejercicios hechos públicos en el período de referencia contra los resultados electorales, diferenciando los datos según el modo de aproximación empleado.

Las principales limitaciones del ejercicio es su carácter casuístico, por lo que las conclusiones a las se arriba sólo pueden ser considerados como evidencia circunstancial y de ninguna manera definitiva sobre el fenómeno bajo estudio. Su originalidad, sin embargo, radica en que el cotejo de diferencias según modo de aproximación no suele ser el método usado para el análisis de la exactitud de las encuestas, a pesar de su eventual relevancia.

Esto se constata al observar que, como resultado del ejercicio de estimación de la exactitud de las encuestas, se encuentra que esta exactitud sí depende del modo de aproximación que se emplee para su realización.

Palabras clave: Encuestas; elecciones; resultados; votos; estimación; exactitud

Abstract

This text reviews the accuracy of the estimates resulting from polls published close to the elections for governors in Mexico held from 2021 to 2023 according to different methods of approximation currently available.

The first part of the essay is dedicated to exposing the characteristics of the indicators conventionally most used to estimate the accuracy of quantitative demoscopic studies aimed at measuring electoral preferences prior to elections, as well as indicators that could be more correct and efficient from a theoretical-methodological point of view for measuring the phenomenon.

Once the traditional estimators and those that methodologically could be more correct and efficient to measure the accuracy of the surveys have been exposed, a comparison is carried out between what was foreseen by the exercises made public in the reference period against the electoral results, differentiating the data according to the approach mode used.

The main limitations of the exercise is its casuistic nature, so the conclusions reached can only be considered as circumstantial evidence and in no way definitive about the phenomenon under study. Its originality, however, lies in the fact that the comparison of differences according to the method of approximation is not usually the way used to analyze the accuracy of the surveys, despite its eventual relevance. This is confirmed by observing that, as a result of the exercise to estimate the accuracy of the surveys, it is found that this accuracy does depend on the approach method used to carry it out.

Keywords: Polls; elections; results; votes; estimation; accuracy

La verdad de algunas proposiciones empíricas pertenece a nuestro sistema de referencia.

Ludwig Wittgenstein.

Preámbulo

La investigación científica es un proceso acumulativo donde se regresa muchas veces sobre aquello que fue previamente observado bajo ciertas circunstancias con miras a ampliar, perfeccionar o incluso corregir los resultados de un estudio anterior.

En este ensayo se aborda un tema que ya fue motivo de exposición en otras ocasiones, por lo que el material en que se detallan aspectos lógico-metodológicos coincide con algo previamente expuesto. Esta suerte de repetición es obligada, puesto que es necesario disponer de un marco de referencia conceptual que permita el análisis posterior de la información empírica que fue objeto de anteriores estudios y que ahora es foco en este ensayo, por lo que resulta común a ambos ejercicios.

Cabe indicar que la información empírica que soporta este ensayo corresponde indudablemente a un inventario original por su amplitud temporal, rebasando el análisis centrado en un año específico que fuera previamente materia del citado estudio, para cubrir un periodo trianual, además de que se centra no en la exposición de los datos de un modo particular elegido de aproximación por encuesta, sino del cotejo de estimadores de exactitud referidos a los distintos modos de aproximación existentes para la medición por encuesta de las intenciones de voto previas a elecciones. En este sentido, su objetivo, alcance y cobertura temporal resulta inédita.

Introducción

Medir es comparar. Y comparar es cotejar conjuntos ordenados de números para determinar sus distancias y su ordenamiento conforme a determinados criterios.

Una medición es un acto para determinar la magnitud de un objeto en cuanto a cantidad. Es comparar la cantidad desconocida que queremos determinar y una cantidad conocida de la misma magnitud, que elegimos como unidad. Al resultado de medir se le denomina medida.

Hay diversas técnicas de medición de distancias, que conducen a resultados diferentes. Para el caso de las encuestas electorales, se suelen buscar métodos estadísticos para conocer su exactitud a través del cotejo de lo estimado contra lo observado.

Lo ideal para eso es construir un indicador que permita medir las variaciones en la eficacia de las encuestas para alcanzar el objetivo de aproximarse al resultado del evento electoral futuro, que capture en un único número su desempeño.

Este estimador debiera poder medir la contribución de una encuesta a la eliminación de la incertidumbre en torno al futuro resultado de la elección y por tanto dar cuenta de la información anticipatoria que un estudio proporciona.

Hace ya más de siete décadas que se cuenta con los más usuales medidores respecto de la adecuación de las encuestas con los resultados (Mosteller, 1949), definidos originalmente con la intención de evaluar los resultados de los estudios preelectorales en Estados Unidos para la elección presidencial de 1948.

Sin embargo, a la fecha no existe un consenso entre la comunidad científica sobre cuál es el estimador pertinente para medir la exactitud de las encuestas electorales (Mitofsky, 1998). Por ello, en esta exposición se presentan cuatro indicadores distintos: dos tradicionales y dos alternativos para evaluar el papel jugado por las encuestas previas a las elecciones para gubernaturas en México en el periodo 2021-2023.

Consideraciones preliminares

Todo esfuerzo reflexivo sobre el estado del arte de las encuestas y de los métodos para su evaluación y corrección, debe reconocer que las decisiones de los investigadores deben invariablemente partir del reconocimiento de los diversos saberes científicos en que se funda el hacer demoscópico, como la teoría de la probabilidad y la estadística, y de los desarrollos tecnológicos existentes para la aplicación de métodos y técnicas de investigación.

En el caso de las encuestas que se publican previamente a unas elecciones, por motivos no solo de apego a la ética científica, sino también por beneficios prácticos, el investigador seleccionará los mejores métodos y procedimientos que sean accesibles y factibles por tiempos y costos para la disposición de estimadores sobre intenciones de sufragio de los electores o en su caso, de los eventuales concurrentes a unos comicios.

Así, la realización de una encuesta como instrumento de conocimiento tendrá la intención de reducir la incertidumbre producto del carácter muestral del ejercicio e incrementar su posible exactitud.

La intención de este texto es, a partir de una caracterización y definición operativa de los conceptos que las encuestas intentan medir, evaluar los estimadores existentes para calcular la exactitud de las encuestas electorales publicadas previamente a las elecciones para gubernaturas en México en el trienio 2021-2023. En lo posible, se seguirán normas convencionales de tipografía y notación matemática, privilegiando el empleo de una única letra cursiva para etiquetar un símbolo (Taagepera, 2008) y recurriendo alternativamente a caracteres redondos cuando se trate de un concepto que requiera más de una letra para su designación.

Para esta reflexión, se partiría de definir lo que es una encuesta (De la Peña, 2015), que es un estudio científico cuyo objetivo es producir información que permita estimar la ocurrencia de eventos actuales o no, por lo general a través de instrumentos que permiten un tratamiento normalizado de los datos. Teóricamente, las estimaciones que se obtienen deben estar cerca de un valor real que se pretende conocer, denominado parámetro.

Hay que reiterar que el principal fundamento de la cientificidad de una encuesta es la disposición de una muestra probabilística de la población objetivo, que en el caso de las electorales están diseñadas para que cada ciudadano tenga una probabilidad conocida y distinta de cero de participar y obtenga un peso equitativo en la estimación. De cumplirse esto, los datos que se obtengan permitirán hacer inferencias sobre los valores esperables para un reactivo dentro la población considerada.

Recuérdese que en estadística, precisión y exactitud no son conceptos equivalentes, aunque estén relacionados (Joint Committee for Guides in Metrology, 2012). La precisión es una medida de la dispersión del conjunto de valores obtenibles en repetidas mediciones de una magnitud determinada: a menor dispersión, mayor precisión. Refiere entonces a la magnitud escalar con la que se mide la proximidad de los resultados de una muestra para reproducir los resultados que se obtendrían de un recuento completo llevado a cabo usando las mismas técnicas.

A diferencia, la exactitud es una medida de la proximidad entre los valores medidos y los reales, aquellos resultantes si se hubiera realizado un censo bajo los mismos procedimientos que la encuesta, por lo que mide el eventual sesgo de una estimación: a menor sesgo, mayor exactitud. Luego, refiere a la magnitud escalar con la que se mide la proximidad del estimador producto de una muestra respecto del parámetro objetivo.

Existen siempre imperfecciones entre el diseño y lo realizado en la práctica de encuestar, lo que provoca que exista siempre un riesgo real de afectación de la aleatoriedad debido a limitaciones intrínsecas a la cobertura de la población objetivo derivadas de la selección del modo de aproximación a los informantes, las tasas de encuentro o cooperación de los individuos e imprecisiones en el trabajo de campo.

Aunque todos estos aspectos pueden ser tentativamente reparados, es inevitable la posible presencia de sesgos. Las Fuentes generadoras de estos sesgos son significativamente más reducidas en el caso mexicano actual en encuestas que recurren a tradicionales procedimientos de entrevista personal directa en vivienda, sea o no asistida por computadora, donde se logran alcanzar coberturas cercanas al total de la población objetivo, que cuando se realizan mediante aproximación por vía telefónica, que permite alcanzar solamente tres cuartas partes de la población y que presentan elevados niveles de rechazo a la entrevista, o que en ejercicios mediante la compilación de datos de usuarios de redes sociales, cuyo alcance se limita a la mitad de la población en el mejor de los casos y donde a las reducidas proporciones de respuesta se suma la incapacidad de control autónomo de la selección de informantes por parte del investigador.

Y si deformaciones en la distribución de la población que se observe respecto al universo de estudio pueden ser corregidas mediante post-estratificaciones para variables demográficas e incluso socioeconómicas, resulta sumamente complejo e incierto adecuar la distribución de la muestra conforme parámetros psicométricos, cuyas características son prácticamente conocidas y dudosamente observadas en la medición.

Es por ello que los únicos ejercicios que efectivamente brindan hoy día la posibilidad de estimar el reparto de intenciones de voto del grueso de la ciudadanía en México son las encuestas mediante entrevistas personales en vivienda. Y en consecuencia es sobre la colección de encuestas con estas características que fueron hechas públicas antes de los comicios bajo estudio que se realiza el ejercicio de comparación contra los resultados oficiales.

Encuestas y elecciones

Como resultado de una elección, el universo finito y numerable de electores (𝒗) se divide en dos grupos: aquellos que votaron por caƲda uno de los contendientes (𝒗𝒊) y los no votantes (𝒗𝟎), entendiendo por tales a quienes votaron por alguien que no competía formalmente, aquellos cuyo voto no fue válido bien sea por razones voluntarias o incidentales y quienes no acudieron a votar. Así

v=i=1kvi+v0

Con base en ello, puede determinarse la votación válida (𝒗𝒆) como

ve=i=1kvi

De aquí se obtienen las proporciones de voto por cada contendiente respecto al total de votos válidos (𝒑𝒊):

pi=vii=1kvi

Y luego es posible establecer un ordenamiento entre las proporciones correspondientes a cada contendiente en la votación:

p1p2p3pk

Ahora bien, como resultado de una encuesta, el universo finito y contable de electores que fue observado (𝒏) se divide en dos grupos: quienes respondieron que votarían por alguno de los contendientes (𝒏𝒊) y quienes no se definieron por alguno de los contendientes (𝒏𝟎) al declarar que votarían por alguien no registrado, que anularían su voto, que no sabían por quién votarían o que no respondieron al reactivo.

n=i=1kni+n0

Y entonces puede definirse una muestra válida (𝒏𝒆) como

ne=i=1kni

Y a partir de estos datos obtener las proporciones de intención de voto por contendiente respecto al total de casos válidos en la encuesta (p^i) mediante

p^i=nii=1kni=nine

Por regla general, para la estimación de la exactitud de una encuesta respecto al resultado de una elección, se asume que existe una equivalencia entre votos válidos de una elección y casos válidos de una encuesta, dado que

i=1kpi=1=i=1kp^i

Para el cálculo de diferencias entre estimaciones por encuesta y resultados se toma el orden que se determinó para las votaciones obtenidas y se aplica para aparejarlas biunívocamente con las estimaciones por encuesta. Así que

p^1óp^2óp^3óp^k

Estimadores de exactitud.

En este texto se recurrirá a distintos estimadores que pretenden medir la exactitud de las encuestas. Los dos primeros corresponden a propuestas de Mosteller que datan de tres cuartos de siglo, pero que son comúnmente utilizadas para análisis sobre la exactitud de encuestas.

El primer estimador corresponde a la diferencia entre el margen de victoria estimado entre los dos primeros lugares por una encuesta y lo realmente observado, multiplicado por cien (M5):

M5=p^1-p^2-p1-p2*100

Que es el criterio más utilizado por comentaristas para estimar la exactitud de una encuesta, a pesar de que es incompleto al excluir a partidos menores y que corresponde a una escala que va de cero a 200 (por lo que los especialistas suelen preferir considerar en su lugar la estimación de M5/2).

Un segundo estimador corresponde a la media de la diferencia absoluta entre lo estimado y lo real por cada contendiente multiplicado por cien (M3):

M3=i=1kp^i-pi*100k

Que es el criterio más utilizado por especialistas para estimar la exactitud de una encuesta, a pesar de no corresponder a una distancia ni a un porcentaje, pues su límite superior varía según el número de competidores considerados (Gráfico 1).

0M3200k

Fuente: elaboración propia.

Gráfico 1 Límite superior del estimador de inexactitud M3 según número de contendientes 

Ante los problemas detectados en los estimadores clásicos, se propone recurrir a otro procedimiento para la construcción de medidores de la exactitud, que parten de recuperar la distancia de Minkowski (1910), que mide la diferencia entre dos puntos en un espacio vectorial multidimensional que se puede calcular en cualquier sistema de coordenadas, y que define como la raíz 𝒎-ésima de la suma de las diferencias absolutas entre dos puntos elevadas al poder 𝒎.

M=i=1kp^i-pimm

A partir de esta fórmula, es dable definir dos distancias de Minkowski de uso regular: la distancia rectilínea (conocida como de Manhattan), cuando 𝒎 = 1, y la distancia euclídea, cuando 𝒎 = 2, que es la medida más utilizada para estimar la distancia entre dos puntos en un espacio euclidiano. Esto supone que el límite superior de estas distancias varía según la potencia 𝒎:

0Mm2m

Hay un aspecto interesante relevante sobre la distancia rectilínea. En 1951, Kullback y Leibler definieron la divergencia o ganancia de información, conocida como entropía relativa (𝑫), medida no simétrica y que, por ende, no conforma una métrica.

Este estimador corresponde al promedio ponderado de la diferencia logarítmica entre las probabilidades observadas y las estimadas, donde el promedio se toma utilizando las probabilidades observadas. Así, la entropía relativa se estima como

D=I=1kp1lnpip^i

Medidor que está estrechamente vinculado con la máxima verosimilitud, puesto que, si se asume que las observaciones recopiladas son igualmente probables, se tiene una fórmula que es idéntica al logaritmo de verosimilitud promedio.

La distancia rectilínea es semejante a la divergencia o ganancia de información o entropía relativa, debido a que ambas variables presentan valores muy similares (R2=0.99) que se separan solo en el límite superior. Se tiene así que

i=1kp^i-piI=1kp1lnpip^i

Por lo que es dable afirmar que la distancia rectilínea permite determinar la capacidad previsora del resultado a partir de una encuesta.

Ahora bien, considerando el límite superior variable y mayor a la unidad de las distancias de Minkowski, es pertinente recurrir a los valores normalizados de estas distancias, al escalar los valores originales al intervalo unitario: el rango entre cero y uno. Esto se logra dividiendo entre dos la suma de distancias entre lo estimado y lo observado por componente antes de la radicación, lo que supone asignar signo a los componentes según se desplacen hacia un lado u otro de la igualdad.

Rm=i=1kp^i-pim2m

Que se etiquetará con el símbolo 𝑹, por corresponder al carácter latino de la letra inicial de la palabra rusa “distancia” (расстояние, rasstoyanie).

Esta operación permite que las distancias calculadas puedan expresarse y correspondan efectivamente a porcentajes:

0Rm1

Con esta normalización se puede disponer de dos estimadores unitarios de distancia básicos: la distancia rectilínea unitaria

R1=i=1kp^i-pi2

Y la distancia euclídea unitaria

R1=i=1kp^i-pi22

Que corresponde al estimador más comúnmente utilizado como medida de una distancia y que es siempre por definición menor o igual que R1.

Desde luego, los anteriores no son los únicos estimadores disponibles para medir la exactitud de las encuestas y realizar un inventario que pretendiera ser exhaustivo sería inviable y rebasaría con creces el alcance de este ensayo.

Se puede, sin embargo, partir de una selección de estimadores que pudieran ser relevantes por consideraciones diversas. En primer término, Mosteller, en su estudio de 1949, consideraba que el estadístico X2 era un medidor idóneo de la proximidad o distanciamiento entre lo estimado mediante encuesta y lo observado en una elección.

Este estadístico sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. Esta prueba contrasta frecuencias observadas con frecuencias esperadas de acuerdo con la hipótesis nula, por lo que indica en qué medida las diferencias existentes entre la distribución estimada y la observada se deben al azar y por ende establece la verosimilitud de un contraste de hipótesis. Así

X2=i=1kni-nevive2nevive=i=1kni-nepi2nepi

A pesar de ello, ya de entrada esta definición presenta varios problemas no relacionados con su cálculo, pues no constituye un medidor de distancia y sus límites se ubican entre cero e infinito, provocando que su interpretación sea complicada. Además, toma valores absolutos y no proporciones, cuando lo que debiera estimarse es la exactitud entre magnitudes relativas entre las partes, que además suele ser lo que típicamente se reporta. Por último, el valor del estimador está fuertemente afectado por el tamaño de la muestra del estudio que se analice; ergo, a mayor tamaño de muestra menor diferencia calculada mediante este estimador.

Una manera de corregir este último problema es ponderar el valor de X2 por el tamaño de muestra empleada por medio de

X2ne=i=1kni-nepi2nepi/i=1kni=i=1kp˘i-pi2pi

Que permite no solo eliminar la correlación entre tamaño de muestra y el estadístico, sino además construir un estimador a partir de las magnitudes relativas.

No obstante, persiste el problema del límite superior de este estimador X2ne, puesto que depende de la cantidad de cifras significativas con las que se realice el cálculo, teniendo que

0X2ne10c

Lo que hace impertinente su empleo como un estimador certero de la exactitud de las encuestas. Eso obliga a dejarlo de lado.

Enfrentado al problema de generar un estimador idóneo de la exactitud de las encuestas, Arzheimer y Evans (2013) publicaron una propuesta de una nueva medida, multinomial, de la exactitud del sesgo de las encuestas, con base en una generalización del índice de exactitud para sistemas bipartidistas de Martin, Traugott y Kennedy, que tiende a convertirse en el estimador más socorrido por la academia en este tipo de sistemas.

Este medidor de exactitud parte del cálculo de las razones de momios de las proporciones para cada componente tanto de la estimación por encuesta como del resultado de la elección, procediendo luego a extraer el logaritmo de la razón entre ambos cocientes de momios.

Eso permite tener un cálculo del sesgo atribuible a cada componente, por lo que luego la propuesta supone una sumatoria de los valores absolutos de esos sesgos y su promedio aritmético, lo que deriva en que el estimador no corresponda a una distancia ni encuentre una definición clara del espacio en que funciona.

B=i=1klnp˘i1-p˘i/pi1-pi/k

A estos problemas de comprensión del significado de esta propuesta alterna, que es muy diáfano en la formulación para contiendas entre dos competidores, pero no cuando son más, se agrega el problema de que el límite superior del estadístico se ve simultáneamente afectado por la cantidad de cifras significativas sobre las que se realice el cálculo y por el número de componentes que hayan participado en una elección o que se tomen en cuenta para la medición. De hecho, un cálculo empírico llevaría a establecer este límite superior ligeramente por debajo de 10ck y por ende afectado por los dos parámetros indicados.

Habría que referirse ahora de manera más extensa a un estimador aparentemente más robusto y pertinente. Karl Pearson (1897) advertía las dificultades para interpretar la relación entre variables que representaran partes de un total, proporciones cuya suma de componentes es constante, por lo que el cambio en una componente supone el cambio de al menos otra. Esto provoca que la geometría del espacio muestral sobre el que se definen las proporciones, el llamado símplex, sea diferente de la geometría euclídea del espacio real.

Las composiciones solo proporcionan información sobre la magnitud relativa de sus partes, y no pueden justificarse interpretaciones que involucren a las magnitudes absolutas. Por tanto, cualquier aseveración sobre una composición debe hacerse en términos de los cocientes entre las partes, los cuales medirán dicha relación relativa.

Ergo, una función aplicable sobre composiciones deberá ser invariante por cambios de escala y expresable en términos de cocientes entre las partes.

Aitchison (2003) propone la transformación de una composición definida sobre el símplex en un vector que involucre los cocientes entre las partes y que esté definido sobre el espacio real. Para lograrlo, una transformación propuesta por Aitchison es la log-cociente centrada (clr), definida como

clrx=lnx1gx,,lnxkgx

A partir de esta transformación simétrica e isométrica es posible especificar la luego denominada distancia de Aitchison en términos de la distancia euclídea entre los vectores clr-transformados como

dA=i=1klnp˘iigp˘-lnpigp2

Esto responde al reto de ubicar al estimador en un espacio euclídeo, partiendo del hecho de que el concepto de espacio solo es perceptual o corresponde a la intuición cuando es euclídeo.

Las principales ventajas de la distancia de Aitchison son que: es aproximadamente lineal entre 0.1 y 0.9, aunque no en sus colas; es compatible con la particular naturaleza de los datos sobre proporciones; y permite representar composiciones en coordenadas geométricas.

La contracara es que la relación entre puntos que se produce con la distancia de Aitchison no conforma un conjunto ordenado, puesto que no es posible establecer que la distancia correspondiente a un elemento del conjunto sea necesariamente mayor o menor que la de otro elemento cualquiera.

Existen además varios problemas con la distancia de Aitchison como estimador certero de la exactitud de las encuestas.

Primero que nada, si un vector presenta alguna componente nula resulta imposible considerar todos los cocientes de la forma xi/ xj ni, por ende, su producto, por lo que ni el cálculo de la media geométrica, ni las transformaciones log-cociente, ni la distancia de Aitchison, ni las medidas descriptivas son aplicables cuando ello ocurre.

Esto suele resolverse mediante una menor desagregación de casos cuando se trata de ceros “esenciales” o a través de la imputación cuando se trata de ceros provocados por redondeo. Pero existen por lo menos otros tres problemas de más difícil solución:

El problema de definición del límite superior del estimador: cuando se calcula se descubre que el valor máximo al que puede llegarse no es infinito, como se 𝑑𝐴 analiza en la literatura en que se expone este procedimiento. El carácter discreto de los reparto en proporciones por componente, derivado de la finitud tanto del número de casos en una encuesta como de la cantidad de sufragios emitidos en una elección produce que 𝑑𝐴 muestre un límite superior variable en razón a la cantidad de cifras significativas que se tomen para el cálculo.

El problema de pesos relativos de componentes transformados: el estimador producido a partir del cálculo de la distancia de Aitchison presenta una fuerte tendencia a otorgar un peso significativamente superior al que le corresponde por su votación a cada componente según su orden en la contienda. Lo anterior provoca que el valor del estimador de exactitud se encuentre determinado de manera muy alta por componentes menores.

El problema de consistencia de las estimaciones por redondeo: la medición de la exactitud de una encuesta suele tratarse cual si correspondiera a cálculos dentro de un campo, de un continuo donde todos los valores de los datos estimados y observados estuvieran permitidos. Pero en realidad el cálculo de la exactitud parte siempre de conjuntos discretos, donde los valores permitidos están constreñidos a la finitud de los universos de electores y del tamaño, también finito, de las muestras.

Esto se agrava por el hecho de que generalmente se dispone de reportes de estimaciones por encuesta que presentan proporciones redondeadas a dos cifras significativas y que no deja de ser usual que se cierren los datos a un par de cifras significativas para todos los casos, aún y cuando para algunos se disponga de mayor precisión.

La definición de la separación en una malla para la estimación de la exactitud apunta al problema de la consistencia de las mediciones dentro de un mismo sistema geométrico, dado que usando distintas mallas se puede llegar a afirmaciones contradictorias entre sí. En el caso particular de las estimaciones de 𝑑𝐴, los cambios en los valores según se tomen dos o tres cifras significativas resultan ser relevantes.

Por todo lo anterior, aunque persiste el problema de interpretación de la relación entre variables que representaran partes de un total, por lo que el espacio muestral sobre el que se definen las proporciones es diferente de la geometría euclídea del espacio real, la solución propuesta por Aitchison resulta insuficiente para resolver este asunto y su aplicación propicia incertidumbre respecto a las distancias efectivas entre mediciones por encuesta y resultados obtenidos, por lo que no sería pertinente recurrir a ella para este ejercicio.

Modo de aproximación

La forma canónica de realizar encuestas electorales es por medio de entrevistas personales presenciales, en viviendas, actualmente asistidas por computadora (CAPI).

Debido al avance tecnológico, se han ido agregando otros modos de aproximación: las encuestas telefónicas mediante entrevistas personales asistidas por computadora (CATI) y las robotizadas o con respuesta de voz interactiva (IVR).

Asimismo, se afinan metodologías para realizar encuestas a través de Internet que permitan cubrir a todo el electorado.

Es así como actualmente son cuatro los modos de aproximación a una persona informante que se utilizan para la realización de encuestas (adscribiendo los estudios con modos mixtos a la opción posterior en este ordenamiento) entrevistas presenciales en vivienda (CAPI); entrevistas telefónicas personales (CATI); entrevistas telefónicas robotizadas (IVR); y entrevistas automáticas por Internet (CAWI).

En el caso de las encuestas presenciales CAPI, algunas se auxilian de papel y urna simulada física y otras simulan boleta y urna en el dispositivo electrónico que se emplea. Ello pudiera tener algún efecto en la variación de la exactitud de las encuestas, aunque lamentablemente no existe información completa al respecto que permita estimar y en su caso corroborar la existencia de este fenómeno de diferenciación por la manera en que se realiza la aproximación para los reactivos específicos sobre la intención de voto.

Se asume que las encuestas en vivienda mediante entrevistas presenciales permiten alcanzar a la totalidad del universo de electores, pero esto no es cierto. Aunque los muestreos pueden incluir a la totalidad de áreas de residencia de la población objetivo, en la práctica hay zonas inaccesibles por barreras de contención en áreas de altos ingresos y por la presencia del crimen organizado. Por ello, las encuestas presenciales en México actualmente alcanzan menos de noventa por ciento del electorado.

Al respecto, el Presidente del INEGI declaró en una conferencia de prensa a mediados de 2020 que el personal de ese instituto no había podido entrevistar a los habitantes de aproximadamente el diez por ciento de viviendas durante el Censo de Población y Vivienda 2020 debido a problemas de inseguridad en ciertas áreas del país (Redacción AN / GH, 2021). Si se asume como cierto lo anterior y a ello se suman las viviendas en que el organismo público encuestador consigue entrevistar pero en las que empresas privadas no logran realizar entrevistas por razones de bloqueos en el acceso, se tiene la cobertura inferior a noventa por ciento de la ciudadanía antes indicada.

Aunque se da por supuesto que las encuestas telefónicas no alcanzan a cubrir a la totalidad del universo de electores y por ende no permiten la realización de inferencias válidas sobre esta población, en la práctica más del ochenta por ciento del electorado en México cuenta ya con teléfono móvil o fija para incluirlos en ejercicios por encuesta realizados por esta vía (Instituto Nacional de Estadística y Geografía, 2023).

En los procedimientos de encuesta por entrevista vía telefónica es posible incluir, a partir del Plan Nacional de Numeración del Instituto Federal de Telecomunicaciones (2024), la totalidad de los números telefónicas disponibles, celulares o fijos y dentro de estos los domiciliarios o de establecimientos comerciales, los cuales en estudios a personas deben ser excluir a través de reactivos específicamente destinados a su control y exclusión.

Los problemas de diferente densidad de líneas telefónicas en la población según características demográficas y socioeconómicas son cada vez menores a medida que se dispone de una mayor cobertura del servicio, aunque siguen existiendo y afectando las estimaciones mediante encuestas telefónicas.

Igualmente, mientras que en encuestas presenciales es posible constatar la pertenencia de los informantes a determinados grupos poblacionales según características demográficas, ello es inviable o al menos cuestionable en entrevistas por vía telefónica, teniendo que asumirse la veracidad de los reportes proporcionados por quienes responden.

El principal problema que enfrentan las encuestas telefónicas es la reducida tasa de respuesta de las personas contactadas, inferior a la lograda en operativos personales en viviendas.

Los estudios a través de Internet que hoy día se difunden en México toman muestras muy alejadas de la aleatoriedad, al hacerse mediante aproximación automatizada a usuarios de determinadas redes socio-digitales, lo que limita su cobertura y genera una autoselección de informantes.

En encuestas por Internet existe la posibilidad de alcanzar a la totalidad del universo de electores cuando se construyen paneles de entrevistados que garanticen el acceso a toda la población relevante, pero esto no es lo que se está haciendo.

Fuentes de información

Son varios los datos sobre resultados electorales de los que se dispone en cada proceso electoral que se realiza: los preliminares, que se difunden inmediatamente después de la votación, los que arrojan los cómputos distritales oficiales y los definitivos, una vez que son revisados por la autoridad jurisdiccional si se requiere. Para este ensayo, se toman como base los resultados de los cómputos oficiales realizados durante la semana posterior a las elecciones.

Ahora bien, respecto a los datos derivados de encuestas desde la reforma electoral de 2014 en los sitios institucionales se ha ido incluyendo el inventario de encuestas sobre asuntos electorales que cumplen con los requisitos legales y que son entregadas a las autoridades en cada elección a nivel local. En estos acervos informativos, de pretendido acceso universal permanente y gratuito, se pueden consultar resultados y bases de datos de los estudios, así como conocer los datos técnicos básicos, responsables de realización, patrocinio y difusión y el monto de facturación por estos ejercicios.

Esta sería una Fuente potencial para recuperar los datos sobre las encuestas dadas a conocer en los procesos electorales para Ejecutivos locales. Sin embargo, estos repositorios no están uniformados ni resultan exhaustivos.

Por ello, de tomarlos como Fuente, habría que discriminar los estudios que resultaría pertinente considerar para un análisis con sentido y aun así sería difícil contar con un historial completo.

Existe otra Fuente más uniforme que puede ser consultada y que resulta ser la más expedita para poner a disposición pública los resultados de los estudios por encuesta realizados a partir de entrevistas presenciales: el Observatorio Electoral, a cargo de CEDE Colegio de Especialistas en Demoscopia y Encuestas junto con oraculus.mx (2021, 2022 y 2023).

Esta Fuente de información reporta los resultados de encuestas realizadas en vivienda para las que se reportó la instancia responsable de su realización y se conozca su metodología.

Para las encuestas que recurren a otros modos de aproximación se hizo un acopio a través de Polls.mx, completado con información reportada en Wikipedia y en los sitios de las empresas responsables de estudios, aunque este inventario es claramente incompleto.

Estimaciones por encuesta para gubernaturas (2021-2023)

En total, se detectaron 268 encuestas sobre las contiendas para gubernaturas en México en el periodo 2021-2023, considerando solamente las estimaciones más próximas a la elección de cada casa encuestadora, siempre y cuando se hubiera terminado durante las cuatro semanas previas a los comicios.

Las encuestas mediante entrevistas presenciales son ya solo la sexta parte de los estudios por encuesta que se difunden, mientras que las encuestas automatizadas, sean por vía telefónica o por Internet, representan tres quintas partes del total de mediciones (Gráfico 2).

Fuente: CEDE y Polls.mx

Gráfico 2 Distribución de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Como se observa en el Gráfico 3, las encuestas realizadas mediante entrevistas presenciales detectan correctamente al ganador en una proporción de casos mayor que a través de encuestas por otros modos de aproximación.

Fuente: CEDE y Polls.mx

Gráfico 3 Detección correcta de la candidatura ganadora por las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Como se recordará por lo expuesto anteriormente, uno de los indicadores presentados corresponde al cálculo parcial de la votación considerando exclusivamente la distancia que separa a los dos primeros lugares, el también llamado margen de victoria. Las encuestas robotizadas tienen una menor distancia en este margen de victoria (M5) y una más baja desviación máxima.

Ahora bien, el error medio por componente (M3) es menor en encuestas presenciales y robotizadas al de otros modos de aproximación, aunque las presenciales tienen menor diferencia máxima (Gráfico 5). Cabe recordar que este estimador se afecta de manera importante por el número de competidores involucrados en una elección dada, a pesar de cual es ampliamente utilizado en los análisis sobre exactitud de encuestas.

Fuente: CEDE y Polls.mx

Gráfico 4 Estimador de inexactitud M5 respecto a resultados de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Fuente: CEDE y Polls.mx

Gráfico 5 Estimador de inexactitud M3 respecto a resultados de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Pasando a los estimadores alternos recomendados, la distancia rectilínea normalizada (𝑹1) es menor y sus desviaciones máximas son más bajas en las encuestas presenciales que las registradas en otros modos (Gráfico 6).

Fuente: CEDE y Polls.mx

Gráfico 6 Estimador de inexactitud R 1 respecto a resultados de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Así, puede verse que la aparente igualdad en exactitud de las encuestas presenciales y robóticas conforme M3 es solo un artificio producto del procedimiento para calcular el error medio sin descontar la distinta cantidad de participantes en cada elección.

La distancia euclídea normalizada (𝑹2) es similar en las encuestas presenciales y robotizadas, pero las presenciales presentan más reducidas diferencias máximas (Gráfico 7).

Fuente: CEDE y Polls.mx

Gráfico 7 Estimador de inexactitud R 2 respecto a resultados de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Conclusiones

Al margen de lo que los comentaristas y el público lego suele atender -que es la proximidad en la distancia estimada por encuesta y la observada en las urnas entre los dos primero lugares, dato claramente incompleto salvo en las escasas ocasiones en que se trata de un duelo restringido a dos candidaturas, y de las deformaciones provocadas por la extracción del promedio de desviación por contendiente entre lo estimado y lo observado, que se afecta de manera sensible por la cantidad de candidaturas- la disposición de dos estimadores de la exactitud correspondientes a la distancia de Minkowski normalizada para que corresponda a porcentajes, muestra en primer término que las encuestas presenciales yerran significativamente menos en el ganador, mientras las encuestas por Internet equivocan más, que las encuestas robotizadas estiman mejor la diferencia entre los dos primeros lugares, pero que las presenciales presentan mayor exactitud en el conjunto de los componentes (Tabla 1).

Tabla 1 Estimadores de inexactitud respecto a resultados de las encuestas previas a las elecciones para gubernaturas en México según modo de aproximación (2021-2023) 

Total CAPI CATI IVR CAWI
Clásicos M5 10.4 10.4 11.2 9.2 11.7
M3 5.0 4.5 5.5 4.5 5.6
Alternos R1 9.3% 7.9% 10.2% 8.5% 10.6%
R2 7.7% 6.9% 8.5% 6.9% 8.8%

Fuente: CEDE y Polls.mx

Estas conclusiones, desde luego, están ligadas a las limitaciones de un ejercicio que observa solamente la evidencia relacionada con un tipo de elección en un periodo acotado. Habría que ver si la extensión temporal o la ampliación a otros tipos de comicios confirman o refutan estos hallazgos.

Así, cuando se privilegia la forma tradicional de aproximación mediante entrevistas presenciales no es que se trate de un conservadurismo o una actitud contraria a la innovación, sino que por el momento el procedimiento canónico continúa siendo el más confiable en términos de proximidad entre lo que se estima y lo que ocurre en las urnas.

A pesar de ello, durante el periodo observado y para los comicios para ejecutivos locales las encuestas mediante entrevistas presenciales representaron apenas la sexta parte de las mediciones publicadas, siendo la mayor proporción los casos de encuestas telefónicas mediante entrevistas “robotizadas”, que representaron más de la tercera parte de los casos.

Ello se debe a diversos factores, entre los que se incluiría en primerísimo lugar el costo, que es muchísimo menor para los ejercicios automatizados que cuando se envían personas a entrevistar en las viviendas de los electores. En segundo lugar, cabría referir la mala publicidad que han recibido -en algunos casos justificada, pero en muchos otros no- las encuestas por método tradicional y el desapego de los medios y patrocinados al historial de exactitud de las mediciones según el modo de aproximación que se utiliza. Y en tercer lugar la prontitud de la disposición de los datos producto de los ejercicios, prácticamente inmediato para encuestas telefónicas y digitales y de varios días por lo regular para estudios mediante entrevistas presenciales.

Viendo todo lo anterior, lo idóneo para el futuro inmediato es que los patrocinadores de encuestas que se pretendan difundir busquen en la medida de sus posibilidades acudir a mediciones mediante entrevistas en vivienda, las cuales debieran a su vez intentar una reducción sensata de sus costos, sin menoscabo de la calidad de sus ejercicios, y reducir los tiempos entre toma de datos y posibilidad de difusión. No es algo imposible de lograr y de hacerse así la confiabilidad de los estudios por encuesta sería mayor para los interesados y para la ciudadanía en general.

Además, habrá que ver si estas diferencias según el modo de aproximación se sostiene en un periodo más prolongado o si se presentan cambios, que pudieran derivar lo mismo de factores endógenos a la labor de investigación, como pudiera ser la mejora en métodos y técnicas, que exógenos, como puedan ser variaciones en las condiciones de la competencia política.

Fuentes de consulta

Aitchison, J. (2003). The statistical analysis of compositional data. Blackburn Press. [ Links ]

Redacción AN / GH. (25 de enero de 2021). En México hay 126 millones 014 mil 024 de habitantes: Censo de Población y Vivienda 2020. Aristegui Noticias. https://aristeguinoticias.com/editorial/2501/mexico/en-mexico-hay-126-millones-014-mil-024-de-habitantes-censo-de-poblacion-y-vivienda-2020/Links ]

Arzheimer, K. y Evans, J. (2013). A New Multinomial Accuracy Measure for Polling Bias. Political Analysis, 22(1), 31-44. https://www.jstor.org/stable/24573061Links ]

CEDE Colegio de Especialistas en Demoscopia y Encuestas-Oraculus. (2023). Observatorio electoral 2023. CEDE.org. http://cede.org.mx/web2016/observatorio-electoral-2023/Links ]

CEDE Colegio de Especialistas en Demoscopia y Encuestas-Oraculus (2022). Observatorio electoral 2022. CEDE.org. http://cede.org.mx/web2016/observatorio-electoral-2022/. [ Links ]

CEDE Colegio de Especialistas en Demoscopia y Encuestas-oraculus.mx (2021). Observatorio electoral 2021. CEDE.org. http://cede.org.mx/web2016/observatorio-electoral-2021/. [ Links ]

De la Peña, R. (2015). Cómo se mide la exactitud de las encuestas electorales. Política y Cultura, (44), 217-247. http://nbn-resolving.de/urn:nbn:de:0168-ssoar-458895Links ]

Instituto Federal de Telecomunicaciones. (2024). Plan Nacional de Numeración. Instituto Federal de Telecomunicaciones. https://sns.ift.org.mx:8081/sns-frontend/planes-numeracion/descarga-publica.xhtml. [ Links ]

Instituto Nacional de Estadística y Geografía. (2023). Comunicado de Prensa Núm. 367/23: Encuesta Nacional sobre Disponibilidad y Uso de Tecnologías de la Información en los Hogares (ENDUTIH) 2022. Instituto Nacional de Estadística y Geografía. https://www.inegi.org.mx/contenidos/saladeprensa/boletines/2023/ENDUTIH/ENDUTIH_22.pdf. [ Links ]

Joint Committee for Guides in Metrology. (2012). International vocabulary of metrology - Basic and general concepts and associated terms (VIM). 3rd edition. Disponible en: https://www.bipm.org/documents/20126/2071204/JCGM_200_2012.pdf/Links ]

Kullback, S. y Leibler, R. (1951). On Information and Sufficiency. Annals of Mathematical Statistics, 22(1), 79-86. Institute of Mathematical Statistics. [ Links ]

Minkowski, H. (1910). Geometrie der Zahlen. B. G. Teubner Verlag. https://archive.org/details/geometriederzahl00minkrich/page/n7/mode/2up. [ Links ]

Mitofsky, W. J. (1998). Review: Was 1996 a Worse Year for Polls than 1948?. The Public Opinion Quarterly, 62(2). https://www.jstor.org/stable/2749624. [ Links ]

Mosteller, F. (1949). Measuring the error. En F. Mosteller, Social Science Research Council Committee on Analysis of Pre-election Polls y Forecast, The Pre-election Polls of 1948, Report of the Committee on Analysis of Pre-election polls and Forecasts. Bulletin 60. Social Science Research Council. https://www.jstor.org/stable/2745396. [ Links ]

Pearson, K. (1897). Mathematical contributions to the theory of evolution. On a form of spurious correlation which may arise when indices are used in the measurements of organs. Proceedings of the Royal Society, 60, 489-498. [ Links ]

Polls.mx. (2024). Encuestas y resultados previos. Polls.mx. https://polls.mx/prep/. [ Links ]

Taagepera, R. (2008). Making Social Sciences More Scientific. Oxford University Press. https://www.researchgate.net/publication/286886640_Making_Social_Sciences_More_Scientific_The_Need_for_Predictive_Models. [ Links ]

Wittgenstein, L. (1974). Über Gewißheit /On certainty. Blackwell. https://prawfsblawg.blogs.com/files/wittgenstein-on-certainty.pdf. [ Links ]

Recibido: 07 de Mayo de 2024; Aprobado: 20 de Junio de 2024

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons