Encuestas con sesgo

Explicando lo inexplicable: las encuestadoras en los medios

Un punto de vista relevante a analizar es el de las propias encuestadoras, que rápidamente salieron a los medios a explicar por qué a pesar de que fueron la comidilla del día de la elección, algo que se reflejó fuertemente en las redes sociales, en realidad no se habían equivocado, sino que todo se debía a un cambio de último momento en el electorado.

Llaman en particular la atención las entrevistas a Rafael Porzecanski de la empresa Opción Consultores en el programa No Toquen Nada y a él mismo y Alain Mizrahi de la empresa Radar en el programa En la Mira, porque se trata de dos programas muy profesionales y particularmente incisivos con las incongruencias, que en esta oportunidad dieron por buenos los argumentos esgrimidos por los entrevistados sin contrastarlos con sus propios análisis y declaraciones en sentido contrario, realizadas antes del Balotaje.

Dos de las empresas encuestadoras hicieron sus descargos por escrito, en sendos artículos publicados en sus sitios Web. Analizaremos cada uno de ellos en particular.

El artículo de la empresa Radar

El 26 de noviembre, apenas pasado el balotaje, la empresa Radar publicó en su Web un artículo titulado ‘«Las encuestas fallaron»: ¿una tormenta en un vaso de agua?’. El título era muy alentador, porque prometía algo que desde el fallecimiento de Luis Eduardo González no ha sucedido nunca más: que desde las propias encuestadoras de realice un análisis su trabajo como un sistema. Lamentablemente el contenido no tiene nada que ver con el título, que tal vez debería llamarse «mi encuesta falló»: bla, bla, bla, porque salvo una mención a una encuesta que Equipos realizó pero que no publicó por la veda y que no era pública al redactar la nota, no hay ninguna referencia a las encuestas como sistema.

Todo lo contrario: se construye un relato que explica las diferencias en base a una supuesta volatilidad de último momento del electorado uruguayo, fundamentado con lo que sucede en Alemania, Estados Unidos y el Reino Unido, a la vez que se toma selectivamente el análisis previo al balotaje y se le da una nueva interpretación, diametralmente opuesta a la que se hizo en su momento, en algo más cercano a la elaboración de una posverdad que a un análisis científico.

Esta es por ejemplo, una parte de lo escrito antes del balotaje que se ignoró:

«Este escenario [previo al balotaje] es muy similar al que registramos en nuestra encuesta anterior, realizada entre el 4 y el 11 de noviembre, y también es similar al que registrábamos antes de la primera vuelta, cuando cruzábamos la intención de voto en primera vuelta por la del balotaje. Parece entonces muy poco probable que se modifique significativamente en los días que restan antes de la elección del domingo.»1           

La tónica del análisis de la empresa Radar, que inclusive hace una referencia a las encuestas previas a la elección presidencial de octubre, está alineada con la de sus colegas, que palabra más, palabra menos, decían exactamente lo mismo. Perdón por la catarata de citas, pero es imprescindible.

Equipos:

«La intención de voto ha sido muy estable a lo largo de todo el mes. Aunque ha sido un mes intenso, con mucha actividad política de ambos candidatos, e incluso con un debate presidencial entre ellos, la opinión pública no ha tenido movimientos significativos.»

«La estimación del resultado presentado hoy no considera la influencia de dos efectos: los votantes que pueden llegar desde el exterior y los posibles cambios en los últimos días. Con respecto a lo primero, se estima que ésta influencia, si existe, debería ser algo inferior al 1% del electorado, por lo que en este contexto no sería significativa. En cuanto a lo segundo, la estabilidad de los datos a lo largo del mes sugiere que es poco probable que haya cambios drásticos en la última semana.»2

Factum:

«Cuando analizamos, según la fuerza del voto, tenemos que el escenario base, el más firme, muestra a Lacalle Pou con 50% de voto firme y un punto de lo que llamamos voto Débil o volátil. En el caso de Martínez pasa algo similar. Del 43%, tiene un 42% de voto Firme y un 1% de voto Débil o volátil.»

– «Eduardo Botinelli: Si nos fijamos en la estimación pura y dura, estamos en esa franja entre 50% y 52% para Lacalle, y 42% y 44% para Martínez.
– Periodista: No se van a acercar nunca.
– Eduardo Botinelli: La distancia puede moverse entre 10 y seis puntos [entre ambos].»3 

Opción:

«Para revertir la tendencia presentada, el oficialismo debería lograr un traspaso de votantes de 4 puntos desde Lacalle Pou a Martínez (dado que cada voto «vale doble»), lo que implicaría un cambio de preferencias aproximadamente de 100.000 votantes. Este es un objetivo de muy difícil alcance a pocas horas de la elección, sabiendo que las preferencias por bloques son históricamente de relativa rigidez y que tanto los resultados de octubre como la campaña de noviembre no alteraron significativamente el posicionamiento político de la ciudadanía.»

«Como salvedad, esta medición no abarca eventuales corrimientos de voto de último momento (es decir durante la veda y el mismo día de la elección). Tampoco sabemos cuál será la cifra final de votantes uruguayos provenientes desde el exterior, cuya intención de voto no está comprendida en nuestra encuesta. Sin embargo, en condiciones normales, ninguno de estos factores debería generar cambios radicales en la actual estructura de preferencias: el corrimiento de voto de último momento por bloques es menos probable que en otras instancias (ej: elecciones internas) y aún suponiendo una relativa alta afluencia de residentes en el exterior con marcado sesgo en favor de un candidato, el efecto no debería superar el punto porcentual.»4 

Cifra se mantiene en la tónica de las demás, ya que prevé una victoria clara, pero es la única que advierte que hay que esperar al domingo porque hay electores que pueden cambiar su decisión:

«Según nuestra proyección, Lacalle Pou obtendría una victoria clara, con alrededor de 170.000 votos más que Martínez. El sentimiento generalizado entre los votantes coincide con el de las encuestas. De todas maneras, hay que esperar al domingo. Esta proyección se basa en encuestas realizadas hasta el 17 de noviembre, y en la última semana hay electores que pueden cambiar su decisión. El domingo se sabrá quién será el próximo presidente.»5 

En resumen, antes del Balotaje las encuestadoras como sistema plantearon de forma muy clara y uniforme que la situación era muy estable y que la volatilidad estaba en el marco de un punto. Si la explicación de la diferencia fuera la volatilidad de último momento, como sugiere el artículo de Radar, entonces no cabría duda de que se equivocaron.

Equipos y la encuesta no publicada que después sí se publicó

En el transcurso de la cobertura del balotaje de Canal 10, después de cerradas las urnas y ante las notorias diferencias entre lo que estaba sucediendo y las predicciones de las encuestadoras, Ignacio Zuasnabar de Equipos mencionó encuestas que habían sido realizadas para los partidos políticos pero que no se publicaron por la veda, y que registraban un acercamiento entre Martínez y Lacalle.

El viernes 29 Equipos publicó en su sitio Web un artículo bajo el título «Comparación de resultados y análisis de las elecciones en segunda vuelta con nuestras encuestas»6 en el que se incluyen los datos y la metodología de esta encuesta.

Lo primero que hay que decir es de que a pesar de todo lo que dicen habitualmente las encuestadoras sobre el secreto, la propiedad privada y el derecho sobre los datos, cuando estos no tienen más valor comercial se pueden difundir sin inconvenientes y no pasa absolutamente nada.

En el artículo nos enteramos de que no se trata de una encuesta tradicional, sino de 200 casos diarios que se suman durante 7 días para llegar a un total de 1400 casos. Luego se siguen realizando 200 casos diarios que reemplazan a los 200 más viejos.

La selección de esta metodología y disponer de los datos día a día, nos permite sacar algunas conclusiones más interesantes que las que sacamos habitualmente.

La primera tiene que ver con la metodología, en la que como cada día se agregan solo 200 casos y se mantienen 1200 anteriores, se produce un efecto de aplanar las curvas y ocultar los cambios, inclusive algunos significativos.

Supongamos por un momento que mágicamente tenemos encuestas perfectas y que por tanto el 19/11 la intención de voto es exactamente 48% Lacalle 42% Martínez.

Ahora el 20/11 hacemos una de nuestras encuestas perfectas de 200 casos y detectamos un cambio: 47% a 43%. Nuestra metodología de 1200 casos anteriores + 200 nuevos nos haría publicar 48% a 42%.

Si nuestra encuesta perfecta de 200 casos da 46% a 44% e inclusive 45% a 45%, igual al sumar 1200 anteriores con los nuevos 200 nos haría publicar 48% a 42%. Recién cuando Lacalle llega a 44% o Martínez a 46%, el total a publicar se mueve un punto. Inclusive si detectáramos que la diferencia se redujo a un empate técnico, nuestra metodología lo ocultaría al publicarlo, reemplazándolo por estabilidad absoluta, al menos hasta el día siguiente.

Si los cambios no son tan drásticos y repentinos, de 4 puntos cada candidato en un día, cuando la encuesta se mueve un punto está reflejando una variación que sucedió dos, tres, cuatro o más días hacia atrás, por lo que el punto que se mueve el 21 estaría reflejando eventos que sucedieron el 19, el 18 o incluso antes. En cualquiera de los casos: movimiento drástico o movimiento lento, la metodología de Equipos es incapaz de reflejarlo de forma adecuada.

Es razonable pensar que Equipos eligió esta metodología por un tema de costos, para reducir la cantidad diaria de llamados, pero es evidente que la elección implicó una reducción en su capacidad de mostrar cambios importantes si se dan en poco tiempo, escondiéndolos en el aplanado de la curva que surge del lastre de los 1200 casos anteriores, por lo que la calma chicha que reflejan el 48 plano y el 42 plano durante los días anteriores a la veda pueden esconder en realidad turbulencias y variaciones significativas.

Una segunda conclusión, complementaria de la primera, es que los datos de campo tienen que haber sido mucho más cambiantes y dispersos de lo que muestra la gráfica.

Dado que todo lo que publicó Equipos entre el 11 y el 20 de noviembre es consistente y chato en 48% Lacalle, 42% Martínez, no es muy osado asumir que el 20/11 teníamos el acumulado de 7 días de esos valores. A partir de ello y haciendo un poquito de ingeniería inversa, podemos estimar los valores de los 200 casos durante la veda:

Somos conscientes de que estamos asumiendo muchas cosas y que estos datos no son los reales. Lamentablemente no tenemos los datos crudos de esta encuesta. Pero eso no impide ver lo principal: que el trabajo de campo no solo no daba sistemáticamente 6 puntos de diferencia, sino que tuvo que tener variaciones muy significativas.

Lo que parece confirmar el análisis detallado de la encuesta diaria de Equipos es lo contrario de lo que se propone mostrar el artículo. Lejos de recoger del campo datos que marcaran una estabilidad insensible a cualquier evento político previa a la veda, el campo traía todos los días novedades asombrosas, que metodología y ponderación mediante, no fueron reflejados en lo que se publicó, tanto al público en general como a los partidos políticos que eran clientes de la empresa.

La fragilidad de la tesis de la volatilidad de último momento.

La tesis de la volatilidad de último momento no solo está en abierta contradicción con lo que las encuestadoras escribieron en sus análisis previos al balotaje, es muy débil porque contradice un numero de evidencias muy importante, que intentaremos detallar a continuación.

Los períodos de volatilidad

Las encuestas tienen como materia prima al electorado, es decir a la sociedad toda en su rol político, decidiendo los destinos del país a través de elecciones. En ese contexto, es razonable pensar que los partidos y candidatos tienen sus propuestas arraigadas y por lo tanto hay poca volatilidad, con lo que los cambios se dan lentamente o que las propuestas no están arraigadas, que la masa de electores que dudan es muy grande, y por lo tanto hay mayores cambios y fluctuaciones repentinas, o cualquier situación en el medio. Lo razonable es que todo el ciclo electoral tenga una tónica de volatilidad dada, sea esta mucha, poca o mediana. Pensar que la tiene un día sí y el siguiente no suena más a forzar la realidad que a otra cosa.

Si siguiéramos la tesis de la volatilidad de último momento, el electorado uruguayo se comportó más o menos así:

  • En junio en las internas fue muy volátil, sobre todo en la última semana.
  • De allí al 27 de octubre, fue muy estable, sin volatilidad, lo que explica que las encuestadoras sí dieron un pronóstico ajustado en la elección nacional.
  • Del 27 de octubre al 20 de noviembre, se mantuvieron más estables que nunca, apegados a la rigidez de los bloques históricos, usando la expresión de Opción.
  • El 20 de noviembre se volvieron volátiles y generaron el resultado que todos conocemos.

La única forma de digerir este relato es, utilizando la tan mentada analogía, analizar la película cuadro a cuadro, aceptando en cada caso un análisis que ignora completamente tanto el cuadro anterior como el siguiente.

Los hechos políticos de último momento

En el análisis posterior al Balotaje, un director de una empresa encuestadora, del que no retuve el nombre, dijo en una entrevista radial que «toda elección tiene su Atocha».

Por supuesto que hechos de alto impacto cambian las preferencias y decisiones de los electores, pero la frase «toda elección tiene su Atocha» no es ajustada a la realidad. Hace referencia a los atentados del 11 de marzo de 2004 en el metro de Madrid, que se estima influyeron fuertemente e incluso modificaron el resultado de la elección que se llevó a cabo en España 3 días después. En los atentados murieron 193 personas y alrededor de dos mil resultaron heridos. Por suerte, la mayoría de las elecciones del mundo no son víctima de una brutalidad semejante, se trata, repito: por suerte, de un caso muy poco frecuente, por lo que la generalización a todas las elecciones resulta inconveniente y errada.

Comparar el video de Manini Ríos o algún otro evento político de los últimos días previos al Balotaje con los atentados de Atocha parece más un atajo explicativo que otra cosa, ya que no hay la más mínima proporción entre lo uno y lo otro.

Para que la tesis de la volatilidad de último momento sea cierta, los hechos políticos de la última semana tuvieron que tener un impacto muy contundente, mientras que la propia campaña, e inclusive para varias encuestadoras la elección de octubre, resultaron totalmente insensibles, no cambiaron ninguna decisión ni ninguna voluntad.

Listo solo algunos de los hechos que no habrían influido:

  • Conocimiento de los resultados de octubre
  • Formación de la coalición multicolor
  • Borrador del acuerdo multicolor
  • Firma del documento final del acuerdo multicolor
  • Negativa a participar en la foto de los líderes del acuerdo multicolor
  • Acto y foto con todos los participantes del acuerdo multicolor
  • Campaña de los 5 partidos del acuerdo a favor de Lacalle Pou.
  • Nombramiento de Orsi como coordinador de campaña de Martínez, desplazando a quienes coordinaron en la elección de octubre.
  • Nombramiento de la primera tanda de ministros.
  • Nombramiento de Astori y Mujica como posibles ministros.
  • Campaña voto a voto del Frente Amplio.
  • Campaña televisiva y participación de los candidatos en diversos programas periodísticos
  • Debate presidencial

Nada de esto, y de la miríada de otros eventos políticos que sucedieron en la campaña del balotaje influyó en los electores, pero de repente, cuando comenzó la veda, ahí si empezaron a pasar cosas realmente impactantes. No cierra.

Un escenario volátil genera encuestas más disjuntas

Para que haya un escenario volátil tiene que haber electores que dudan, muchos electores que dudan, que van de un lado para otro, que hoy están convencidos de algo y poco después de otra cosa y luego de lo primero o de algo distinto.

Un sistema de encuestas que trabaja sobre ese electorado debería reflejar la situación, siendo él mismo volátil. Ergo: un escenario volátil tiene que generar encuestas disjuntas y que cambian de una forma sensible en el tiempo. Nada más distinto que lo que pasó en el balotaje 2019 en Uruguay.

Las encuestas parecían calcadas de una empresa a la siguiente y cada una de la anterior, como si la realidad que encuestaban fuera de mármol y no de personas.

Algunas empresas además de reflejarlo en sus análisis, como citamos más arriba lo representaron gráficamente, como es el caso de Equipos y Opción.

La constante de todo el balotaje fue que la diferencia entre Lacalle y Martínez era de 6 puntos +/-1. No tengo el registro de todas las publicaciones de todas las encuestadoras en todos los medios, y tal vez haya alguna fuera de ese rango, pero lo central y dominante fue esa diferencia.

Sumado a ello, la apertura del rango de pronósticos es de un 1.5 puntos para Martínez y de 1.6 puntos para Lacalle y por tanto no hay ninguna encuesta que quede fuera del intervalo de confianza de otra encuesta, por lo que podemos afirmar que todas pronosticaron aproximadamente lo mismo, con una diferencia muy pequeña en el valor más probable. Nada más ajeno a lo que debería ser un sistema de encuestas sobre un electorado volátil.

La Navaja de Ockham

La Navaja de Ockham es un principio propuesto por el fraile franciscano, filósofo y lógico Guillermo de Ockham en el siglo XIV, según el cual la explicación más sencilla suele ser la más probable. Y este es el caso: la explicación más probable parece ser efectivamente la más sencilla y mundana de todas: pasó lo que pasa siempre, al menos desde hace cinco ciclos electorales: se movieron todas juntas como un rebaño, descartando en la ponderación las diferencias y variaciones que les traía el trabajo de campo.

La explicación de tan sencilla es casi trivial: un sistema de encuestas pronostica de forma aproximada, por lo que algunas encuestas sobreestiman un poco los resultados (están «por arriba») y otras encuestas subestiman un poco los resultados (están «por abajo»). Cuando todas las encuestas están por arriba o todas por abajo es síntoma que algo anda mal, y podemos decir que el sistema de encuestas tiene sesgo.

Si pasa una o dos veces cada 100, es razonable. Pero si eso ha sucedido durante dos décadas, todas las veces elección tras elección, entonces el sistema de encuestas tiene un problema metodológico, que permite prever que mientras no se corrija, volverá a suceder.

Si consideramos todos los candidatos que se presentaron a una interna, nacional o balotaje y que obtuvieron al menos el 4% de los votos en disputa, desde 1999 a 2014 hubo 43 candidatos: en 22 de ellos los pronósticos de las encuestadoras presentaron sesgo:

Todos los sesgos en Uruguay hasta 2014
Todos los sesgos en Uruguay hasta 2014

Si aplicamos el mismo criterio a este ciclo electoral 2019, lo primero a señalar es que considerado como un todo fue mejor que los anteriores y mejoró por tanto levemente el promedio global, que pasó de 22/43 a 29/60.

En las elecciones internas, si bien los errores fueron políticamente menos relevantes que en 2014, técnicamente hubo varios muy groseros, pifias significativas en las estimaciones de Lacalle, Sartori y Sanguinetti, donde el valor más cercano estuvo a 7 puntos del real. El caso de Sartori es realmente muy grave, porque los 5 pronósticos están dentro de un rango de solo 3 puntos, a más de 8 del valor real, un escenario ridículamente improbable.

El gran mérito lo tuvo la elección nacional, en la que no hubo casos de sistema de encuestas con sesgo, por primera vez en una elección al menos desde 1999. Es de destacar que en los análisis primó la mesura, la aclaración del alcance de la herramienta encuesta como método de estimación y la advertencia de que las encuestas eran realizadas unos días antes de la elección, por lo que había todavía incertidumbre.

Por qué no mantuvieron ese tono de precaución en el balotaje no lo sabemos, y dudo que lo sepamos alguna vez. Pero el resultado de las encuestas en el balotaje fue muy malo: todas las encuestas quedaron por debajo de Martínez y por encima de Lacalle, con el caso de Martínez muy sesgado, todas apiñadas en un punto y medio, a casi 3 puntos por debajo del valor real.

En resumen, tuvimos para las encuestas un ciclo electoral con los mismos vicios, sesgos y efecto rebaño que vemos desde 1999, que generaron escenarios virtuales que influyeron fuertemente en la democracia, con una prensa que no acierta a entender qué debe aceptar y qué no, con una academia omisa, que se mantiene tozudamente al margen de la discusión y con encuestadores muy activos en generar una posverdad que de por cierto lo que la ciencia refuta. ¿Será esta legislatura la de la ley de encuestas?