Nos renovamos para ti

Nuestros lectores y visitantes habrán notado recientemente una disminución notable en las actualizaciones del sitio, por lo cual pedimos disculpas. Sin embargo, el motivo es una serie de cambios que se están planeando para la empresa, el sitio y para los visitantes. Asesoría Estadística se renueva, se actualiza y con ella sus contenidos. En poco tiempo comenzaremos con nuevos artículos y enlaces a mucho más material, fruto de las colaboraciones que nuestro equipo tiene con asociaciones como la Royal Statistical Society o editoriales como John Wiley & Sons. Todo esto para promover, difundir y enseñar acerca de lo que la estadística está haciendo por el mundo. Con un mayor énfasis en el mundo empresarial y científico, confiamos en que el nuevo impluso que se le dará al contenido del sitio sea del agrado y gusto de todos. Y como siempre, esperamos sus opiniones.

Que lo disfruten.

Para que son las encuestas?(Parte I)

5 Decisiones que un candidato no puede tomar sin encuestas

Encuestas Confiables: Indispensables en cualquier campaña política.

Las encuestas son instrumentos científicos, aunque quizás de los que cuentan con una peor reputación en latinoamérica. Parte de esa mala imagen se debe a las encuestas electorales, comunes en los procesos políticos y muy susceptibles a “manipulaciones”. ¿Es eso verdad? ¿Se utilizan las encuestas sólo como arma mediática? Nada más alejado de la verdad, ya que estos estudios cumplen muchísimas funciones bastante más importantes y, de hecho, la gran mayoría nunca serán publicadas. Con los próximos comicios locales en diversas partes del país a la vuelta de la esquina, contamos con una excelente excusa para discutir la utilidad de las encuestas electorales. ¿Para qué las contrata un político? ¿De qué le sirven a los ciudadanos? Comencemos entonces discutiendo el uso que le dan a las encuestas aquellas personas que más las contratan y quienes, supuestamente, las utilizan sólo para pintarse como ganadores ante el mundo.

Desde hace cerca de 90 años que las encuestas se utilizan para medir preferencias electorales, con predicciones en procesos presidenciales que datan de los 1930’s en Estados Unidos. Una encuesta consiste en un estudio estadístico que implica la obtención de una muestra representativa que habrá de ser estudiada, medida y analizada para con esa información obtener inferencias acerca de la naturaleza de la población. En español, se trata del uso de herramientas matemáticas para medir a unos cuantos y así conocer la opinión de todos. Como ya hemos platicado en ASESORES, las encuestas tienen un sólido fundamento matemático y científico que ha permitido su uso en diversas ciencias como la medicina, la psicología o la medicina. Las encuestas electorales nacieron cuando se pensó se pensó en trasladar las ideas del muestreo al contexto del quehacer electoral.

Desde luego, los primeros interesados en esto fueron los políticos en sí. Una campaña política es una metáfora excelsa de una empresa: hay directores, empleados, departamentos de mercadotecnia, de producción, etc. Las empresas comunes y corrientes suelen administrar y redirigir sus esfuerzos en base a sus ventas, de forma que aquellos productos o servicios que generan menos dinero deben ser intervenidos o bien, terminados. Sin embargo, la gran y crucial diferencia entre una empresa y una campaña política es que en esta última todas las “ventas” se harán en un sólo día y si los “ingresos” no fueron suficientes en ese único momento, están acabados. No hay segundas oportunidades. Después del día de la elección, todo ha terminado. Así que hasta antes de las encuestas (e incluso hoy en día las campañas que, absurdamente, no cuentan con resultados de encuestas propios), los políticos basaban su estrategia en ideas y buenos deseos, sin tener ninguna idea del impacto que estaban teniendo en los votantes. Era hasta el día de la votación que se sabía si todo se hizo bien… o no.

Las encuestas electorales se convirtieron en una herramienta indispensable en el quehacer político, permitiendo medir los resultados que se espera observar el día de la elección: las campañas se convertían ya en empresas con un pronóstico de ventas sumamente confiable. A partir de ese momento, las encuestas se convirtieron en ejes de una campaña electoral, con decisiones, mensajes y discursos adecuados a sus estimaciones. Y de eso hace casi un siglo. Hoy en día la ciencia política ha avanzado al grado de que es prácticamente imposible tomar decisiones de alto impacto en una campaña sin antes consultar los resultados de un estudio estadístico. Una encuesta no es un instrumento mediático, sino una herramienta de campaña. Cientos de decisiones que se toman por el equipo de campaña dependen de forma directa de la imagen de una gráfica, pero para darle una idea a nuestros lectores, vamos a listar sólo cinco aspectos de una campaña que absolutamente requieren de considerar los resultados de encuestas a menos que el candidato desee que su empresa se dirija a una quiebra.

1. Orientar la Agenda del Candidato

Las tareas de un candidato son arduas y pesadas. Si alguna vez han considerado que su diputado o representante nunca trabaja, tengan el consuelo de que al menos una vez en su vida, durante la campaña, tuvo que trabajar. Por un lapso de alrededor de dos meses, la vida de un candidato está totalmente abarrotada de eventos, invitaciones, actos de campaña y comidas privadas con empresarios y personajes. Claro que en dos meses no puedes ver a todo el mundo, ni tienes por qué, ya que una de las más importantes funciones de las encuestas es dirigir la agenda de un candidato. Desde antes de que empiece la campaña, diversos estudios geográficos se obtienen a partir de las encuestas. Modelos matemáticos modernos permiten identificar a detalle y de forma puntual la diversidad de opiniones que existen en un país o estado. Con base a los resultados de encuestas, los profesionales en estadística podemos mapear las zonas donde reside el voto duro, el volátil y, particularmente, detectar a los indecisos. Con esta clase de resultados, un candidato puede determinar las visitas que debe programar primero, los lugares en donde debe programar eventos para “sacarse la foto”, el mejor momento de la campaña para visitar una zona difícil, etc. Ya durante la campaña, encuestas de seguimiento permiten que la agenda se vaya modificando para poder maximizar la cantidad de votos que puede conseguir el candidato con cada acto. Así que, ¿para qué estar en todos lados si una encuesta te dice exactamente dónde debes de estar?

2. Definir las promesas de Campaña

Todos los candidatos prometen. Es un hecho tan cierto como que el agua moja. Y todos los políticos (o al menos los que contratan encuestas) hacen promesas que les llegan a la gente, que están diseñadas para atraer y unirlos a su proyecto. ¿Magia, carisma? No, sólo ciencia. Mucho antes de que empiecen las campañas, diversos estudios de opinión se deben realizar en un lugar para conocer las preocupaciones e intereses de la sociedad. Los resultados de estas encuestas son mucho más confiables y actualizados que la información que muchos partidos obtienen de su estructura, además de más honesta. Estos datos se vuelven indispensables al momento de delinear las promesas de campaña. porque no se trata sólo de saber qué es lo que quieren los votantes sino quiénes. Un candidato no puede tener la misma plataforma para los jóvenes que para los pensionados, no puede ser el mismo mensaje para las madres solteras que para los estudiantes. Por ello, diversas técnicas avanzadas de investigación de mercados complementan los resultados de una encuesta para delinear demográfica y geográficamente las propuestas y plataformas que más impactaran en los votantes de cada segmento en particular.

En tiempos recientes, es muy común que esta clase de estudios se realicen desde una unidad central, con la idea de unificar todos las promesas de un partido o coalición, aunque siempre se entrelazan con estudios locales, más enfocados en conocer las necesidades puntuales de la población.

3. Perfeccionar la publicidad

Tan importante como el mensaje es su misma difusión y hemos sido testigos de un repunte increíble en el uso de elaboradas campañas de mercadotecnia en todo el mundo para difundir mensajes de candidatos. Sin embargo, nada de eso sería posible sin los resultados de las encuestas. Antes de que comience una campaña, diversas encuestas permiten crear un perfil de los votantes de interés para la campaña, aquellos que son los más probables de decidir la elección: pueden ser los hispanos, los pensionados, las mujeres, o en ocasiones una combinación de diversos grupos. En base a las últimas tendencias reveladas por los profesionales en estadística, se diseñan campañas de publicidad altamente segmentadas cuya eficacia es muchísimo mayor que la de mensajes generales a la población. Esta clase de publicidad, que es la que define a los ganadores y a los perdedores, se crea en base a los resultados de las encuestas, con mensajes muy personalizados. Una vez que las campañas han comenzado, encuestas de seguimiento evalúan el impacto de las distintas estrategias de publicidad, a fin de medir qué tanto están funcionando los espectaculares, los comerciales y los anuncios. Si se detecta algún sector que no se ha logrado alcanzar, nuevas estrategias publicitarias se diseñan para atacar los mercados específicos que señalan las encuestas.

El equipo de Barack Obama utilizó resultados de encuestas para generar mensajes segmentados para la población hispana: clave para sus dos triunfos.

4. Administrar las finanzas de la campaña

Todas las campañas tienen recursos limitados, ya sea por la legislación electoral o simplemente por el alto costo de los eventos (hemos visto campañas en las que un sólo evento puede ser más costoso que la inversión total en encuestas de la campaña). Como es imposible comprar todos los espacios, materiales y artículos promocionales que hay a disposición, es necesario preguntarle a un encuestador qué es lo que conseguirá votos. Estudios de posicionamiento de imagen permiten detectar de forma precisa las mejores zonas para contratar espectaculares, las mejores zonas para regalar camisas o cualquier otra forma que garantice ser recordado por los votantes, ya sea promocionando al candidato o al partido en sí. Basándose en los resultados de encuestas profesionales, las campañas actuales realizan una asignación de recursos más eficaz y eficiente. Basándose en encuestas las campañas dejan de gastar, comienzan a invertir en votos. Se evita colocar casas de campaña en zonas donde ya se se tiene asegurado el voto o se evita un gasto innecesario de tiempo en preparar actos de campaña en zonas donde conseguir el voto es imposible. Técnicas avanzadas de segmentación delinean cuidadosamente las zonas en las que poca inversión traerá una mayor cantidad de votos, al tiempo de que se reduce el uso y los tiempos del personal. Cuando el equipo de campaña cuenta con resultados confiables de encuestas, no se trata de disparar a ciegas, sino de apuntar con precisión milimétrica hacia los votantes.

5. Segmentar el Discurso

La mayoría de los políticos hablan bonito, pues de eso esperan vivir. Sin embargo, la mayoría de las veces no se debe al carisma o al talento dramático, sino a un adecuado uso del lenguaje que se basa, como casi toda la campaña, en encuestas. Tal como las promesas de campaña se basan en las necesidades e intereses reales de los votantes, el discurso del candidato se basa en las preocupaciones, preferencias y simpatías de los oyentes. Mediante estudios estadísticos se segmenta la población votante para encontrar los mensajes óptimos que lo acercaran al candidato. ¿Reunión con empresarios? No sólo prometas desarrollo, utiliza la palabra globalización y evita mencionar al presidente actual. ¿Estudiantes? No basta con prometer becas, es indispensable hablar de empleo al tiempo que elogias los avances de la administración actual en fomento cultural. Es bastante común que antes de cada evento, el candidato reciba un briefing sobre las claves de discurso, los temas que se deben evitar y los que hay que tocar a toda costa. Todos esos resultados surgen de encuestas. ¿Hablar mal de mi contrincante o guardarme esas fotografías comprometedoras para otro momento? Pregúntale a tu estadígrafo.

Como ven, gran parte de las decisiones que se toman día a día en una campaña política, decisiones que influyen de forma directa en la vida democrática de un país, tienen su origen en los resultados de una encuesta. Y debido a la importancia de esas decisiones, vale la pena hacer mención de que ninguna de estas estrategias funcionará si las encuestas no se realizan con estricto apego al método científico y matemático, generando resultados confiables. Por eso, como empresa encuestadora certificada antes diversas instancias electorales, podemos asegurarles que la manipulación de encuestas es un mito que se ha exacerbado. Sin meter las manos al fuego por nadie, es evidente que una campaña política se beneficia mucho más de resultados veraces, que aunque sean negativos le permitirán al equipo del candidato corregir y mejorar las estrategias para el día de la elección. Simplemente, a un candidato le conviene más saber la dura verdad que comprar una dulce mentira. Los casos de manipulación se limitan a situaciones aisladas.

Tal y como han leído los resultados de una encuesta van mucho más allá del típico ¿Quién va ganando? El uso de modelos matemáticos y de las últimas tendencias en investigación de mercados han cambiado para siempre el quehacer electoral, volviendo obsoletos los antiguos métodos no basados en ciencia. Pero las encuestas no sólo son instrumentos políticos utilizados por candidatos y políticos para manipular, sino que son también una herramienta indispensable de la opinión pública, fuente de información y retrato de nuestra sociedad actual. En un próximo espacio, analizaremos más a detalle acerca de cómo las encuestas electorales son utilizadas no sólo por los equipos de campaña, sino también por medios de comunicación, organizaciones y sociedad en general como una herramienta democrática. Hasta entonces.

Buscando la cultura

El desarrollo cultural es una de los pilares de una nación y México, siendo un país donde las raíces artísticas y culturales sobresalen, debe tratarse de una República con un alto nivel de participación artística y cultural en su sociedad. Al menos, en teoría. En la práctica, un análisis estadístico nos brindará un panorama más claro y verídico de la distribución de la cultura a lo largo y ancho del territorio nacional, o al menos, del negocio de la cultura. En esta ocasión utilizaremos un par de herramientas comúnmente socorridas por las grandes empresas para la Investigación de Mercados para ayudarnos en esta tarea.

Aunque existen muchas formas de arte y cultura que no pueden ser contabilizadas o medidas, en este ejercicio analizaremos la distribución de las empresa y unidades económicas que por su gira se relacionan con actividades culturales o artísticas. De acuerdo al Sistema de Clasificación Industrial de América del Norte, SCIAN, en su versión 2007, son tres las ramas de actividad que se incluyeron por relacionarse con actividades artísticas y culturales, tal como se aprecia en la siguiente tabla:

Ramas de actividad consideradas relacionadas con la cultura de acuerdo a información del SCIAN.

Con la información oficial obtenida y a fin de observar de forma más gráfica los lugares de la república en los que se concentran las actividades culturales y artísticas de México, se diseñó el siguiente mapa. En él se muestran los lugares con un mayor número de Unidades Económicas de interés para este ejercicio:

Ubicación Geográfica de las Unidades Económicas de interés por su relación con actividades culturales y artísticas.

Se puede ver fácilmente que las unidades económicas con actividades relacionadas con la cultura y el arte se distribuyen por todo el país, aunque es claro que algunas entidades como Chihuahua, Sonora, Oaxaca o Veracruz presentan números más bajos. La zona del centro del país, en particular la del valle de México cuenta con numerosas empresas en estos ramos. Sin embargo, hay una crítica importante que se debe plantear. El mapa presenta números totales de Unidades Económicas que por su giro cumplen los perfiles de interés. Sin embargo, es de esperarse que las partes de la República con una mayor población tengan por ende un mayor número de entidades económicas y, por lo mismo, una mayor representación de unidades económicas dedicadas a actividades culturales o artísticas. A fin de analizar si este aspecto está sesgando nuestros resultados, se calcula una tasa de Unidades por cada 100,000 habitantes. Esta tasa permite comparar, ya de manera precisa, la presencia de unidades económicas relacionadas con la cultura a lo largo y ancho de México, lo que se ve en el próximo mapa:

Ubicación Geográfica de las Unidades Económicas de interés por su relación con actividades culturales y artísticas. Tasas por cada 100,000 habitantes

A simple vista no hay un gran cambio en la distribución de los mapas. Lo más interesante es el caso del estado de Oaxaca en el que un par de municipios presentan tasas realmente altas. Otro estado en donde se da un fenómeno similar es en Puebla. Caso contrario es el del Distrito Federal, que pasó de tener de los niveles más altos del país a tasas similares a las del Estado de México. En ambos mapas, es evidente que la zona sureste y centro del país agrupa mayores números de Unidades Económicas con perfil cultural. El noroeste de México es la zona menos privilegiada por estos números.

De esta manera, es posible analizar la ubicación de las distintas empresas dedicadas al ramo cultural en el país. Es clara la aplicación que este tipo de análisis tiene para la Investigación de Mercados. ¿Le interesa localizar a su competencia? ¿Está buscando el mejor lugar para un nuevo negocio? Sin duda, esta clase de mapas le permitirán tener información que será una gran ventaja al momento de planear sus programas de expansión. De momento, ha sido clave para entender la forma en la que el negocio de la cultura y el arte se desarrollan a lo largo del país.

Ganarse el premio mayor

Todos tenemos amigos que dejan que abusemos de su profesión para obtener consultas gratis. Ya sea un amigo doctor al que le preguntas qué medicina tomar por teléfono o el contador al que constantemente acudimos cuando hay que hacer declaraciones de impuestos. ¿O quién no conoce a un abogado al que le preguntas hasta si puedes demandar a tu jefe por usar ese bigote? Bueno, aunque no lo crean, a los estadígrafos también nos hacen consultas de ese tipo, aunque por lo general suele casi siempre ser la misma pregunta: ¿Cómo me gano la lotería? Un especialista en estadística tiene conocimientos avanzados de datos, es un experto en probabilidad, en detectar patrones y dispone de múltiples técnicas para predecir el futuro. Sin duda es el experto ideal para decirte cómo se debe ganar la lotería. Y, de hecho, algunos lo han logrado.

Este hombre ganó la lotería sólo por saber matemáticas. De repente no parece tan aburrida la clase, ¿verdad?

Este hombre ganó la lotería sólo por saber matemáticas. De repente no parece tan aburrida la clase, ¿verdad?

Charles Marie de la Condamine fue un matemático y estadístico que ganó una lotería gracias a su habiliad matemática. El sorteo en cuestión ocurrió entre 1728 y 1730 y fue patrocinado por el gobierno francés con la finalidad de obtener fondos. Sin embargo, el gobierno francés cometió un error que aún cometen muchas empresas el día de hoy: no consultaron a un matemático. Al parecer, el gobierno ofreció un total de premios mayor a la cantidad que esperaban obtener incluso vendiendo todos los boletos.

Charles Marie de la Condamine descubrió que esto les daba una ventaja matemática notable y se alió con otra prominente figura, el filósofo François Marie Arouet, mejor conocido como Voltaire. Juntos compraron una gran cantidad de números, lo que a final de cuentas resultó en cuantiosas ganancias para ambos. Algunas fuentes indican que Voltaire se embolsó un millón de francos con esta maniobra y hay quienes afirman que esta riqueza que obtuvo siendo joven es lo que le permitió tener el tiempo y la disposición para poder escribir y producir su obra.

Entonces, ¿todos los especialistas en estadística podemos volvernos ricos manipulando las loterías? Lamentablemente no, ya que hoy en día la mayoría de los sorteos sí están supervisados por expertos en matemáticas que precisamente buscan que el juego brinde ganancias a los patrocinadores y que no puedan surgir maniobras como la realizada por Voltaire y su equipo. Por lo general, un sorteo de lotería sigue siempre una misma estructura: el jugador selecciona m números de un total de M posibles. Se realiza una selección aleatoria de, por lo general, seis números y entre mayor cantidad de aciertos haya entre los m escogidos y los 6 seleccionados, mayor es el premio. Los montos de los premios se asignan matemáticamente para que la casa siempre tenga ventaja, muy similar a lo que se hace para los juegos de casino. Así que no, los premios ya no pueden ser explotados como se hizo hace casi 300 años.

Bueno, pero seguramente debe haber modelos, predicciones o herramientas para estudiar las tendencias y predecir patrones en los números. ¿No? Sin importar lo que te hayan dicho en ese e-mail, no se puede hacer. Eso implica que todos los programas que circulan ofreciéndote un “análisis científico” y estadístico de los resultados de las loterías son basura y no tienen ninguna utilidad en la vida real. La razón es que los sorteos de lotería se diseñan para que cada resultado sea independiente del anterior, de forma que sea inútil utilizar la información de resultados previos para predecir los números que aparecerán. ¿Qué quiere decir eso? Que aunque haya aparecido 50 veces seguidas el número 6 en premios anteriores, eso no implica que el número vaya a aparecer con mayor probabilidad (o menor) en la siguiente tómbola. Pero no te sientas mal si alguna vez pensaste que tenías que apostar todo al rojo en la ruleta luego de ver tres premios al negro. Esta confusión es tan común que tiene su propio nombre, la falacia de Montecarlo o la Falacia del Jugador. Consiste en una ilusión lógica por la que se cree erróneamente que los sucesos pasados afectan a los futuros en cuestiones en las que interviene el azar, como si tuvieran alguna memoria. Y vaya que es común, nadas más considera que cuando un error tiene su propio nombre se debe tratar de algo serio.

Bueno, hasta el momento sólo hemos dado malas noticias, lo que seguramente nos traerá muy mala publicidad. ¿No puede acaso una de las empresas líderes en el conocimiento estadístico en Latinoamérica ofrecer una ayuda, aunque sea pequeñita, para ganar la lotería? La triste realidad es que no, no podemos mejorar la posibilidad de que ganes, esa probabilidad es fija. Pero a petición de todas esas personas que alguna vez me han preguntado para qué estudié estadística si no se puede analizar la lotería, podemos contribuir para que, si se da el remoto caso de que llegaras a sacarte el premio, ganes una cantidad de dinero mucho mayor. Y eso sin explotar las debilidades del juego, sino mediante las debilidades de las personas que juegan.

Pero antes de ganar mucho dinero, tienes una tarea. Piensa en cinco números aleatorios. En serio, sino no podrás hacerte rico. ¿Listo? ¿Ya? Bueno, me temo que fracasaste porque los números que pensaste no son aleatorios. Para comenzar, seguramente elegiste puros números enteros, no creo que hayas pensado en el 32.953211 ó en ninguno similar. También es muy probable que hayas elegido números muy separados (3,150,921) o demasiado juntos (4,12,18,24,35). Numerosos estudiosos concluyen que los seres humanos no pueden generar de forma natural números al azar, debido a que la mente humana suele caer en trampas como la falacia de Montecarlo.

Ese fracaso al seleccionar números al azar nos lleva a pensar que al seleccionar los números de la lotería, las personas siguen casi siempre patrones no aleatorios. La “selección consciente”, término utilizado por primera vez por Cook and Clotfelter, se utiliza para definir esa tendencia de las personas que juegan lotería de elegir números no aleatorios. Agreguemos además algunas prácticas comunes que siguen las personas al elegir sus números de la suerte: dar prioridad a cumpleaños, fechas de aniversarios o números universalmente cabalísticos como el 7, el 13 ó el 21. Este fenómeno, ocasiona que algunas combinaciones sean más populares que otras. Pero bueno, seguramente te estarás preguntando, ¿eso cómo me va a hacer rico? Veamos con un ejemplo sencillo.

Chucho y Martín siempre juegan la lotería. Chucho siempre elige sus números de la suerte: 7, 21, el día de su boda, cuando nacieron sus hijos y la fecha en que Barcelona contrató a Lionel Messi. Martín, por otra parte, utiliza una computadora para elegir números completamente al azar. Seis meses después, Chucho se gana el premio mayor. Sin embargo, cuando va a cobrar el premio descubre que el monto se repartirá entre 10 concursantes que también habían elegido esa combinación, ya que al parecer el día en que la “pulga” llegó a España es un día de fiesta nacional en muchas partes. Así que sea cual sea el monto del premio, Chucho lo divide entre 10. Seis meses después, Martín se gana el premio, pero su combinación aleatoria era tan estrafalaria que ningún otro concursante la seleccionó. El premio es para él solo. Si en ambos casos el premio mayor fuera el mismo, Martín ganaría 10 veces más. El problema de Chucho es que, sin darse cuenta, estaba jugando una combinación de números que tenía una probabilidad mucho más alta de repartirse.

La clave del sorteo es ser codicioso. No repartas tus ganancias con nadie

La clave del sorteo es ser codicioso. No repartas tus ganancias con nadie

Este detalle puede ser serio, ya que podría significar que el milagro de ganarse la lotería sea mucho menos “efectivo”. Y no es sólo una suposición, es algo que se ha documentado. Durante los primeros años de la lotería en el Reino Unido las ventas ascendían a los 65 millones, lo que en promedio generarías 4.65 ganadores del premio mayor cada sorteo. Sin embargo, el día 14 de enero de 1995, el premio tuvo que repartirse ¡entre 133 ganadores! La combinación ganadora no se le atribuyó a ningún futbolista. Los números 7, 17, 23, 32, 38, 42, con la bolita de bonus en 48 formaban una curiosa figura de zig-zag en la boleta. En este caso, los ganadores siguieron una “selección consciente” dibujando un patrón definido en la hoja del luego. Si hubiese habido un sólo ganador, se hubiera embolsado la no tan despreciable cantidad de 16 millones de libras. Sin embargo, en ese día cada ganador únicamente obtuvo 122, 510 libras. A menos que seas gobernador de Veracruz, ganar la lotería es algo que pasa muy poco en la vida, así que lo mejor es asegurarte de que ganes la mayor cantidad de dinero posible.

Por eso, lo ideal es elegir los números menos populares. Según estudios realizados a las loterías en Gran Bretaña y España, 36, 37, 41, 45, 46 y 47 son los números menos comprados. Claramente los números menores tienen un mayor atractivo. Sería mucho más interesante estudiar las combinaciones menos populares pero para eso se requerirían datos que las compañías que realizan los sorteos se niegan a divulgar. Otra alternativa es elegir los números al azar, con algunos de los sistemas que ofrecen las loterías, pero eso sí, siempre rehuyan de las combinaciones de números que parezca que puedan ser elegidas por la gente, como los números sugeridas en horóscopos o galletitas de la fortuna. Recordemos que en el 2005, 110 personas ganaron el segundo premio de la lotería gracias a jugar la combinación que encontraron dentro de un postre. Por supuesto, el premio estuvo bastante diluido. Así que ya lo saben, todas las combinaciones tienen la misma probabilidad de ganar, la cual es deprimentemente baja. Pero si se sienten con suerte, asegúrense de jugar números poco comunes para que así su premio sea mucho más jugoso y un poco menos repartido.

Periodistas: Nos necesitan

Datajournalism, el periodismo del futuro

Datajournalism, el periodismo del futuro

La estadística es la ciencia del análisis de datos. La definición correcta implica demás la recolección e interpretación de los mismos, pero aquí no vamos a definir la ciencia sino a comentar sobre su extenso, muy extenso rango de aplicación. La estadística es clave para negocios, turismo, economía, administración, mercadotecnia, calidad, medicina, epidemiología, sociología, investigación médica y farmacéutica. Indispensable en la política, la agricultura y la psicología. Y hoy se desarrolla una nueva gama de aplicaciones apasionantes e interesantes en una profesión que hasta hace poco nunca se había relacionado con el análisis matemático: el periodismo. Un momento. ¿Periodismo? Qué tiene que ver eso con estadística? Un periodista escribe, no calcula. Un periodista debe contar historias, no números. Vaya, un periodista debe investigar, indagar, descubrir la verdad… mmm… ¿saben qué? creo que sí se parecen.

El periodismo y la estadística han ido de la mano por muchos años. Desde la década de los 60’s, en el siglo pasado, se han comenzado a vislumbrar distintas piezas de información basadas primordialmente en análisis de datos. Durante la última década, avances en la computación y, sobretodo, la monumental cantidad de datos disponibles en la red han motivado un creciente interés en el uso de estadística, modelos y técnicas de minería de datos para presentar reportajes más completos, reales y trascendentes para el lector. Sin embargo, el auge de esta disciplina es nuevo y se lo debemos a la gente de Julian Assange. En julio de 2010, Wikileaks liberó una importante cantidad de documentos referentes a la guerra en Afganistán, en un hecho histórico e inusitado que puso en manos del mundo información valiosísima y en gran cantidad. De repente, los periodistas tenían cientos y cientos de líneas y fuentes, muchas referencias, todas de primera mano, para contar la verdadera historia de la guerra norteamericana. Pero entonces descubrieron la nueva realidad del periodismo: exceso de información. Había cientos de cartas. ¿Cómo elegir las mejores? ¿Cómo encontrar la información relevante, importante para los lectores? ¿Cómo encontrar una respuesta útil entre tantas respuestas posibles? En ese momento, los periodistas recurrieron a la estadística. Nació entonces, el data journalism.

El nuevo término, que se traduciría como periodismo de datos, se volvería la nueva tendencia de reportajes a nivel global. Hoy en día todos los grandes medios de comunicación, periódicos y agencias de noticias tienen equipos de expertos especializados en análisis de datos que apoyan y trabajan de forma conjunta con reporteros y columnistas. Pero, ¿cómo funciona el periodismo de datos? Cynthia O’Murchu, corresponsal del Financial Times lo describe de forma muy acertada:

El objetivo no es sólo analizar o visualizar datos sólo porque sí, sino utilizarlos como herramientas para acercarse a la verdad de lo que está sucediendo en el mundo. Veo la habilidad de analizar e interpretar datos como una parte esencial de las herramientas de los periodistas, no como una disciplina separada. Finalmente, se trata de reportar adecuadamente y contar historias de la mejor manera.

Sarah Slobin, periodista del Wall Street Journal agrega:

El universo de datos puede recorrerse para contar historias, responder preguntas y para impartir y comprender la vida en formas que superan incluso la más cuidadosa reconstrucción de anécdotas.

El periodismo basado en datos es el futuro. El problema es que no parece ser el presente, a tal grado que se sigue ignorando en los cursos tradicionales de periodismo, a pesar de que prestigiosas publicaciones como el New York Times, el Wall Street Journal o el Deutsche Welle lo consideran indispensable en su día a día laboral.

Sin embargo, no vamos a decirle a cada uno de los periódicos, canales de televisión y medios que deberían contratar a un especialista en estadística (deberían hacerlo, pero no se los vamos a decir). En ASESORES nos gusta ofrecer soluciones, por eso tenemos un tip para todos los periodistas, reporteros, empresarios y cualquier persona interesada en el trabajo periodístico. Es un muy buen consejo que seguramente les ayudará a producir información y contenido de mucho mejor calidad. ¿Quieren el consejo? Aquí lo tienen: estudien. No es posible seguir trabajando sin las herramientas de análisis e interpretación que un especialista en estadística puede aportar. Por eso es indispensable que los reporteros cuenten con una mayor capacidad de análisis y un mayor manejo de herramientas computacionales, de análisis matemático y de estadística. En ASESORES ofrecemos diversas opciones de capacitación, algunas enfocadas en periodismo de datos (algunos de nuestros asesores tienen el gusto de colaborar con publicaciones internacionales de data journalism). Pero para aquellos periodistas independientes, interesados en ofrecer a sus lectores, a su público, información de más y mejor calidad y que por motivos económicos optan por el autoaprendizaje, también tenemos ayuda.

The Data Journalism Handbook

The Data Journalism Handbook

Hace poco menos de un mes se publicó en línea el primer manual de periodismo de datos: The Data Journalism Handbook. Este manual, trabajo cooperativo de más de 70 reporteros pioneros en el uso de análisis estadístico para contar historias, es un proyecto internacional en el que colaboraron medios de Japón, Finlandia, Nigeria, y los Estados Unidos, entre otros países. El curriculum de los colaboradores es también impresionante, ya que este material cuenta con el respaldo de algunos de los periódicos más importantes del mundo, como el New York Times. Y lo mejor de todo, esta guía especializada en enseñar los principios básicos que debe seguir un periodista para utilizar el periodismo de datos es gratis. Puede accederse en línea a través del siguiente enlace. The Data Journalism Handbook ofrece ejemplos prácticos y reales de casos exitosos de análisis de datos utilizados para ofrecer información valiosa y útil para los lectores. ¿Está diciendo el presidente que ha mejorado el nivel de vida en el país? Veamos lo que dicen los datos. ¿Está realmente siendo combatida la pobreza? Revisemos la información disponible. ¿Se ha superado la crisis económica? No hay por qué preguntarle al ministro de economía, tenemos datos para verificarlo.

El periodismo de datos es la gran tendencia mediática en el siglo XXI. Con más y mejor información disponible, en poco tiempo los medios de comunicación que sigan basando sus historias en las prácticas de antaño quedarán rezagados. El Data journalism está cambiando la manera de hacer periodismo. Y nadie mejor que un periodista para decirnos eso. Mirko Lorenz, colaborador del Deutsche Welle nos brinda la conclusión perfecta al distinguir de forma muy clara las ventajas del periodismo de datos:

Aquellos periodistas que se vuelven expertos en el análisis y visualización de datos experimentaran pronto un gran alivio al construir artículos basados en hechos y en interpretaciones. Menos adivinanzas, menos búsqueda de referencias, en su lugar, el periodista puede construir una posición firme, sustentada en datos y esto puede afectar definitivamente el papel del periodismo.

El Rumbo de una Nacion

En Enero de 2011, miles de ciudadanos egipcios se enfrentaron al gobierno con la demanda de un nuevo sistema de gobierno que llenara el vacío que el régimen de Hosni Mubarak había creado. La falta de elecciones libres, la brutalidad policíaca y muchos otros asuntos legales y políticos fueron la chispa que desataría un incendio que se extendería por todo el mundo árabe. El gobierno le había fallado a sus ciudadanos. Era hora de que los ciudadanos encontraran una solución.

Todos los gobiernos del mundo tienen un sólo propósito en mente: darle el mejor nivel de vida a sus ciudadanos. Al menos en teoría, esa es la labor de cada gobernante en cada rincón del planeta. Cada revolución, cada protesta se presenta cuando una persona o grupo considera que el gobierno está fallando en algunas de esas tareas vitales que los ciudadanos le han encomendado.

Precisamente por eso los gobiernos son los principales consumidores de estadísticas. Las autoridades saben que es indispensable contar con información que permita no sólo tomar decisiones respecto al futuro de un país, sino también medir de forma real y objetiva si se están alcanzando los objetivos planteados por el sistema. Y simple y sencillamente, si no utilizas la estadística para medir algo, seguramente lo estás midiendo mal. De esta forma se han invertido miles de millones en la generación de información, además de cientos de publicaciones y avances en la ciencia que surgen del anhelo de las naciones de entender y comprender la situación que atraviesan sus gobernados.

OCDE

OCDE, Más de 60 años calculando estadísticas para los países miembros

¿Pero qué es lo que tiene que medir un gobierno? ¿Cómo puede un presidente saber si su población cuenta con los recursos para desarrollarse, o si tienen disponibles los medios necesarios para crecer? ¿Cómo puede un gobierno saber si su población es feliz? ¿Cómo puede medirse algo tan esquivo como la corrupción? Créanlo o no, diversos avances científicos han enfrentado todos estos asuntos, brindando algunas soluciones ingeniosas e interesantes para medir el alcance de los problemas básicos de la humanidad. Estas son sólo algunas de las muchas formas en que la estadística está ayudando a los gobiernos a ofrecer a sus ciudadanos soluciones a los problemas del día a día.

Midiendo la Pobreza

Las Naciones Unidas define la pobreza fundamentalmente como una negación de oportunidades, del derecho a elegir, por lo que se califica como una violación de las necesidades básicas del ser humano. El nivel de pobreza de sus habitantes es uno de los criterios más utilizados para medir el fracaso o éxito de una población, razón por la que es uno de los indicadores más medidos por los gobiernos de cientos de países en el mundo.

El problema para medir la pobreza se asocia más a la definición del término que a complicaciones matemáticas. Una definición ampliamente estudiada es la que limita la pobreza a las personas que cuentan con un dólar al día o menos para cubrir sus necesidades. El Banco Mundial coloca el límite de pobreza extrema en 1.25 dólares, con otros organismos y metodologías fijándolo entre 2 y 5 dólares diarios. Aún así todos estos criterios son, en el mejor de los casos, incompletos. La realidad es que la pobreza no depende únicamente del ingreso. Un ejemplo extremo es el de un campesino que posee tierras y cosechas suficientes como para alimentarse a él y a su familia y que intercambia los excedentes por otras necesidades puede tener un nivel de vida aceptable con un ingreso nulo. A fin de producir resultados más precisos y válidos sobre la verdadera situación de un país, se han diseñado Índices de Pobreza Multidimensionales enfocados en el cálculo de la pobreza considerando distintos criterios además del ingreso familiar. Uno de sus índices, ampliamente utilizado, es el desarrollado por Alkire y Foster a través de la Iniciativa de Pobreza y Desarrollo Humano de la Universidad de Oxford (Oxford Poverty & Human Development Initiative). Este índice considera diez indicadores de pobreza divididos en tres grupos: educación, salud y estándares de vida. Actualmente las mediciones multidimensionales de la pobreza son el estándar internacionalmente aceptado.

La raíz de la Corrupción

corrupción

¿Pueden las estadísticas medir la corrupción?

La Corrupción es un problema que afecta, en mayor o menor medida, a todos los países del mundo. Más preocupante aún es su naturaleza esquiva y sigilosa: es un mal que se mantiene escondido por definición. Claramente, esto plantea grandes dificultades al momento de medir la corrupción y el impacto que tiene en los habitantes del país y, sin embargo, esto no ha impedido el desarrollo de técnicas orientadas a la medición científica de esta problemática. Transparency International es una organización dedicada al estudio y medición de la Corrupción, aunque no de manera directa, sino a través de la Percepción de los ciudadanos hacia los hábitos de Corrupción. El Índice de Percepción de Corrupción (Corruption Perceptions Index) asigna un valor entre 0 y 10 a más de 180 países, de acuerdo a respuestas de un cuestionario que miden la percepción de las personas hacia la Corrupción, como pudieran ser “¿Cree usted que este país es corrupto?”. Claramente, este estudio no mide directamente la corrupción, pero presenta indicadores muy interesantes acerca de las actitudes y percepciones de cada país. Aunque se han detectado algunas diferencias entre metodología de país a país, lo que impediría hacer comparaciones, el índice ha generado gran atención entre diversas agencias y está ocasionando un interesante debate por perfeccionar las mediciones científicas de la Corrupción.

Economía y Desigualdad

Así como la pobreza es crucial para entender el nivel de desarrollo de los habitantes, la distribución del ingreso y sus componentes es muy importante para determinar las más apropiadas políticas públicas y de desarrollo que debe seguir una nación. Uno de los primeros esfuerzos por medir el bienestar económico fue el Índice de Miseria (Mysery Index) desarrollado por el economista Arthur Okun. Dicho índice se definía simplemente como la suma de la inflación más la tasa de desempleo. Actualmente el índice se ha perfeccionado para incluir información del mercado de bonos y las tasas de crecimiento.

Curva de Lorenz, herramienta para medir la distribución del ingreso.

Por otra parte, la distribución de la riqueza de una nación es un tema que se ha estudiado de forma exhaustiva. Una contribución clásica de la probabilidad en la economía es la denominada Curva de Lorenz, que es una representación gráfica de la función de distribución acumulativa de la función de probabilidad empírica de la riqueza. Sí, se oye intimidante, pero se trata de un gráfico sencillo que permite visualizar que tan distribuidos están los recursos de una nación. Pero a los estadígrafos nos gustan los índices y es por eso que el coeficiente de Gini, medida de dispersión estadística desarrollada por el italiano Corrado Gini, ha sido adaptado para medir la distribución del ingreso en diversos países del mundo como medida de la igualdad.

Salud

Mucho dinero se invierte en medir y estudiar la salud de los habitantes de un país. Una de las formas más antiguas de medir la salud es el uso de las tasas de mortalidad. Estas mediciones permiten conocer a detalle las causas de muerte de la población con la finalidad de generar políticas de prevención. A partir de esas tasas se generan las mediciones de esperanza de vida, el indicador más comúnmente empleado a nivel mundial para medir la salud de la población. Cabe agregar que la esperanza de vida se calcula no sólo de forma global, sino también para cada sexo, cada grupo de edad (cohortes que suelen definirse con rangos de 5 años) e incluso por región y hasta por ocupación. Toda esta información está diseñada para ofrecer a los gobiernos mediciones detalladas del impacto que las políticas de salud están teniendo en los habitantes.

Felicidad

En 1972 el rey Jigme Singye Wangchuck hizo algo que ningún otro gobernante en el mundo jamás había intentado antes. En su afán por modernizar el pequeño país de Bután, ubicado en las laderas de los Himalayas, el monarca decidió que su país no debería encaminarse hacia un aumento del crecimiento económico a través del Producto Interno Bruto, sino que el objetivo de su gobierno debería ser un incremento constante en la “Felicidad Nacional Bruta”. El término nació como una forma de establecer la prioridad de su gobierno en centrar la economía en los valores y tradiciones de la región. Aunque pareciera tratarse de un clásico concepto de esos que se pierden en los discursos de los políticos, aquí sí se lo tomaron muy en serio. El Centro de Estudios de Bután desarrolló una encuesta que se aplica periódicamente para medir la Felicidad Nacional Bruta de los ciudadanos y tener un indicador del progreso de la calidad de vida de los habitantes del país.

Tashichoedzong, Thimphu, Bután

Tashichoedzong, Thimphu, sede del gobierno de Bután.

La idea cruzó fronteras, ayudando a desarrollar índices similares en todo el mundo. EL International Institue Management creó un índice de felicidad que se mide considerando factores como el bienestar físico, el bienestar mental, bienestar en el trabajo, capacidad económica e incluso el bienestar del medio ambiente. Usando modelos matemáticos se obtiene una medida de la felicidad de las personas. El Happy Planet Index, realizado por the new economics foundation, es una medida de la felicidad que incorpora además medidas de desarrollo sustentable para brindar un mayor peso a aquellos países que brindan altos niveles de felicidad a sus gobernados y además cuidan el ambiente. Todos estos valores coquetean con la idea de crear estadísticas y resultados que midan el desarrollo humano y la felicidad de forma integral, no simplemente en términos económicos sino también humanos, psicológicos y espirituales.

Y están no son todas las aplicaciones que la estadística ha encontrado en los gobiernos. La estadística es clave para medir la inflación, el desempleo, los niveles de aceptación de gobernantes y muchas otras medidas que el gobierno Egipcio hubiera deseado tomar en cuenta para evitar una revolución. Es fácil entender como la estadística se convirtió en la ciencia del estado, pues es una ayuda irreemplazable para que los gobiernos puedan cumplir su tarea con los ciudadanos.

Protegiendo a Wikipedia

La estadística está encontrando nuevas aplicaciones, esta vez como guardia de seguridad. Y no es una tarea sencilla, porque se le ha encomendado a la estadística la protección de uno de los valores más populares, del siglo XXI, tan importante que se encuentra entre los 10 sitios web más populares del mundo: Wikipedia. Pero, ¿cómo puede la estadística cuidar a Wikipedia?

Wikipedia es una enciclopedia libre, sin ánimo de lucro, desarrollada por la Fundación Wikimedia. Sus más de 20 millones de artículos en 282 idiomas y dialectos han sido redactados conjuntamente por voluntarios de todo el mundo y prácticamente cualquier persona con acceso al proyecto puede editarlos. Iniciada en enero de 2001 por Jimmy Wales y Larry Sanger, es actualmente la mayor y más popular obra de consulta en Internet. Su popularidad es tal que crecientemente han Pero Wikipedia no es perfecta. Su mayor ventaja, la posibilidad de ser ampliada y actualizada por cualquier persona, es también una de sus mayores debilidades. Estas críticas están centradas en su susceptibilidad de ser vandalizada. El vandalismo en Wikipedia tiene una definición muy particular, desarrollada por los mismos creadores de la enciclopedia: Vandalismo es cualquier adición, eliminación, o modificación de contenido realizada de manera deliberada para comprometer la integridad de Wikipedia. Aunque se refiere sobretodo a travesuras deliberadas en la mayor parte de los casos, el vandalismo es un asunto muy serio dentro del desarrollo de Wikipedia, uno que ha dado origen al desarrollo de numerosas tecnologías para solucionarlo.

La primera solución obvia para combatir el vandalismo la implementó el equipo de programadores de Wikipedia a través de filtros de palabras. Esta herramienta es simplemente una lista de palabras prohibidas que no pueden ser utilizadas para editar ningún artículo de la enciclopedia libre. La lista permite evitar que se utilicen groserías, palabras altisonantes o lenguaje inapropiado en el contexto de los artículos. Sin embargo, esta solución tiene la gran desventaja de que funciona manualmente, es decir, cada palabra prohibida tiene que ser introducida en el sistema. Por este motivo, es muy fácil evadir el sistema. Lo que es peor, esta utilidad no puede hacer nada contra el tipo de vandalismo más común en Wikipedia, el que busca mofar o humillar algunas páginas en particular. Tomemos el ejemplo de Microsoft. Por alguna razón, la empresa es sumamente odiada (mejor no entrar en detalles al respecto, así que consideremos que es un hecho). Este odio se plasma con frecuencia en las ediciones de su página en Wikipedia, la cual es una de las dos más vandalizadas en la historia de la enciclopedia. Entre los cambios conocidos, se ha cambiado el nombre de la empresa por Microshaft, se han escrito detallados tratados acerca de la maldad en sus productos y se ha cambiado frecuentemente el logotipo de la empresa, en una ocasión reemplazándolo por un gatito. Obviamente, el filtro de lenguaje no puedo eliminar la palabra “gato” de todas las entradas. Casos similares se han presentado en el otro espacio altamente vandalizado: la biografía de Abraham Lincoln. Se desconocen aún las causas que puede tener la humanidad para modificar la vida y obra de Abraham Lincoln con tanta frecuencia, pero es un hecho que en alguna ocasión el sitio de Wikipedia proclamaba que Abraham Lincoln estuvo casado con Brayson Kondracki, lo que nunca ocurrió, que su cumpleaños era el 12 de marzo, lo que no es cierto y que a Pete le gustan los Hot Cakes. ¿Quién rayos es Pete? Lo mismo nos preguntamos todos. Ciertamente, no tiene sentido prohibir todas y cada una las palabras en el idioma que pueden ser utilizadas para mofarse o alterar el contenido de un artículo. Más aún, por lo general el vandalismo implica ocupar palabras comunes en español pero de forma inesperada para el contexto del artículo. Así que la solución no es bloquera palabras, sino detectar aquellas que no son acordes al contenido. Y es ahí donde entra la estadística.

Si-Chi Chin, junto con otros colegas de la Universidad de Iowa, propuso un sistema de detección de vandalismo basado en modelos estadísticos. La idea es la siguiente: El programa analiza el contenido de un artículo, incluyendo todas las versiones que han existido del mismo y las modificaciones que ha sufrido desde su aparición. Con esa información, el sistema detecta un patrón de lenguaje mediante los cálculos de distribuciones de palabras. De esta forma, el programa puede tener una idea clara de las palabras que puede esperar en el artículo y así detectar que el término “Hot Cakes” nunca había sido utilizado para referirse a la vida de Abraham Lincoln, razón que lleva a detectar rápida y automáticamente actos de vandalismo en la edición de artículos.

El programa aún se encuentra en fase inicial, pero los resultados han sido alentadores. En una primera prueba, el análisis estadístico identificó cerca de la mitad del contenido basura presentado en las páginas de Microsoft y Lincoln y una cuarta parte de todos los cambios a gran escala que erróneamente informaban al lector (como los reportes de la maldad excesiva en los productos de Microsoft). Actualmente, el sistema está siendo perfeccionado para mejroar su rendimiento en otras formas de vandalismo como los hiperenlaces basura o el uso de imágenes inadecuados en los artículos.

Pero, ¿vale la pena realmente invertir todo este conocimiento científico? Según los editores de Wikipedia, la aparición de información espuria o no verificada suele ser corregida con brevedad por los miembros más responsables, así que difícilmente prevalecerá mucho tiempo. Pero con un total de contenidos que crece de forma exponencial, es cada vez más y más difícil detectar esta clase de actos vandálicos. Incluso en las páginas ampliamente visitadas y verificadas. En una ocasión, el retrato de Abraham Lincoln se reemplazó en su biografía por la imagen de un árbol. Durante 2 años nadie lo notó y la misma página recibió cerca de 4,000 ediciones sin que alguien se percatara de ese “minúsculo” detalle. Es en esta clase de soluciones en donde la estadística se destaca, proveyendo algoritmos y modelos que pueden de forma automática señalar los problemas que están dañando a la más importante fuente de consulta en Internet a nivel mundial. Wikipedia lo sabe, por eso están invirtiendo cada vez más tiempo y dinero en desarrollar investigaciones y soluciones para el problema del vandalismo. Y seguramente, los modelos estadísticos tendrán una función primordial en las tareas de seguridad de Wikipedia por mucho tiempo más.

La Ciencia del Amor

¿Está terminando febrero, el mes del amor, y tu sigues sin pareja? ¿Te cuesta mucho encontrar al hombre de tu vida? ¿Qué tal si acudes a uno de tantos procesos “científicos” que se anuncian en Internet con la promesa de encontrar a la pareja de tus sueños. Si realmente te interesa tienes muchísimas opciones: Chemistry, PerfectMatch o GenePartner son sólo algunos de los sitios web que, por unos cuántos dólares, reciben información tuya, de tus gustos, preferencias y exigencias y te ofrecen la posibilidad de encontrar el amor de tu vida mediante complicados modelos y algoritmos. Sin duda, la ciencia del amor. Pero, ¿qué tiene que decir la estadística al respecto? ¿Es mejor pagar por un servicio de parejas que buscar desconocidos en un bar? ¿Realmente funcionan las páginas de citas por Internet?

Lamentablemente, todo parece indicar que la respuesta es no. Para entenderlo, simplemente hay que describir cómo funcionan hipotéticamente los algoritmos de un sitio busca parejas. Generalmente se le solicita al usuario información detallada sobre sus características demográficas, profesión, nivel de ingresos, religión y pasatiempos. Gustos de películas, música y literatura también entran en la ecuación en ocasiones. Incluso hay páginas que cuestionan sobre la posibilidad de tener hijos y deseos específicos para la relación. El sistema ingresa todos esos datos en un modelo que buscará de forma automática entre la base de datos de registros para encontrar aquella pareja romántica con la que compartas el mayor número de intereses, deseos y actividades. ¿No basta entonces encontrar tu alma gemela para garantizar el amor?

En realidad, muy poco importa que compartas intereses con tu pareja. Según estudios, los factores que realmente determinan si una pareja tiene futuro sólo pueden ser medidos una vez que se conocen e interactúan juntos. Investigaciones concuerdan en que lo verdaderamente importante para encontrar el amor de tu vida es la forma en que se comunican, la compatibilidad sexual o los patrones que siguen para discutir y resolver problemas. Todas estas características no pueden ser medidas a personas solteras, por lo que cualquier “modelo” de páginas web jamás podrá utilizar esta información realmente importante. El principal problema de las página de citas es el hecho de que utilizan información que no está estadísticamente relacionada con el éxito de una pareja. Es como intentar predecir los resultados del Superbowl basándose en las ventas de cerveza.

Muchos servicios de búsqueda de parejas presumen incluso de utilizar “sofisticados modelos de perfiles psicológicos”. Sin embargo, esto tampoco aportará mucho a los resultados. Según un meta análisis realizado en 2008, que incluyó resultados de 313 estudios distintos, se demostró que las similitudes en personalidad y actitudes no tienen un efecto estadísticamente significativo en el bienestar y satisfacción de una pareja. Por si eso fuera poco, otro estudio realizado en 2010, con datos de más de 23,000 matrimonios, concluyó que similitudes en los aspectos más distintivos de la personalidad (neurosis, extroversión, etc.) explicaba únicamente el 0.5% de la satisfacción entre los esposos. Así que el “sofisticado modelo” fallará en incluir ese 99.5 % adicional que hace realmente feliz a una pareja.

Hay, sin embargo, algunos servicios en línea que ayudan a “filtrar” a aquellos individuos que se sabe de antemano que podrían ser parejas problemáticas. Décadas de investigaciones señalan que personas emocionalmente inestables, con problemas de abuso de drogas o que fueron maltratados en su infancia tienden a formar relaciones con dificultad, por lo que algunos sistemas de citas descartan a personas con estas características. En este caso, más que encontrar a tu príncipe azul, se trata de alejar a los ogros. Sin embargo, esto dista mucho de la celestial promesa de estas empresas de encontrar “tu pareja perfecta” de forma “científica”.

Pero esto no quiere decir que la ciencia no tenga algunos tips que de antemano mejoren nuestras posibilidades de elegir pareja. Hay algunas características individuales que tienen un impacto en la relación, aunque en la mayoría de los casos ayudan de forma mínima. Las más importantes son la raza y la religión. Estudios en Estados Unidos concluyeron que las parejas que comparten la misma raza u origen étnico tienen tasas de divorcio 10% menores que las de parejas interraciales. Otro dato importante es cuidar la situación ambiental y la vida fuera de la relación. Factores como la pérdida de empleo, crisis económica, infertilidad o enfermedad pueden perjudicar de forma importante una relación. Un estudio en 2004 concluye que las esposas que experimentan altos niveles de estrés no relacionados con su matrimonio, a la larga tienden a evaluar su satisfacción con su pareja de forma negativa.

Aún así no es posible desacreditar totalmente los servicios de citas por Internet. En el peor de los casos será una opción igual de mala que ir a conocer desconocidos en una fiesta. Lamentablemente, pasará mucho tiempo para que una computadora pueda indicarnos el camino hacia la felicidad, pues las relaciones humanas son demasiado complejas como para ser descritas por un modelo. Sin embargo, siempre hay que confiar más en la Estadística que en el Internet.

WATSON, MARAVILLA DE LA CIENCIA

Watson playing Jeopardy

Watson jugando Jeopardy!

El 16 de febrero de 2011 los televidentes norteamericanos fueron testigos de uno de los avances más notables en inteligencia artificial de los últimos años. Por primera vez en la historia el campeón del programa de televisión Jeopardy! fue una computadora, un sistema inteligente capaz de comprender preguntas formuladas en un lenguajes natural y responderlas de forma casi inmediata. Y vaya que “Watson”, como se llamaba a este prodigioso sabelotodo, no la tuvo fácil. La supercomputadora de IBM tuvo que enfrentarse nada más y nada menos que a Brad Rutter, poseedor del récord de la mayor cantidad de dinero ganado en Jeopardy! Y al memorable Ken Jennings, quien posee hasta la fecha el récord del mayor número de programas consecutivos ganados en Jeopardy! con 74 victorias al hilo. Pero ¿cómo pudo una computadora entender las complejas preguntas que se realizan en Jeopardy! y vencer a dos de los jugadores humanos más talentosos del mundo? La respuesta, está en una de las herramientas más poderosas que utilizó el equipo de IBM: la estadística. Y no es por hacer menos a todos los programadores y desarrolladores, pero el análisis matemático fue la clave para que Watson hiciera historia.

Primeramente hay que entender porqué es tan difícil para una computadora jugar Jeopardy! El reto es crear un sistema que pueda emular de forma precisa todo el proceso que sigue una persona para contestar preguntas. Aunque parece simple, esto incluye muchas etapas, desde clasificar la pregunta, descomponer sus partes, entenderla, buscar en las distintas fuentes de información disponibles y encontrar la respuesta más adecuada para la pregunta en cuestión. Aunque para una persona el proceso parecería simple, para competir adecuadamente “Watson” debería adquirir algunas habilidades poco comunes para un ordenador. Por ejemplificar esto, veamos una pregunta similar a las presentadas en Jeopardy!:

El nombre de este sombrero es elemental, mi querido concursante.

Un ser humano rápidamente relaciona el final del enunciado con la típica frase de las novelas de Sherlock Holmes, “elemental mi querido Watson”. De esa forma, uno puede intuir que la pregunta se refiere al sombrero utilizado por el famoso detective de Sir Arthur Conan Doyle. Sin embargo, ¿cómo puede una computadora, con no más información que la suministrada en la misma pregunta, deducir que la respuesta que necesita es “sombrero de cazador”. (deerstalker hat)? Sin duda, el proceso implica ayudarle a una computadora a pensar de forma más humana y, al mismo tiempo, brindarle la capacidad de, una vez determinada la verdadera pregunta, detectar la respuesta apropiada entre toda la información disponible en su sistema.

¿Cómo pudo el equipo de IBM lograr una tarea tan monumental? La respuesta es sencilla: usando estadística. Watson incorporó tantos aspectos de análisis estadístico en su concepción y programación que es un caso de estudio muy interesante para cualquier experto en análisis numérico.

Watson Work

Visión general del algoritmo de Watson

En primera instancia, los ingenieros de IBM realizaron una serie de análisis encaminados a detectar las características de un ganador de Jeopardy, con la idea de comprender las características que debe tener un ganador. Basados en una muestra de cerca de 2,000 juegos de Jeopardy, los programadores descubrieron que los ganadores responden en realidad sólo entre el 40 y 45% de las preguntas, aunque el nivel de precisión que tienen es alto, contestando correctamente entre un 85 y 95% de ellas. Ken Jennings, poseedor del récord y uno de los rivales finales de Watson tuvo una precisión del 92% al contestar el 62% de las preguntas.

Watson no es la primer computadora diseñada para contestar preguntas. Algunos de sus “abuelos” incluyen al sistema PIQUANT (Practical Intelligent Question Answering Technology) y OPEN EPHYRA. El primero fue desarrollado también por IBM y fue la base sobre la que se construiría Watson. El segundo es un sistema desarrollado por estudianets de la Carnegie Mellon University. Ambos se basaban en una idea muy interesante: el análisis estadístico de datos textuales. Gracias a análisis estadísticos complejos es posible analizar enormes cantidades de documentos sobre cualquier tema y detectar palabras que están estadísticamente relacionadas. Con estos métodos es posible que cuando se menciona la farse “Barack Obama”, la computadora busque noticias, artículos y textos y pueda detectar que el término se asocia con las palabras “presidente”, “Estados Unidos”, “América”. No sólo eso, sino que sabrá que términos como “Super Bowl” o “Sherlock Holmes” no están fuertemente ligados con el presidente de los Estados Unidos.

A pesar de contar con esta poderosa herramienta estadística, estos primeros sistemas no eran eficientes en la práctica, ya que PIQUANT brindaba una precisión cercana al 33% únicamente. El sistema contestaba demasiadas preguntas de forma equivocada por lo que sería despedazada por verdaderos competidores en Jeopardy. ¿Cómo mejorar la eficiencia del sistema? ¡Claro, con estadística!

Computadora Watson

Watson al desnudo

Se hizo evidente que Watson debía ser aún más humano de lo que parecía. Sería muy difícil que la máquina pudiera contestar correctamente todas las preguntas, sobretodo aquellas diseñadas engañosamente o que incluyeran juegos de palabras. El análisis estadístico reveló que sería necesario enseñarle a la computadora a detectar las preguntas que podría contestar y las que no, de la misma forma en que un ser humano decide saltarse una pregunta en el concurso, a fin de evitar perder dinero con una respuesta incorrecta. David Ferrucci, principal diseñador y director del proyecto que desarrolló Watson, tuvo una genial idea para ayudarle al sistema a elegir las preguntas más apropiadas para contestar. En esencia, el gran avance de Watson es que piensa en términos de probabilidades. Cuando tiene que contestar una pregunta, no produce una única respuesta sino un enorme grupo de posibilidades catalogadas de acuerdo a la probabilidad que se le asigna de ser la correcta. Watson utiliza más de 100 algoritmos distintos de forma simultánea para analizar una pregunta desde distintos ángulos, con cada algoritmo generando una posible respuesta. Otro grupo de algoritmos califica estas soluciones de acuerdo a su verosimilitud. Por ejemplo, supongamos que se realiza la siguiente pregunta:

De los cuatro países en el mundo con los que estados Unidos no mantiene relaciones diplomáticas, es el que se encuentra más al norte.

Watson de inmediato corre cada uno sus algoritmos para encontrar en su base de datos una posible respuesta. Más de un centenar de respuestas se producen, pero algunas se repiten, por ejemplo, Corea del Norte, aparece más de una docena de veces como la respuesta apropiada. Entre un mayor número de algoritmos genere la misma respuesta, más certeza tendrá Watson de que es la correcta. Se calcula entonces un índice de confianza, en base al número de respuestas obtenidas. Si dicho índice es mayor que cierto valor preestablecido, Watson tiene la “confianza” para responder, sino, es mejor esperar a la siguiente pregunta. Todos estos conceptos son temas que Ferrucci tomó de conceptos estadísticos como la Teoría del Riesgo.

Cargado de todos estos novedosos sistemas informáticos y estadísticos, Watson hizo su debut televisivo el 14 de febrero de 2011. La computadora no estaba conectada a Internet, ya que las reglas de Jeopardy! Lo obligaban a jugar sólo con lo que “sabía”, es decir, con toda la información contenida en su base de datos. Dicha base constituía más de 200 millones de páginas de contenido, ocupando un espacio de 4 Terabytes. La información incluía enciclopedias, noticias y la totalidad del contenido de la página de Wikipedia. Durante dos programas consecutivos, Watson desafió a los campeones más grandes en la historia de Jeopardy. El primer día Watson amasó una impresionante cantidad de $35,734 dólares, dejando detrás a Brad Rutter con $10,400 y a Ken Jennings que sólo consiguió $4,800.00. Durante el segundo encuentro la humanidad brindó un mejor combate, dejando a Watson en segundo lugar, pero el resultado final de dos días dejó como campeón de Jeopardy por primera vez en la historia a una computadora que podía contestar preguntas. El marcador final fue de $77,147 para Watson, $24,000.00 para Jennings y $21,000.00 para Rutter.

Esa es la historia de uno de los logros más importantes de la ciencia durante 2011, un avance tecnológico que promete múltiples aplicaciones en marketing, en la política, en el servicio a clientes e incluso en la medicina. Ya se están desarrollando planes para crear un programa médico que pueda diagnosticar enfermedades con sólo escuchar los síntomas. Watson cambió la historia en un programa de Jeopardy y lo hizo gracias a la estadística.

El arte abstracto de los experimentos

No. 5, 1948 de Jackson Pollock

Durante siglos, el arte y las representaciones plásticas vieron a los grandes maestros dedicar sus esfuerzos en la reproducción estética, fiel y detallada de la realidad, plasmando con detalle minucioso la soberbia naturaleza de las cosas. Sin embargo, a finales del siglo XIX, surge una nueva tentación entre los artistas, un deseo de superar lo cotidiano, lo real, para centrar su obra en el aspecto artístico, privilegiando la experiencia visual. James McNeill Whistler es considerado por algunos historiadores del arte como uno de los primeros pintores seducidos por la idea de anteponer la sensación visual sobre una exacta representación del mundo. Pronto surgiría el expresionismo, un esfuerzo por exagerar y acentuar las formas, seguido del post expresionismo y otras escuelas que vendrían a convertirse en las raíces del renombrado arte abstracto del siglo XX. Para la mayoría de los seres humanos el arte abstracto es una combinación extraña de colores y formas sin sentido. Sin embargo, se trata de una de las formas de arte más apreciadas en la actualidad, al grado de convertirse incluso en objetos de incalculable valor. Bueno, no tan incalculable. No. 5, 1948, del pintor abstracto Jackson Pollock presumiblemente fue vendida por poco más de 140 millones dólares.

Sin embargo, el arte abstracto encontró un crítico bastante curioso pero objetivo: la estadística. Los últimos años, una serie de análisis estadísticos han surgido con la consigna de presentar la dificultad que surge al identificar los trabajos de renombrados artistas abstractos. Mikhail Simkin, diseñó un experimento informal en el que invitó a numerosos estudiantes a diferenciar entre obras consagradas de arte abstracto y una serie de dibujos realizados por el mismo. Dado que la mayoría de los matemáticos no tiene grandes habilidades artísticos, era de esperarse que las diferencias fuesen notables. Según sus resultados, sólo el 65.9% de las pinturas fueron identificadas correctamente. Esto es, algunos de los que tomaron la prueba (incluyendo algunos escritores de arte) estuvieron dispuestos a calificar los garabatos de un analista como obras maestras.

Sin embargo, la metodología seguida en este proyecto carece de algunas bases. La mayor parte de los que tomaron la prueba eran estudiantes y la gran mayoría con muy pocos conocimientos de arte. Aunque el experimento aún continúa (pueden tomar la prueba aquí), se requiere de un estudio más riguroso como para criticar de forma objetiva una de las formas más importantes del arte moderno.

The Railway Crossing de Fernand Léger

Ahí es donde entran Hawley-Dolan y Winner, quienes reportaron un estudio más completo en el que presentaron a estudiantes una serie de 30 parejas pinturas. En cada pareja, uno de los cuadros correspondía a una pieza de arte abstracto de un renombrado artista del expresionismo. El segundo era un cuadro pintado por un niño… o un gorila, un chimpancé o un elefante. A cada estudiante se le preguntó cuál de los dos cuadros consideraba mejor. El estudio, basado en diseño estadístico, incluyó estudiantes de arte y algunos no familiarizados con el expresionismo moderno.

Los resultados indican, según los autores, que el mundo del arte abstracto está más cercano de lo que creemos. Según sus resultados, no es verdad que el arte abstracto sea indistinguible ya que, postulan, los participantes lograron identificar los cuadros realizados por artistas de renombre. En un 67% de los casos, los estudiantes de arte prefirieron el cuadro de un artista reconocido sobre la falsificación infantil / animal. Aunque el porcentaje es estadísticamente significativo, algunos estudiosos, incluyendo a Simkin, consideran que la diferencia es bastante reducida, como para justificar las aseveraciones de los autores.

Más interesante aún es lo que Hawley-Dolan y Winner descubrieron al preguntar a los participantes qué los ayudó a identificar un trabajo abstracto de calidad. No se trata de la delicadeza, finura o el color de los trazos, sino de las intenciones. El verdadero arte parece realizado a propósito, mientras que las falsificaciones tienen patrones al azar, según los estudiantes que colaboraron en el estudio. Al parecer, la clave del arte abstracto no está en lo estético y complejo de sus trazos, sino en la humanidad detrás, la sombra del hombre que dio vida a la imagen. Parece que detrás del arte abstracto existe un mensaje que, incluso quienes desconocen de arte, pueden llegar a comprender. Curiosamente, se necesitó de la estadística para que los críticos pudieran comprender esto.