Tests para distinguir computadoras de seres humanos

Captcha y ReCaptcha

 Por Adrián Paenza

¿Cuántas veces le pasó que quiso entrar en alguna página de Internet y se tropezó con que tenía que “interpretar” una o dos palabras que en principio no tenían ningún sentido? Aparecen “deformadas”, mezclando minúsculas con mayúsculas, algunas veces aparecen números también. La mayoría de las veces son difíciles de leer correctamente y uno tiene la sensación de que si no puede contestar bien lo que le preguntan nunca más podrá acceder a ese sitio. Con el tiempo uno aprende que el programa le ofrece otras oportunidades y ya no se siente tan frustrado. Además, como uno sospecha que lo hace por cuestiones de “seguridad” y pareciera que hay alguien que está monitoreando lo que hacemos y quiere protegernos, uno se esfuerza (en soledad, ciertamente) por tipear las dos palabras (o lo que parecen palabras) con todo cuidado. Hasta acá, todo bien. Lo hemos incorporado casi como una forma de vivir con Internet, sobre todo cuando uno ingresa a hacer una operación que involucra dinero (transacción bancaria, compra de boletos para eventos deportivos o películas o adquisición de ropa o libros o música, etc., etc.). En suma, uno lo hace y no se cuestiona demasiado. Pero la pregunta es: ¿qué hay detrás de ese sistema? ¿Quién lo inventó? ¿Para qué sirve exactamente?

Situémonos en el año 2000, a principios de este siglo. Todo lo que tuviera que ver con Internet estaba siendo recién explorado pero ya se había producido el boom que interrelacionaba y conectaba al mundo. Cada uno de nosotros –los privilegiados que tuvimos acceso virtualmente desde el comienzo– advertíamos con fastidio que recibíamos correos no deseados, enviados por gente que no conocíamos, ofreciéndonos artículos (o servicios) que no queríamos y lo peor es que aparecían disfrazados (aun hoy) como que sabían quienes éramos, ya sea usando el nombre o el apellido o la dirección electrónica.

El origen de cada correo era una dirección electrónica con una casilla que o bien rebotaba los mensajes de vuelta o bien los ignoraba. Más aún: cada uno de nosotros era uno entre miles o cientos de miles, que recibíamos el mismo correo electrónico. Era imposible que una persona física se propusiera mandar todos esos mensajes al mismo tiempo, por lo que, pensando un poco, es fácil imaginar que debería haber algún programa que tomaba la base de datos de alguna compañía que guardaba la información personal de todos nosotros, y preparaba automáticamente una lista de destinatarios a los que les enviaría ese mensaje. Y hasta allí quería llegar.

Esos mismos programas no sólo servían/sirven para enviar correos en forma masiva, sino que también simulan ser humanos que tratan de ingresar a algún sitio de Internet.

Tomemos un ejemplo: supongamos que una empresa ofrece la compra por Internet de entradas para ir a un concierto o para un partido que se juegue en el mundial de fútbol de Brasil. Si un programa de computadora pudiera ingresar sistemáticamente y comprar todos los tickets que se ofrecen para después revenderlos, no habría manera de descubrirlo. En cambio, si aparece la intervención humana, allí sí uno puede desenmascarar a los revendedores y ponerles un límite.

Es que si las empresas que proveen los servicios que uno quiere adquirir (sea comprar un libro o una canción o como, decía más arriba, una entrada para un evento musical o deportivo) tuvieran que verificar que quien está haciendo el pedido es una persona “de verdad” y no una máquina, el costo involucrado sería imposible de sostener.

Y allí es donde apareció el joven Luis von Ahn. A pesar de que su apellido –de origen alemán– no lo demuestra, Von Ahn nació en Guatemala. Se doctoró en Ciencias de la Computación en la Universidad de Duke, en Carolina del Norte, Estados Unidos. En el año 2000 tuvo una idea revolucionaria. En lugar de tener que contratar personas que “atendieran” los pedidos de los usuarios y lograran determinar cuáles eran ficticios y cuáles eran reales, Von Ahn diseñó un método extraordinario: las computadoras, aun al día de hoy, son incapaces de “leer” esos jeroglíficos que nosotros usamos como letras si están distorsionados o aparecen borroneados. Como le habrá pasado a usted, cuando uno tiene que “leer” la palabra que le proponen, en principio hay que hacer un esfuerzo para descifrar las letras y/o números involucrados. Con todo, un humano puede hacerlo. Para la computadora, eso es virtualmente imposible.

Luis von Ahn advirtió que había descubierto (o inventado) una herramienta poderosísima. La llamó Captcha. Parece un nombre raro pero son las iniciales en inglés de estas palabras: Completely Automated Public Turing Test to Tell Computers and Humans Apart. En castellano, mi traducción libre sería: Test de Turing Completamente Automático para Distinguir Computadoras de Seres Humanos. ¿Por qué “Test de Turing”? Porque con ese nombre se conoce al test introducido por el matemático inglés Alan Turing (1), el verdadero héroe en la Segunda Guerra Mundial luego de haber descifrado el código de encriptación de los alemanes (2) que –según los que entienden de historia– fue el dato clave para que los aliados ganaran la guerra. En 1950 Turing escribió su trabajo fundacional llamado Computing Machinery and Intelligence (3).

Pero me desvié. En el año 2000 aparecen en escena los Captcha. El portal Yahoo utilizó la idea inmediatamente y eso hizo que Von Ahn pasara a tener una fama instantánea. Una vez que se doctoró, fue contratado como profesor en la prestigiosa Universidad de Carnegie Mellon en Pittsburgh y cuando cumplió 27 años le otorgaron uno de los premios a los jóvenes considerados “genios” que otorga la Fundación MacArthur. En dinero, le significaron 500 mil dólares.

Curiosamente, ése no fue el final, sino una etapa intermedia para Luis von Ahn. Luego tuvo otra idea que creo es incluso más potente que la anterior. Voy a imaginarme su potencial línea de pensamiento con el riesgo –obvio– de estar alejado de la realidad, pero eso es irrelevante.

Luis von Ahn debe haber visto que cinco años después de que apareciera (y patentara) Captcha, había millones de personas que se pasaban varios segundos de su día tratando de descifrar un código formado por cuatro o cinco jeroglíficos. Y todo eso hecho con el solo afán de demostrar que esas personas éramos/somos humanos (y no máquinas). ¿Cómo aprovechar toda esa energía y esfuerzo?

Entonces, se le ocurrió lo siguiente: como escribí más arriba, los programas actuales tienen problemas para interpretar símbolos cuando no son “parejos” o esperables. Es decir, este tipo de programas se llaman OCR, optical character-recognition (reconocedor óptico de caracteres). Si bien ahora son muy potentes, todavía no son capaces de descifrar palabras que no están escritas en forma consistente con el resto del texto o aparecen borroneadas o distorsionadas o porque las páginas están amarillas por el paso del tiempo. De hecho, el propio Von Ahn dice que para libros que fueron escritos hace más de 50 años, los programas que usan OCR sólo pueden comprender el 70 por ciento del texto. Ni hablar además de libros escritos en la antigüedad. ¿Qué hacer entonces?

A Von Ahn se le ocurrió que en lugar de poner una sola palabra, pondría dos. ¿Por qué dos palabras? La primera serviría para descubrir a los que no fueran humanos, pero la segunda serviría para que un humano tratara de interpretar una palabra de un texto que un programa “reconocedor de caracteres” no podía.

Entonces, cuando uno de nosotros ve dos palabras, tiene que entender que está ofreciendo dos informaciones: la primera es la misma que hacía Captcha, o sea, autenticar que uno es un ser humano. La segunda es cooperar con la digitalización de un libro (por ejemplo). A este nuevo protocolo, Von Ahn lo llamó ReCaptcha y es el que se usa en la actualidad.

De hecho, el programa envía esa segunda palabra diez veces de manera que diez personas diferentes hagan el trabajo de “desentrañar” lo que quiere decir. Cuando las diez dijeron lo mismo, la palabra queda descifrada y el digitalizador da por aceptado ese texto.

Sin embargo, hay algo más que quiero incluir en este texto: pensemos en términos económicos. Si uno invierte –en promedio– diez segundos por usuario y se estiman alrededor de 200 millones de ReCaptchas diarios en el mundo, eso significan más de 550 mil horas-hombre por día (4). Si uno tuviera que contratar a trabajadores que se dediquen a hacer este trabajo y les pagara un salario muy mínimo de 30 pesos por hora, esas empresas deberían invertir en el orden de 16 millones de pesos diarios. Si uno tomara el salario mínimo por hora en los Estados Unidos (un poco más de 7 dólares), el dinero involucrado ahora sería de 4 millones de dólares diarios o, lo que es equivalente, más de 1000 millones de dólares por año.

Lo que hizo Von Ahn permite ahorrar ese dinero y estar –entre todos– haciendo un esfuerzo común en forma inadvertida, o dicho de otra manera, estamos todos trabajando sin saber que lo hacemos. Y gratis.

No puedo terminar este artículo sin decir que Google adquirió la tecnología que ideó Von Ahn en el año 2009 y ahora ha sido incorporada a más de 350.000 sitios de Internet, incluidos Facebook y Twitter. Con esta tecnología, Von Ahn sostiene que se están descifrando en el orden de 100 millones de palabras por día, lo que permite inferir que sirve para digitalizar alrededor de 2 millones y medio de libros por año. Hasta el año 2012, de acuerdo con sus datos, participaron más de 750 millones de personas distintas en digitalizar al menos una palabra. O sea, más del 10 por ciento de la población mundial participó en el proyecto.

La causa que impulsa a Google es muy noble: está haciendo un esfuerzo descomunal –que celebro–, que es el de digitalizar todos los libros que se escribieron desde que los humanos dejamos registros escritos. Lo que sucede es que en el camino participamos todos y no lo sabíamos. ¿O usted tenía idea?

1) Le propongo que vea el artículo que apareció sobre Alan Turing en la contratapa de Página/12 el 27 de agosto del año 2008.
También se puede ver acá si sigue leyendo esta página de La Academia, editada en Paso de los Toros.

2) Conocido con el nombre de Enigma.

3) “Maquinarias para computación e inteligencia”, en donde Turing se cuestionaba si las computadoras pueden “pensar”.

4) En este sitio de Internet está la conferencia TEDxCMU que el propio Luis von Ahn dio en Carnegie Mellon: http://tedxcmu.com/videos/luis-von-ahn

EL TEST DE ALAN TURING Y EL PREMIO LOEBNER

Alan Turing (y la computadora que piensa)

 Por Adrián Paenza

Inglaterra tuvo (y tiene) matemáticos brillantes, pero sin duda Alan Turing (1912-1954) tiene reservado un lugar en el “paraíso”. Ya verá por qué. Turing fue un especialista en lógica y también en criptografía.

Durante la Segunda Guerra Mundial trabajó en el centro que los británicos habían montado con la finalidad de descifrar el código secreto de los nazis.

El aporte de Turing fue tan determinante que gracias a él los aliados pudieron quebrar los mensajes que recibían las naves alemanas, predecir los movimientos que habrían de hacer y las posiciones que ocuparían, hasta que finalmente lograban capturarlas.

Pero más allá de su participación decisiva durante la guerra, todavía el mundo vivía con un cruel atraso. Turing era homosexual y la homosexualidad era ilegal en buena parte del mundo, pero muy especialmente en Inglaterra. Cuando la policía le descubrió relaciones con otro(s) hombre(s), le dieron la alternativa entre mandarlo preso o someterlo a un tratamiento hormonal con el afán de disminuirle la libido. Turing optó por esto último, pero finalmente terminó suicidándose al comer una manzana envenenada con cianuro.

En realidad, aún hoy está en discusión si esto fue cierto, pero lo notable es que la homosexualidad (que los ingleses en aquel momento –y buena parte del mundo todavía– consideraban una enfermedad) impidió que Turing pudiera desarrollar su increíble capacidad creativa y lo “obligó” a truncar su vida.

Por supuesto –como casi siempre– el reconocimiento a su tarea fue post mortem, cuando ya no vivía para disfrutarlo, pero lo cierto es que hoy es considerado uno de los “padres” de la computación científica.

No pretendo hacer una biografía de Turing: no me alcanzaría el lugar ni tengo los conocimientos para hacerlo. De hecho, la vida de Turing está contada en varios libros de reciente publicación. Pero lo que sí pretendo es contar algunos episodios de relevancia de su historia como científico.

Turing fue el primero en hablar de lo que hoy se llama “Inteligencia Artificial” o más popularmente AI (por sus iniciales en inglés Artificial Intelligence). Se trata, en definitiva, de la rama de la computación que se dedica al diseño y construcción de “máquinas inteligentes” o de escribir programas que al correrlos en una computadora la transformen en un “ser inteligente”.

En el año 1950, en un artículo que apareció en la revista Mind (Mente), y que Turing tituló “Computing Machinery and Intelligence” (que me voy a permitir traducir libremente como “Computadoras Inteligentes”), el matemático inglés se hizo la siguiente pregunta:

“Si una computadora pudiera pensar, ¿cómo podríamos darnos cuenta?”.

La sugerencia de Turing fue que si uno le hiciera preguntas a esa computadora y sus respuestas no se pudieran distinguir de las de un ser humano, uno podría concluir que “la computadora estaba pensando”. Y hasta hoy, 58 años después, se considera ese test (Test de Turing) como el más apropiado para poder decidirlo.

En el año 1990, Hugh Loebner un filántropo excéntrico (¿será posible alguna vez escribir en una frase la palabra “filántropo” sin tener que agregar “excéntrico” para calificarlo?), quien siempre se jactó de su relación con las prostitutas de Nueva York, decidió ofrecer un premio de 100.000 (cien mil) dólares a quien pudiera construir una computadora (y un programa, claro está) cuyas respuestas fueran indistinguibles de las que pudiera dar un ser humano. El premio es ciertamente muy bajo para quien pueda alcanzar semejante proeza. Sin embargo, hay gente que se presenta todos los años.

Loebner no lo hizo solo sino que, para darle una pátina de mayor credibilidad, se asoció con el Centro de Estudios de Comportamiento de Cambridge, en Inglaterra. Todos los años, gracias al impulso que él le ha dado, se realiza la competencia en donde computadores de todo el mundo, o especialistas en ciencias de la computación, viajan hasta la Universidad de Reading a unos 40 kilómetros al oeste de Londres, para aspirar al premio.

La idea de cada diseñador o arquitecto es ver si son capaces de superar el “test” de Turing. Quien lo logre se llevará la medalla de oro y además los 100.000 dólares.

Pero como hasta acá ninguna ha podido responder como un humano, el premio principal ha quedado vacante. Sin embargo, cada año, aquella que se asemeje más a lo que contestaríamos usted o yo, se lleva un premio consuelo de 3000 dólares y una medalla de bronce. La próxima evaluación se va a hacer el 12 de octubre de 2008, ya están elegidos los seis finalistas, y quien supervisa la competencia es Kevin Warwick, uno de los especialistas más importantes del mundo.

Yo sé que mientras usted lee estos datos debe estar sonriente o escéptico. Y la/lo entiendo. De todas formas, lo/la invitaría a repensar su posición. Quizás hoy parezca una locura o un imposible, y más pertinente al terreno de la ciencia-ficción que de la realidad. Pero sólo acepto esta frase si la palabra “hoy” figura subrayada. No crea que falta tanto.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s