reCAPTCHA

Hace un par de meses, cuando escribía sobre captchas, no tenía ni idea acerca de este interesante proyecto desarrollado en la Universidad Carnegie Mellon.

Se trata de una iniciativa que aprovecha las palabras digitadas por los internautas en los CAPTCHA para digitalizar aquellos textos del Internet Archive y del New York Times que no pueden ser interpretados correctamente por sistemas de reconocimiento óptico de caracteres.

Según la web oficial del proyecto, alrededor de 200 millones de captchas son resueltos a diario. Menos de 10 segundos bastan para completar uno de estos pequeños desafíos.

De vincular estas pruebas anti-spam a la compleja labor de digitalización de textos, podríamos ahorrarle unas 150 000 horas de trabajo por día a quienes se dedican a transcribir libros viejos. Sobre eso se trata el concepto reCAPTCHA.

Los que usamos Facebook, Twitter y otros servicios del fenómeno Web 2.0, nos tropezamos de vez en cuando con dos palabritas distorsionadas que debemos teclear para demostrar que sí somos humanos. Una de ellas es conocida por el sistema remoto, mientras que la otra no ha podido ser identificada por ningún OCR. Si en nuestra respuesta acertamos el significado de la primera palabra, el reCAPTCHA asume que el término desconocido es correcto. Y cuando varios usuarios interpretan un mismo resultado, el término pasa a ser archivado.

La versión para discapacitados visuales emplea una metodología similar en función de rescatar el contenido de emisiones radiales antiguas.

De esta forma ayudamos inconscientemente a digitalizar cientos de miles de libros sin esfuerzo alguno. Otra muestra de lo que puede lograr la lógica de quienes estamos sentados tras un simple nodo de la Red de redes.