Internet Videos

Completando un CAPTCHA ayudas a digitalizar un libro

Seguramente más de una vez cuando te has registrado en un sitio web o incluso cuando querés comentar en este blog tenés que ingresar dos palabras en un campo de texto para verificar que sos un humano y no una máquina que intent enviar el formulario, este sistema se denomina CAPTCHA, la empresa más popular que se dedica especialmente a crear y mantener este sistema se llama reCAPTCHA, la misma pertenece actualmente a Google, sin embargo el servicio se pude utilizar en cualquier sitio web agregando un código de programación sencillo al sitio web.

Ahora bien, ¿por qué se utiliza este sistema?.

Antiguamente los hackers diseñaban programas que permitían registrar millones de usuarios falsos en diferentes sitios web de forma automática e invasiva, incluso en algunos casos llegaban a saturar los servidores de este. Gracias a reCAPTCHA fue posible evitar este tipo de inconvenientes. También aprovechaban para comprar automáticamente las mejores ubicaciones de algún espectáculo y luego ejercer la reventa. Para evitar esto, se creo el CAPTCHA, que valida que es una persona y no una máquina quien envía el formulario.

Luis von Ahn, el creador de reCAPTCHA decidió que esta pérdida de tiempo de validar formularios no sea en vano.

Hoy en día existen varios proyectos que digitalizan libros a gran escala con el propósito de facilitar el acceso a la información a cualquiera que lo necesite, proyectos como Google Books e Internet Archive han digitalizado millones de libros y los han puesto a disposición de cualquiera en internet, pero las máquinas que digitalizan libros son máquinas -valga la redundancia- y no humanos, por lo que pueden fallar a la hora de copiar la imagen del libro y traducirla en texto.

Los sistemas que se encargan de leer imagenes y traducirlas a texto son conocidos como OCR o Reconocimiento óptico de caracteres.

Eso por un lado, seguramente te estarás preguntando en qué parte entra reCAPTCHA.

Asi funciona: muchos de los libros datan desde hace 50 años o mas y algunos están tan deteriorados que es casi imposible para estos softwares OCR reconocer ante que tipo de caracteres se encuentran, por ello reCAPTCHA toma este grupo de caracteres que el OCR no pudo reconocer y lo envía a un usuario al azar que este solicitando el servicio de reCAPTCHA en algún sitio web que lo tenga integrado, entonces al usuario le aparecen dos palabras para completar, una que el sistema sabe cuál es y otra que desconoce, que sería la del libro; el usuario ingresa los caracteres y logra comprobar al sistema que se trata de un humano y a la vez envía la versión digital de esa palabra que el OCR no pudo reconocer. Si esta palabra es igual a la de otros usuarios que recibieron la misma imagen pasa a formar parte del libro que se esta digitalizando.

Así que la próxima vez que tengan que utilizar reCAPTCHA no se frustren, solo piensen que con con esa pequeña acción están ayudando al desarrollo de esta inmensa red global que llamamos internet.

El video que se encuentra en la parte superior de este artículo puede resultarles largo, pero está excelentemente explicado por el creador de este sistema y vale la pena verlo.

A continuación una imagen para que entiendan mejor:

 

¿Querés ayudar a digitalizar un libro? deja un comentario sobre este artículo y completa el Captcha que figura en el formulario de comentarios 😉

1 comentario

Clic aqui para comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *