El aprendizaje automático y la inteligencia artificial pueden implementarse en tareas tan grandes como encontrar exoplanetas y crear personas fotorrealistas, pero las mismas técnicas también tienen algunas aplicaciones sorprendentes en la academia: DeepMind ha creado un sistema de inteligencia artificial que ayuda a los académicos a comprender y recrear textos griegos antiguos fragmentarios en piedra rota tabletas
Estas tabletas de arcilla, piedra o metal, inscritas hasta hace 2.700 años, son fuentes primarias invaluables para la historia, la literatura y la antropología. Están cubiertos de letras, naturalmente, pero a menudo los milenios no han sido amables y no solo hay grietas y astillas, sino piezas enteras que faltan y que pueden contener muchos símbolos.
Tales lagunas, o lagunas, a veces son fáciles de completar: si escribí "la araña atrapó la fl_", cualquiera puede decirte que en realidad es "la araña atrapó la mosca". Pero qué pasaría si le faltaran muchas letras más, y en un lenguaje muerto, para empezar? No es tan fácil llenar los vacíos.
Hacerlo es una ciencia (y arte) llamada epigrafía, e involucra tanto la comprensión intuitiva de estos textos como la de otros para agregar contexto; uno puede hacer una suposición educada sobre lo que una vez fue escrito en base a lo que ha sobrevivido en otro lugar. Pero es un trabajo arduo y difícil, por eso se lo damos a los estudiantes de posgrado, los pobres.
Llegando a su rescate es un nuevo sistema creado por DeepMind investigadores que llaman Pythia, después del oráculo en Delphi que tradujo la palabra divina de Apolo en beneficio de los mortales.
El equipo primero creó una tubería "no trivial" para convertir la colección digital más grande del mundo de inscripciones en griego antiguo en texto que un sistema de aprendizaje automático podría entender. A partir de ahí, solo se trataba de crear un algoritmo que adivina con precisión las secuencias de letras, tal como lo hizo para la araña y la mosca.
Los estudiantes de doctorado y Pythia recibieron textos de verdad básica con porciones cortadas artificialmente. Los estudiantes entendieron bien el texto el 57% del tiempo, lo cual no es malo, ya que la restauración de textos es un proceso largo e iterativo. Pythia lo hizo bien … bueno, el 30% del tiempo.
¡Pero! La respuesta correcta estaba en sus 20 respuestas principales el 73% del tiempo. Es cierto que puede que no suene tan impresionante, pero lo intentas y ves si puedes obtenerlo en 20.
La verdad es que el sistema no es lo suficientemente bueno para hacer este trabajo por sí solo, pero no es necesario. Se basa en los esfuerzos de los humanos (¿de qué otra manera podría ser entrenado en lo que hay en esas brechas?) Y los aumentará, no los reemplazará.
Las sugerencias de Pythia pueden no ser perfectamente correctas en el primer intento muy a menudo, pero podría ayudar fácilmente a alguien que lucha con una laguna difícil al darles algunas opciones para trabajar. Eliminar un poco de la carga cognitiva de estas personas puede conducir a un aumento de la velocidad y la precisión en la toma de textos restantes sin restaurar.
El documento que describe Pythia está disponible para leer aquí, y parte del software que desarrollaron para crearlo se encuentra en este repositorio de GitHub.