La Biblia, herramienta para perfeccionar algoritmos de traducción

Detalle de la Biblia
CHRIS DOWNER/WIKIMEDIA
Actualizado: miércoles, 24 octubre 2018 13:27

   MADRID, 24 Oct. (EUROPA PRESS) -

   La Biblia ha inspirado un algoritmo entrenado en varias versiones de los textos sagrados que puede mejorar los traductores de texto por ordenador.

   Las herramientas de Internet para traducir textos entre idiomas como el inglés y el español están ampliamente disponibles. La creación de traductores de estilo (herramientas que mantienen el texto en el mismo idioma, pero que transforman el estilo) ha sido mucho más lenta. En parte, los esfuerzos para desarrollar a los traductores se han visto obstaculizados por la dificultad de adquirir la enorme cantidad de datos requeridos. Aquí es donde el equipo de investigación recurrió a la Biblia.

   Además de ser una fuente de guía espiritual para muchas personas en todo el mundo, el equipo liderado por Dartmouth vio en la Biblia "un gran conjunto de datos de texto paralelo alineado sin explotar previamente". Más allá de proporcionar inspiración infinita, cada versión de la Biblia contiene más de 31.000 versos que los científicos usaron para producir más de 1,5 millones de combinaciones únicas de versos de origen y objetivo para conjuntos de capacitación de aprendizaje automático.

   Según la investigación publicada en la revista 'Royal Society Open Science', este no es el primer conjunto de datos paralelos creado para la traducción de estilos, pero es el primero que utiliza la Biblia. Otros textos que se han empleado en el pasado, desde Shakespeare hasta entradas de Wikipedia, proporcionan conjuntos de datos que son mucho más pequeños o no tan adecuados para la tarea de aprender la traducción de estilos.

   "La Biblia en inglés viene en muchos estilos escritos diferentes, por lo que es el texto de origen perfecto para trabajar en la traducción de estilos", destaca el autor principal del trabajo de investigación sobre el estudio, Keith Carlson, estudiante de doctorado en Dartmouth.

   Como un beneficio adicional para el equipo de investigación, la Biblia ya está completamente indexada por el uso consistente de números de libros, capítulos y versículos. La organización predecible del texto a través de las versiones elimina el riesgo de errores de alineación que podrían ser causados por métodos automáticos para hacer coincidir diferentes versiones del mismo texto.

   "La Biblia es un conjunto de datos 'divinos' con los que trabajar para estudiar esta tarea", señala el colaborador del estudio Daniel Rockmore, profesor de Informática en Dartmouth. "Los seres humanos han estado realizando la tarea de organizar textos bíblicos durante siglos, por lo que no tuvimos que poner nuestra fe en algoritmos de alineamiento menos fiables", añade.

   Para definir el "estilo" para el estudio, los investigadores hacen referencia a la longitud de la oración, el uso de voces pasivas o activas y la selección de palabras que podrían resultar en textos con diversos grados de simplicidad o formalidad. Según el estudio: "las diferentes palabras pueden transmitir diversos niveles de cortesía o familiaridad con el lector, mostrar información cultural distinta sobre el escritor y ser más fácil de entender para ciertas poblaciones".

USO DE 34 VERSIONES BÍBLICAS

   El equipo utilizó 34 versiones bíblicas estilísticamente distintas que iban desde la complejidad lingüística, desde la "Versión King James" hasta la "Biblia en inglés básico". Los textos se incorporaron a dos algoritmos: un sistema estadístico de traducción automática denominado "Moses" y un marco de red neuronal comúnmente empleado en la traducción automática, "Seq2Seq".

   Aunque se utilizaron diferentes versiones de la Biblia para entrenar el código de ordenador, en última instancia, se podrían desarrollar sistemas que traduzcan el estilo de cualquier texto escrito para diferentes audiencias. Como ejemplo, un traductor de estilos podría tomar una selección en inglés de "Moby Dick" y traducirla a diferentes versiones adecuadas para lectores jóvenes, hablantes de inglés no nativos o cualquiera de una variedad de audiencias.

   "La simplificación del texto es solo un tipo específico de transferencia de estilo. Más ampliamente, nuestros sistemas buscan producir texto con el mismo significado que el original, pero hacerlo con diferentes palabras", apunta Carlson.

   El 'Dartmouth College' tiene una larga historia de innovación en informática. El término "inteligencia artificial" fue acuñado en Dartmouth durante una conferencia de 1956 que creó la disciplina de investigación de la inteligencia artificial (IA). Otros avances incluyen el diseño de BASIC, el primer lenguaje de programación accesible y de propósito general, y el 'Dartmouth Time-Sharing System' que contribuyó al sistema operativo de hoy en día.