domingo, 20 de enero de 2013

Algoritmos que datan automáticamente manuscritos medievales


Alrededor de un millón de documentos medievales no están datados, por lo que su significado histórico se hace difícil de cuantificar. Pero las técnicas automatizadas por ordenador parece que van a revolucionar el trabajo de los historiadores.

Un aspecto importante de cualquier sociedad es la forma de guardar registros de las transacciones de la propiedad y de las tierras para que la propiedad puede ser debidamente establecida y se resuelvan las diferencias. En la Gran Bretaña medieval, este proceso se llevó a cabo en gran parte por las instituciones religiosas o reales, las cuales registran las transacciones en documentos, escritos en latín, llamadas actas.

Hoy día, más de un millón de actas sobreviven ya sea como originales o con mayor frecuencia como copias antiguas. Proporcionan un conocimiento notable de la política medieval, la economía y la sociedad entre los siglos X y XIV en Inglaterra.

Por ejemplo, los historiadores pueden utilizar estos documentos para estudiar el surgimiento y la caída de las organizaciones militares y religiosas. Un buen ejemplo es la Orden del Hospital de San Juan de Jerusalén, una organización religiosa y militar creada después de la conquista occidental de Jerusalén en el siglo XI (la Primera Cruzada).

Los historiadores dicen que las actas muestran claramente cómo la organización se militarizó como respuesta a la convocatoria de la Segunda Cruzada en 1145, provocada por la captura de varias ciudades de la región por las fuerzas musulmanas

Es evidente que estos documentos tienen un enorme valor histórico, pero hay un problema: la mayoría de las actas no tienen fecha, en particular, durante el período de dominio normando entre 1066 y 1307.

El problema para los historiadores es encontrar alguna manera de ordenar en el tiempo estos documentos, pero no es una tarea fácil. Actualmente, Gelila Tilahun y sus colegas de la Universidad de Toronto, discuten sobre este desafío y esbozan las nuevas técnicas de estadística computerizada que están utilizando para abordar el problema.

Su enfoque es utilizar un subconjunto de unas 10.000 actas que están datadas y buscar los cambios en el lenguaje a través del tiempo a fin de utilizarlos para datar otros documentos. Por ejemplo, Tilahun y compañía dicen que la frase "amicorum meorum vivorum et mortuorum", que significa "de mis amigos vivos y muertos", era popular entre los años 1150 y 1240, pero no en otras épocas. Y la frase "Francis et Anglicis", que era un formalismo direccional que significa "al francés e inglés", fue eliminada cuando Inglaterra perdió Normandía a favor de los franceses en 1204.

Sin embargo, el enfoque estadístico es mucho más riguroso que simplemente buscar frases comunes. El ordenador busca los patrones en la distribución de palabras de una sola ocurrencia, de dos, de tres y así sucesivamente. "Nuestro objetivo es desarrollar algoritmos que ayuden a automatizar el proceso de estimación de las fechas de dichas actas no datadas, a través de unos medios puramente computacionales."

Este enfoque revela varios patrones que luego se ponen a prueba procurando datar los documentos individuales de este conjunto. Según señalan, el mejor enfoque es una técnica conocida como la prevalencia máxima. Esta es una técnica estadística que ofrece la fecha más probable, mediante la comparación del conjunto de palabras del documento con la distribución del conjunto de documentos.

Tilahun y compañía, añaden que su enfoque también tiene otras aplicaciones. Por ejemplo, esta misma técnica se podría utilizar para resolver autorías y las falsificaciones, de las que se sabe que hay una cantidad importante.

¿Y qué tal funciona en la práctica? Pues estos chicos al final consiguieron saber de una fascinante anécdota acerca de una acta medieval inglesa, que fue descubierta en un cajón de la biblioteca universitaria Brock, cerca de las Cataratas del Niágara.

La acta carecía de fecha, así que varios historiadores trataron de averiguar cuándo fue escrita..Las primeras estimaciones señalaban el siglo XIV, pero una revisión posterior apuntaba al siglo XIII. Finalmente, mediante la comparación de esta acta con otros registros, un académico que fijó la fecha entre 1235 y 1245.

Inspirado en el interés de los medios sobre esta acta, Tilahun y compañía, dirigieron el documento por el procedimiento automatizado de prevalencia máxima. "La estimación que obtuvo de su fecha fue de 1246," resaltan, con un toque de orgullo. ¡No está mal!


Imagen: Manuscritos británicos antiguos que pueden consultarse en scriptorium.english.cam.ac.uk 
Fuente: http://bitnavegante.blogspot.com.es/2013/01/algoritmos-que-datan-automaticamente.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+bitnavegante+(BitNavegantes)&utm_term=Google+Reader

No hay comentarios:

Publicar un comentario