Old Spanish Textual Archive
En el año 2015 el HSMS empieza a trabajar en el Old Spanish Textual Archive (OSTA), un corpus lingüístico, lematizado y etiquetado morfológicamente, de cerca de 35.000.000 de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del HSMS. Puede accederse al proyecto a través del siguiente enlace:

Descripción del proyecto
Los orígenes de OSTA se remontan al año 1978 cuando John J. Nitti, uno de los editores del Dictionary of the Old Spanish Language (DOSL) y co-fundador del Hispanic Seminary of Medieval Studies (HSMS), describe en un artículo titulado “Computers and the Old Spanish Dictionary” un proyecto a largo plazo:
the creation of the Old Spanish Archive (OSA), which is to be a repository … of all the machine-readable manuscripts and concordances of those works represented in DOSL… OSA will be established as a research archive open to any interested scholars wishing to make use of its facilities … eventually … information retrieval will be carried out via the computer … linking the magnetically-stored … machine-readable text transcriptions and concordances (43-52)
Este proyecto superaba, en el momento de su concepción, las posibilidades informáticas disponibles en la época, por lo que el objetivo a medio plazo del HSMS fue la creación y divulgación de la vasta base de datos compuesta por las transcripciones electrónicas de manuscritos e incunables escritos en español entre los años 1000 y 1600, utilizando para ello las microfichas, el CD-ROM y, a partir del año 2011, internet.
Tras una fase inicial es la que se delimitó el corpus textual—análisis de los códices y de su contenido— comenzamos el proceso de lematización y etiquetado gramatical, para el que utilizamos FreeLing, una herramienta de Procesamiento del Lenguaje Natural, y HSMS-app, una herramienta de análisis textual desarrollada específicamente para este proyecto.
A partir del año 2017 comenzamos a ampliar los recursos léxicos de FreeLing, trabajando en el reconocimiento de entidades nombradas (topónimos y antropónimos), de variantes ortográficas medievales y de palabras no identificadas por ninguna de las reglas desarrolladas. Para ello procesamos varios de los diccionarios del proyecto Dictionary of the Old Spanish Language del HSMS: el Diccionario español de textos médicos antiguos (Herrera 1996), el Diccionario español de documentos alfonsíes (Sánchez 2000), el Vocabulario militar castellano (siglos XIII-XV) (Gago Jover 2002), el Diccionario de la prosa castellana del Rey Alfonso X (Kasten y Nitti 2002), y el Diccionario herbario de textos antiguos y premodernos (Capuano 2017).
A comienzos de 2019 iniciamos el trabajo en la interfaz de consulta, la mejora de las reglas de afijación de FreeLing, la revisión del diccionario de formas de FreeLing y la definición de las formas no identificadas.
Recursos adicionales
Condiciones de uso
El Old Spanish Textual Archive del Hispanic Seminary of Medieval Studies es un recurso electrónico de acceso libre y gratuito en la red con las siguientes condiciones de uso:
- Los usuarios citarán adecuadamente el Old Spanish Textual Archive en los trabajos en que utilicen datos del mismo. El formato de cita puede ser el siguiente (o uno similar que incluya los mismos datos bibliográficos):
Gago Jover, Francisco and F. Javier Pueyo Mena. 2020. Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. On line at http://osta.oldspanishtextualarchive.org. [fecha de la consulta]
- Las obras individuales deberán citarse utilizando el código
OSTA que aparece bajo la columna Obra en los resultados y en los
Metadados de obra. En este código [HSMS-0286-0001] los cuatro
primeros dígitos corresponden al códice y los cuatro últimos a
la obra dentro del códice.
- Para permitir que otros investigadores puedan comprobar los
resultados obtenidos, se recomienda incluir la consulta
efectuada tal como aparece en los resultados, incluyendo no solo
el término o términos o expresión buscados, sino también los
filtros empleados:
- Q =
[(lemma='perro'%cd)]
within text sort by yearobra - Q =
[(lemma='aceite'%cd)]
:: match.text_materia3 = "medicina" & match.text_sigloobra = "14" within text sort by word
- Q =
- Los usuarios informarán a los responsables del Old Spanish Textual Archive de cualquier hallazgo científico relevante que se derive de la consulta de los datos. Por último, los usuarios informarán de los errores de transcripción o fallos de funcionamiento que detecten para así contribuir a mejorar este recurso.
Limitaciones de esta versión
La versión disponible del Old Spanish Textual Archive tiene las siguientes limitaciones:
- La descarga de los resultados en formato TSV está limitada a los primeros 250.000 ejemplos.
- Existen cerca de 370.000 formas desconocidas en el corpus (1,1% del total).
- La lematización y el análisis morfológico de un reducido número de formas no es el correcto, algo que esperamos corregir en futuras revisiones del diccionario de formas de FreeLing.
Bibliografía
- Capuano, Thomas M. 2017. Diccionario herbario de textos antiguos y premodernos, Nueva York: Hispanic Seminary of Medieval Studies.
- Carreras, Xavier, Isaac Chao, Lluís Padró y Muntsa Padró. 2004. “FreeLing: An Open-Source Suite of Language Analyzers.” Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC’04). [pdf]
- Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical.” Scriptum Digital, 7: pp. 25-35. [pdf]
- Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: el corpus textual.” Cuadernos del Instituto Historia de la Lengua, 11: pp. 165-209. [pdf]
- Gago Jover, Francisco. 2002. Vocabulario militar castellano (siglos XIII-XV). Granada: Universidad de Granada.
- Herrera, María Teresa. 1996. Diccionario español de textos médicos antiguos. Madrid: Arco/Libros.
- Kasten, Lloyd A. y John Nitti. 2002. Diccionario de la prosa castellana del Rey Alfonso X. Nueva York: Hispanic Seminary of Medieval Studies.
- Nitti, John. 1978. “Computers and the Old Spanish Dictionary,” Computers and the Humanities, 12, pp. 43-52.
- Sánchez, María Nieves, et al. 2000. Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.
- Sánchez Marco, Cristina, Gemma Boleda, y Lluís Padró. 2011.
“Extending the tool, or how to annotate historical language
varieties”, Proceedings of the 5th ACL-HLT Workshop on
Language Technology for Cultural Heritage, Social Sciences,
and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011.
[pdf]
