Old Spanish Textual Archive


https://osta.oldspanishtextualarchive.org

Historia del proyecto

Los orígenes del Old Spanish Textual Archive OSTA se remontan a 1978, cuando John J. Nitti —cofundador del Hispanic Seminary of Medieval Studies (HSMS) y editor del Dictionary of the Old Spanish Language (DOSL)— esbozó una visión a largo plazo en su artículo «Computers and the Old Spanish Dictionary». En él describía

the creation of the Old Spanish Archive (OSA), which is to be a repository … of all the machine-readable manuscripts and concordances of those works represented in DOSL… OSA will be established as a research archive open to any interested scholars wishing to make use of its facilities … eventually … information retrieval will be carried out via the computer … linking the magnetically-stored … machine-readable text transcriptions and concordances (43-52)

Esta visión superaba las capacidades tecnológicas de la época. Por ello, el HSMS se centró en un objetivo más factible: crear y difundir una base de datos exhaustiva con transcripciones electrónicas de manuscritos e incunables españoles de los años 1000 a 1600. Estos materiales se distribuyeron inicialmente en microfichas y CD-ROM, y posteriormente se trasladaron a Internet en 2011 con la Biblioteca Digital de Textos del Español Antiguo.

En 2015, el HSMS comenzó a desarrollar el Old Spanish Textual Archive (OSTA), un corpus lingüístico lematizado y etiquetado morfológicamente, basado en más de 400 transcripciones semipaleográficas elaboradas por colaboradores del HSMS. Estas transcripciones abarcan textos medievales escritos en español, asturiano, leonés, navarro-aragonés y aragonés.

Tras crear el corpus textual y analizar los códices y su contenido, se desarrolló una herramienta de procesamiento denominada Analizador Corpus OSTA. Esta herramienta, disponible en GitHub y Zenodo DOI integra FreeLing (Carreras, Chao et al. 2004; Padró2011, 2012) con rutinas personalizadas para convertir las transcripciones paleográficas en texto plano del HSMS a formato XML. Los archivos XML resultantes incorporan información lingüística completa al tiempo que conservan las características estructurales de cada obra, lo que facilita tanto la lectura como la presentación en los resultados de búsqueda.

A partir de 2017, se ampliaron los recursos léxicos del Analizador Corpus OSTA con el fin de mejorar el reconocimiento de entidades nominales (topónimos y nombres propios), variantes ortográficas medievales y palabras que antes no se identificaban. Para ello, se procesaron varios diccionarios del proyecto Dictionary of the Old Spanish Language del HSMS: Diccionario español de textos médicos antiguos (Herrera 1996), Diccionario español de documentos alfonsíes (Sánchez 2000), Vocabulario militar castellano (siglos XIII-XV) (Gago Jover 2002), Diccionario de la prosa castellana del Rey Alfonso X (Kasten y Nitti 2002) y Diccionario herbario de textos antiguos y premodernos (Capuano 2017).

A principios de 2019, el HSMS comenzó a desarrollar la interfaz de consulta, mejorar las reglas de afijación de FreeLing, revisar el diccionario de formas de FreeLing y definir las formas no identificadas. La versión 1.0 del Old Spanish Textual Archive se publicó en 2021. Desde entonces, los avances en HTR, tecnología de reconocimiento de texto manuscrito (Transkribus y eScriptorium), han permitido a los colaboradores de HSMS añadir un gran número de nuevas transcripciones. Estas adiciones se han incorporado ahora a la versión 2.0 de OSTA, publicada en 2026. La siguiente tabla compara el contenido de ambas versiones:


versión 1.0 (2021) versión 2.0 (2026)
códices 435 532
títulos únicos 1623 2094
tokens (millones) 32 39
autores identificados 335 383
traductores identificados 28 33
impresores identificados 98 120
manuscritos 229 255
incunables (1472-1500) 59 93
post-incunables (1501-1520) 41 48
raros (después de 1520) 106 136

El desarrollo de la versión 3.0 está actualmente en marcha, aunque aún no se ha fijado una fecha de lanzamiento.

Recursos adicionales

1. Manual de consulta

Para aprovechar al máximo las funciones de OSTA, recomendamos consultar el Manual de consulta (en español), que ofrece descripciones detalladas de la interfaz de búsqueda, los tipos de búsqueda, las opciones de filtrado y la ordenación de los resultados.

2. Repositorio de transcripciones semipaleográficas

Todas las transcripciones paleográficas, incluidas las que se añadirán a la versión 3.0, están disponibles en GitHub (para la descarga y el control de versiones) y Zenodo DOI (para su archivo permanente y referencia bibliográfica). El repositorio está organizado en dos carpetas: tablas y transcripciones.

Tablas: Esta carpeta contiene dos tablas de Excel con metadatos sobre las transcripciones: una con datos codicológicos y bibliográficos, y otra con descripciones del contenido.

  • tabla-codices.xlsx: contiene los metadatos de cada uno de los códices incluidos en OSTA.

    • HSMS-ID: identificador de códice HSMS-0003
    • abreviatura HSMS: secuencia alfanumérica utilizada por el HSMS para identificar cada transcripción AXP, LOP5
    • BETA manid: número de identificación asignado por PhiloBiblon a cada uno de los manuscritos u obras impresas en los que aparece una obra
    • BETA copid: número asignado por PhiloBiblon a un ejemplar concreto
    • biblioteca: ubicación actual del manuscrito o del impreso
    • signatura: signatura del manuscrito o del impreso
    • SPDT-inicio: fecha de producción concreta, que corresponde a la fecha más antigua de la copia de un manuscrito o de la impresión de una edición
    • SPDT-fin: fecha de producción concreta, que corresponde a la fecha más reciente de la copia de un manuscrito o a la impresión de una edición
    • lugar específico: nombre del lugar donde se escribió o imprimió el códice
    • productor específico: nombre del copista o del impresor, cuando se conozca
    • formato: formato del códice, puede ser manuscrito, incunable (1478-1500), post-incunable (1501-1520), o raro (después de 1520)
    • número de folios: número total de folios del códice
    • PhiloBiblon: enlace a la entrada del códice en PhiloBiblon
    • facsímil digital: enlace al facsímil digital del códice, si existe
    • subcorpus:
    • transcriptor: el nombre del transcriptor o transcriptores
    • notas: notas relacionadas con la transcripción
    • versión: Versión de OSTA en la que se añadió la transcripción
  • tabla-obras.xlsx: contiene los metadatos de cada uno de las obras incluidas en OSTA

    • abreviatura HSMS: secuencia alfanumérica utilizada por HSMS para identificar cada transcripción AXP, LOP5
    • BETA manid: número de registro asignado por PhiloBiblon a cada uno de los manuscritos o impresos en los que aparece una obra
    • BETA copid: número de registro asignado por PhiloBiblon a cada una de las copias de un impreso
    • HSMS-ID: identificador de códice HSMS-0003
    • Obra ID: identificador de obra HSMS-0003-0001
    • BETA cnum: número de control asignado por PhiloBiblon a cada entrada
    • Autor: nombre del autor, cuando se conozca; de lo contrario, aparecerá como "desconocido"
    • Traductor: nombre del traductor, cuando se conozca; de lo contrario, aparecerá como "desconocido"
    • Título: título general o estandarizado, siguiendo las normas establecidas en PhiloBiblon
    • folio: la secuencia de folios que cada obra ocupa dentro del códice
    • OPDT-inicio: fecha de producción original, que corresponde a la más antigua de las fechas conocidas o supuestas de redacción del original de cada obra
    • OPDT-fin: fecha de producción original, que corresponde a la más reciente fecha de redacción conocida o supuesta del original de cada obra
    • lengua-1, lengua-2: idioma o idiomas utilizados en una obra determinada
    • tipo textual: tipología básica de la obra, puede ser verso o prosa
    • materia-1, materia-2, materia-3: clasificación taxonómica de las obras por tema

Transcripciones: Esta carpeta contiene las transcripciones semipaleográficas. Al principio de cada transcripción hay seis campos de metadatos:

{RMK: identificador de códice.}
{RMK: autor.}
{RMK: [secuencia alfanumérica utilizada por el HSMS para identificar cada transcripción] título.}
{RMK: ciudad | impresor | fecha de impresión.}
{RMK: diudad | biblioteca | signatura.}
{RMK: nombre del transcriptor o transcriptores.}

En el caso de los textos manuscritos, el campo del impresor aparece en blanco

{RMK: HSMS-0114.}
{RMK: Ruy González de Clavijo.}
{RMK: [TAM] Historia del gran Tamorlán.}
{RMK: .}
{RMK: Madrid | Biblioteca Nacional de España | MSS/9218.}
{RMK: Juan Luis Rodríguez Bravo, María del Mar Martínez Rodríguez.}

while printed texts have information in all six

{RMK: HSMS-0161.}
{RMK: desconocido.}
{RMK: [VLT] Gran conquista de Ultramar.}
{RMK: Salamanca | Hans Giesser | 1503.}
{RMK: Madrid | Biblioteca Nacional de España | R/518, R/519.}
{RMK: Ray Harris-Northall.}

Adicionalmente, antes de cada obra en una transcripción, hay un campo de metadatos con el identificador de la obra y el título normalizado

[fol. 17v]
{CB2.
con tu Paresc'er
& por en cobraria
el bjen que perdi
{RMK: HSMS-0248-0051: En muy esquivas montañas.} Razona<n>do ./ en tal figura
las aues /. fueron bolando
yo aprez. de vna verdura
me falle /. triste cuyda<n>do
& luego en aquella ora

Condiciones de uso

El Old Spanish Textual Archive del Hispanic Seminary of Medieval Studies es un recurso electrónico de acceso libre y gratuito en la red con las siguientes condiciones de uso:

  • Los usuarios citarán adecuadamente el Old Spanish Textual Archive en los trabajos en que utilicen datos del mismo. El formato de cita puede ser el siguiente (o uno similar que incluya los mismos datos bibliográficos)

Gago Jover, Francisco and F. Javier Pueyo Mena. 2021- . Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. https://osta.oldspanishtextualarchive.org. [date of search]

  • Las obras individuales deben citarse utilizando el identificador de la obra (e.g., HSMS-0003-0001) o, al citar un códice completo, el identificador del códice (e.g., HSMS-0003), junto con otra información relevante, como el autor y el título.

  • Para que otros investigadores puedan verificar los resultados, se recomienda incluir la consulta tal y como aparece en los resultados, incluyendo no solo el término o términos, o las expresiones buscadas, sino también los filtros utilizados:

    •      Q = [(lemma='perro'%cd)] within text sort by yearobra
    •      Q = [(lemma='aceite'%cd)] :: match.text_materia3 = "medicina" & match.text_sigloobra = "14" within text sort by word
  • Los usuarios informarán a los responsables del Old Spanish Textual Archive de cualquier hallazgo científico relevante que se derive de la consulta de los datos. Por último, los usuarios informarán a los editores [hispanicseminary.ltd @ gmail.com] de los errores de transcripción o fallos de funcionamiento que detecten para así contribuir a mejorar este recurso.

Limitaciones de esta versión

La versión disponible del Old Spanish Textual Archive tiene las siguientes limitaciones:

  • La descarga de los resultados en formato TSV está limitada a los primeros 250.000 ejemplos.
  • Existen cerca de 250.000 formas desconocidas en el corpus (0.6% del total).
  • Un pequeño número de formas presenta una lematización o un análisis morfológico incorrectos. Estos se corregirán en futuras actualizaciones.

Bibliografía

  • Capuano, Thomas M. 2017. Diccionario herbario de textos antiguos y premodernos, Nueva York: Hispanic Seminary of Medieval Studies.
  • Carreras, Xavier, Isaac Chao, Lluís Padró y Muntsa Padró. 2004. “FreeLing: An Open-Source Suite of Language Analyzers.” Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC’04). [pdf]
  • Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical.” Scriptum Digital, 7: pp. 25-35. [pdf]
  • Gago Jover, Francisco y F. Javier Pueyo Mena. 2018. “El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: el corpus textual.” Cuadernos del Instituto Historia de la Lengua, 11: pp. 165-209. [pdf]
  • Gago Jover, Francisco. 2002. Vocabulario militar castellano (siglos XIII-XV). Granada: Universidad de Granada.
  • Herrera, María Teresa. 1996. Diccionario español de textos médicos antiguos. Madrid: Arco/Libros.
  • Kasten, Lloyd A. y John Nitti. 2002. Diccionario de la prosa castellana del Rey Alfonso X. Nueva York: Hispanic Seminary of Medieval Studies.
  • Nitti, John. 1978. “Computers and the Old Spanish Dictionary,” Computers and the Humanities, 12, pp. 43-52.
  • Sánchez, María Nieves, et al. 2000. Diccionario español de documentos alfonsíes. Madrid: Arco/Libros.
  • Sánchez Marco, Cristina, Gemma Boleda, y Lluís Padró. 2011. “Extending the tool, or how to annotate historical language varieties”, Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9, Portland, OR, USA, 24 June 2011. [pdf]