Edición de un corpus digital de inventarios de bienes

  1. Pilar Arrabal Rodríguez
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2020

Número: 65

Páginas: 67-74

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este trabajo se pretende dar a conocer el proceso de elaboración de un corpus diacrónico digital a partir de la selección y edición digital de inventarios de bienes de los siglos XVIII y XIX de las provincias de Madrid y Almería. Los recuentos de bienes, de estructura repetitiva y abundantes en distintos puntos de la geografía hispánica, facilitan la comparación regional y cronológica de los documentos. Este corpus forma a su vez parte de Oralia diacrónica del español (ODE), un corpus que toma como inspiración el modelo tecnológico empleado por el proyecto europeo P.S. Post Scriptum para ofrecer en línea un corpus anotado a partir de la herramienta TEITOK (Janssen, 2016).

Referencias bibliográficas

  • Calderón-Campos, M. 2019. La edición de corpus históricos en la plataforma TEITOK. El caso de Oralia diacrónica del español. Chimera, 6:21-36. Calderón-Campos, M. y M. T. García-Godoy. 2010-2019. Oralia diacrónica del español (ODE). En línea: http://corpora.ugr.es/ode/
  • CLUL (ed.). 2014. P. S. Post Scriptum. Archivo Digital de Escritura Cotidiana en Portugal y España en la Edad Moderna. En línea: http://ps.clul.ul.pt
  • Consorcio TEI, (eds.). 2007. TEI P5: Directrices para la codificación e intercambio electrónico de texto (Versión 1.5.). En línea: http://www.teic.org/Guidelines/P5/
  • Janssen, M., J. Ausensi y J. M. Fontana. 2017. Improving POS tagging in Old Spanish using TEITOK. En Proceedings of the NoDaLiDa 2017 workshop on Processing Historical Language, páginas 2-6, Gotemburgo, Suecia.
  • Janssen, M. 2016. TEITOK: Text-Faithful Annotated Corpora. En Proceedings of the Tenth International Conference on Language Resources and Evaluation, páginas 4037-4043, Portoroz, Eslovenia.
  • Janssen, M. 2012. NeoTag: a POS tagger for grammatical neologism detection. En Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012, Estambul.
  • Morala-Rodríguez, J. R. 2014. El CorLexIn, un corpus para el estudio del léxico histórico y dialectal del Siglo de Oro. Scriptum Digital, 3:5-28.
  • Vaamonde, G. 2015. P. S. Post Scriptum: dos corpus diacrónicos de escritura cotidiana. Procesamiento del Lenguaje Natural, 55:57-64.