Diseño y explotación de un corpus histórico de textos oralizantes para el estudio del español clásico y moderno

  1. Vaamonde, Gael 1
  1. 1 Universidad de Granada
    info

    Universidad de Granada

    Granada, España

    ROR https://ror.org/04njjy449

Revista:
Revista de Humanidades Digitales

ISSN: 2531-1786

Año de publicación: 2024

Número: 9

Páginas: 41-70

Tipo: Artículo

DOI: 10.5944/RHD.VOL.9.2024.39834 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Revista de Humanidades Digitales

Resumen

En este artículo presentamos Oralia Diacrónica del Español (ODE), un corpus histórico de carácter especializado diseñado para investigar el léxico de la vida cotidiana y reconstruir la oralidad y la variación dialectal del español peninsular desde el siglo XVI hasta finales del siglo XIX. El corpus está compuesto por documentación inédita relativa a tres tipos textuales de inmediatez comunicativa: inventarios de bienes, declaraciones de testigos en juicios criminales y certificaciones periciales de cirujanos sobre personas heridas o fallecidas. ODE incluye las imágenes facsimilares de los manuscritos junto con la transcripción de los textos en lenguaje TEI-XML y cuenta, además, con lematización, etiquetación morfosintáctica y un sofisticado sistema de búsqueda en línea. En este trabajo explicamos el proceso de construcción de ODE y aportamos varios ejemplos que muestran las posibilidades de explotación de este recurso digital.

Referencias bibliográficas

  • Allés-Torrent, S. (2015). Edición digital y algunas tecnologías aliadas. Ínsula: revista de letras y ciencias humanas, 822, 18-21.
  • Blas Arroyo, J. L (2012). Tras las huellas de la variación y el cambio lingüístico a través de textos de inmediatez comunicativa. Fundamentos de un proyecto de sociolingüística histórica. En F. J. de Cos Ruiz y M. Franco Figueroa (Coords.), Actas del IX Congreso Internacional de Historia de la Lengua Española. Volumen 2 (pp. 1743-1762). Iberoamericana/Vervuert.
  • Burnard, L. (2014). What is the Text Encoding Initiative? How to add intelligent markup to digital resources. OpenEdition Press. https://doi.org/10.4000/books.oep.426.
  • Calderón Campos, M. (2018). Las declaraciones de esencia del siglo XVIII: un tipo textual para el estudio de la terminología anatómica. Dynamis, 38(2), 427-452. https://dx.doi.org/10.4321/s0211-95362018000200007.
  • Calderón Campos, M. (2019a). La edición de corpus lingüísticos en la plataforma TEITOK. El caso de Oralia diacrónica del español (ODE). CHIMERA: Revista de Corpus de Lenguas Romances y Estudios Lingüísticos, 6, 21-36.
  • Calderón Campos, M. (2019b). La configuración de la variedad meridional en el reino de Granada. En E. Bustos Gisbert y J. P. Sánchez Méndez (Eds.), La configuración histórica de las normas del castellano (pp. 109-134). Tirant Humanidades.
  • Calderón Campos, M. y Vaamonde, G. (2020). Oralia Diacrónica del Español: un nuevo corpus de la Edad Moderna. Scriptum Digital, 9, 167-189. https://doi.org/10.5565/rev/scriptum.108.
  • Claridge, C. (2008). Historical corpora. In A. Lüdeling y M. Kytö (Eds.), Corpus Linguistics: An International Handbook (pp. 242-259). Walter de Gruyter.
  • Christ, O., Schulze, B. M., Hofmann, Anja y König, Esther (1999). The IMS corpus workbench: Corpus query processor (CQP): User’s manual. Technical report, IMS, University of Stuttgart
  • Dollinger, S. (2004). ‘Philological computing vs. ‘philological outsourcing’ and the compilation of historical corpora: a Late Modern English test case. Vienna English Working Papers (VIEWS), 13(2), 3-23
  • Evert, S. y Hardie, A. (2011). Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium. Proceedings of the Corpus Linguistics 2011 Conference. University of Birmingham.
  • Fradejas Rueda, J. M. (2009-2010). La codificación XML/TEI de textos medievales. Memorabilia, 12, 219-247.
  • García-Miguel, J. M. (2022). Lingüística de corpus: de los datos textuales a la teoría lingüística. Estudios de Lingüística del Español, 45, 11-42.
  • González Sopeña, I. (2022). Documentación notarial extremeña del siglo XVII en Oralia Diacrónica del Español (ODE): el léxico de la vida cotidiana a través de inventarios de bienes pacenses. Romanica Olomucensia, 34(1), 13-30. https://doi.org/10.5507/ro.2022.002.
  • Gries, S. (2009). Quantitative Corpus Linguistics with R: A practical introduction. Routledge.
  • Gries, S. y Berez, A. L. (2017). Linguistic Annotation in/for Corpus Linguistics. En N. Ide y J. Pustejovsky (Eds.), Handbook of Linguistic Annotation (pp. 379-410). Springer. https://doi.org/10.1007/978-94-024-0881-2_15.
  • Honkapohja, A., Kaislaniemi, S. y Marttila, V. (2009). Digital Editions for Corpus Linguistics: Representing manuscript reality in electronic corpora. En A. H. Jucker, D. Schreier y M. Hundt (Eds.): Corpora: Pragmatics and Discourse (pp. 451-475). Rodopi.
  • Huber, M. (2007). The Old Bailey Proceedings, 1674-1834: evaluating and annotating a corpus of 18th and 19th century spoken English. En A. Meurman-Solin y A. Nurmi (Eds.). Annotating variation and change. Helsinki: VARIENG.
  • Hunston, S. (2002). Corpora in Applied Linguistics, Cambridge. Cambridge University Press.
  • Janssen, M. (2012). NeoTag: A POS Tagger for Grammatical Neologism Detection. En N. Calzolari et al. (Eds.), Proceedings of the 8th International Conference on Language Resources and Evaluation (pp. 2118-2124). ELRA.
  • Janssen, M. (2014). TEITOK - a Tokenized TEI enviroment.
  • Janssen, M. (2016). TEITOK: Text-Faithful Annotated Corpora. En N. Calzolari et al. (Eds.), Proceedings of the 10th International Conference on Language Resources and Evaluation (pp. 4037-4043). ELRA.
  • Janssen, M. y Vaamonde, G. (2020). Da edición dixital á análise lingüística. A creación de corpus históricos na plataforma TEITOK. En R. Álvarez y E. González Seoane (Eds.), Calen barbas, falen cartas. A escrita en galego na Idade Moderna (pp. 271-292). Consello da Cultura Galega (Ensaio & Investigación).
  • Kennedy, G. (1998). An Introduction to Corpus Linguistics. Longman.
  • Koch, P. y Oesterreicher, W. (1990[2007]). Lengua hablada en la Romania: español, francés, italiano. Gredos. Versión española de Araceli López Serena a patir del original alemán de 1990: Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Niemeyer.
  • Koester, A. (2022). Building small specialised corpora. En A. O'Keeffe y M. J. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 48-61). Routledge. https://doi.org/10.4324/9780367076399-5.
  • Kytö, M. (2011). Corpora and historical linguistics. Revista Brasileira de Linguística Aplicada, 11(2), 417-457. https://doi.org/10.1590/S1984-63982011000200007.
  • Kytö, M. y Walker, T. (2006). Guide to A Corpus of English Dialogues 1560-1760. Acta Universitatis Upsaliensis.
  • Leech, G. y Wilson, A. (1996). EAGLES. Recommendations for the Morphosyntactic Annotation of Corpora.
  • Marttila, V. (2014). Creating Digital Editions for Corpus Linguistics. The Case of Potage Dyvers, a Family of six Middle English recipe collections [Tesis doctoral]. Universidad de Helsinki. http://hdl.handle.net/10138/135589.
  • McEnery, T, Xiao, R. y Tono, Y. (2006). Corpus-based language studies: An advanced resource book. Routledge.
  • Meurman-Solin, A. (2001). Structured text corpora in the study of language variation and change. Literary and Linguistic Computing, 16(1), 5-27.
  • Meurman-Solin, A. y Tyrkkö, J. (2013). Introduction. En A. Meurman-Solin y J. Tyrkkö (Eds.), Principles and Practices for the Digital Editing and Annotation of Diachronic Data. VARIENG
  • Morala, J. R. (2012). Léxico e inventarios de bienes en los Siglos de Oro. En G. Clavería Nadal, M. Freixas, M. Prat Sabater y J. Torruella (Eds.), Historia del léxico: perspectivas de investigación (pp. 199-218). Iberoamericana/Vervuert.
  • Morala, J. R. (2014). El CorLexIn, un corpus para el estudio del léxico histórico y dialectal del Siglo de Oro. Scriptum Digital, 3, 5-28. https://doi.org/10.5565/rev/scriptum.47 .
  • Náñez Fernández, E. (2006). El diminutivo. Historia y funciones en el español clásico moderno. UAM Ediciones.
  • Nieto Jiménez, L. y Alvar Ezquerra, M. (2007). Nuevo tesoro lexicográfico del español (s. XVI – 1726). Arco Libros.
  • NGLE = RAE / ASALE (2011): Nueva gramática de la lengua española. Fonética y fonología. Espasa.
  • ODE = Calderón Campos, M. y María Teresa García-Godoy (2010-): Oralia Diacrónica del Español (ODE). [enero de 2024].
  • Penny, R. (2001). Variation and change in Spanish. Cambridge University Press.
  • Raumolin-Brunberg, H. y Nevalainen, T. (2007). Historical Sociolinguistics: The Corpus of Early English Correspondence. En J. C. Beal, K. P. Corrigan y H. L. Moisl (Eds.), Creating and Digitizing Language Corpora. Volume 2: Diachronic Databases (pp. 148-171). Palgrave Macmillan.
  • Rodríguez Puente, P. (2018). En busca de lo hablado en lo escrito en los corpus diacrónicos del español: una comparativa con los corpus anglosajones. E-Scripta Romanica, 5, 89-127. https://doi.org/10.18778/2392-0718.05.09.
  • Rojo, G. (2021). Introducción a la lingüística de corpus en español. Routledge. https://doi.org/10.4324/9781003119760.
  • Sánchez Marco, C., Fontana Méndez, J. M. y Domingo, J. (2012). Anotación automática de textos diacrónicos en español. En E. Montero Cartelle y C. Manzano Rovira (Coords.), Actas del VIII Congreso Internacional de Historia de la Lengua Española. Vol. 2 (pp. 1709-1720). Meubook.
  • Sinclair, J. (2004). Trust the text. Language, corpus and discourse. Routledge.
  • Stefanowitsch, A. (2020). Corpus linguistics: A guide to the methodology. Language Science Press. https://doi.org/10.5281/zenodo.3735821.
  • Torruella, J. y Kabatek, J. (2024). Portal de Corpus Históricos Iberorrománicos (versión 6.0).
  • Vaamonde, G. (2015). P. S. Post Scriptum. Dos corpus diacrónicos de escritura cotidiana. Procesamiento del Lenguaje Natural, 55, 57-64.
  • Vaamonde, G. (2018). La multidisciplinariedad en la creación de corpus históricos: El caso de Post Scriptum. Artnodes, 22, 118-127. https://doi.org/10.7238/a.v0i22.3238.