PLATCOL, Plataforma Multilingüe de Diccionarios de Colocacionesel caso del chino

  1. Pazos Bretaña, José Manuel
  2. Orenha Ottaiano, Adriane 1
  3. Xiong, Zhongmei 2
  1. 1 Universidade Estadual Paulista
    info

    Universidade Estadual Paulista

    São Paulo, Brasil

    ROR https://ror.org/00987cb86

  2. 2 Universidad de Granada
    info

    Universidad de Granada

    Granada, España

    ROR https://ror.org/04njjy449

Revista:
Estudios de traducción

ISSN: 2174-047X 2254-1756

Año de publicación: 2023

Título del ejemplar: Monográfico: La traducción de los referentes culturales

Número: 13

Páginas: 73-85

Tipo: Artículo

DOI: 10.5209/ESTR.87191 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Estudios de traducción

Resumen

El objetivo de esta contribución es mostrar algunos resultados de las colocaciones extraídas del idioma chino, así como discutir los problemas que hemos observado al trabajar con esta lengua en la Plataforma Multilingüe de Diccionarios de Colocaciones (PLATCOL). PLATCOL incluirá colocaciones en inglés, portugués, español, francés y chino (AUTOR et al., 2021) y forma parte del proyecto NOMBRE_PROYECTO. En el diccionario se ha seguido una metodología unificada para obtener los datos que poblarán las entradas. Esta metodología que funciona con razonable eficacia en las demás lenguas –aunque requiere una fase supervisada de corrección y validación– conlleva un esfuerzo suplementario en el caso de la lengua china donde, por ejemplo, discrepancias en la asignación de categorías gramaticales pueden afectar a la eficacia del método a la hora de extraer candidatos.

Referencias bibliográficas

  • Alonso-Ramos, Margarita (1994). Hacía una definición del concepto de colocación: de J. R. Firth a I. A Mel’čuk. Revista de Lexicografía, 1, 9-28.
  • Alonso-Ramos, Margarita (2001). Construction d’une base de données des collocations bilingue français-espagnol. Langages, 35 (143), 5-27. https://doi.org/10.3406/lgge.2001.888
  • Alonso-Ramos, Margarita (2008). Papel de los diccionarios de colocaciones en la enseñanza de español como L2. En E. Bernal y J. DeCesaris (Eds.), Proceedings of the XIII EURALEX International Congress (pp. 1215-1230). IULA/Documenta Universitaria.
  • Alonso-Ramos, Margarita y García-Salido, Marcos (2019). Testing the Use of a Collocation Retrieval Tool Without Prior Training by Learners of Spanish. International Journal of Lexicography, 32 (4), 480-497. https://doi.org/10.1093/ijl/ecz016
  • Artetxe, Mikel, Labaka, Gorka y Agirre, Eneko (2018). A robust self-learning method for fully unsupervised crosslingual mappings of word embeddings. En Iryna Gurevych y Yusuke Miyao (Eds.), Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 1, 789-798. https://doi.org/10.18653/v1/P18-1073
  • Atkins, B. T. Sue y Rundell, Michael (2008). The Oxford guide to practical lexicography. Oxford University Press.
  • Barfield, Andy y Gyllstad, Henrik (Eds.) (2009). Researching Collocations in another language: Multiple Interpretations. Palgrave Macmillan.
  • Baroni, Marco; Bernardini, Silvia; Ferraresi, Adriano y Zanchetta, Eros (2009). The WaCky wide web: A collection of very large linguistically processed web-crawled corpora. Language Resources and Evaluation, 43 (3), 209-226. https://doi.org/10.1007/s10579-009-9081-4
  • Bergenholtz, Henning y Tarp, Sven (2003). Two opposing theories: On H.E. Wiegand’s recent discovery of lexicographic functions. HERMES - Journal of Language and Communication in Business, 31, 171-196. https://doi.org/10.7146/hjlcb.v16i31.25743
  • Bernardini, Silvia (2007). Collocations in Translated Language: Combining Parallel, Comparable and Reference Corpora. En Matthew Davies, Paul Rayson, Susan Hunston y Pernilla Danielsson (Eds.), Proceedings of the Corpus Linguistics Conference (CL2007) (pp. 1-16). University of Birmingham. Disponible en: http://ucrel.lancs.ac.uk/publications/CL2007/paper/15_Paper.pdf.
  • Bird, Steven; Klein, Ewin y Loper, Edward (2009). Natural Language Processing with Python. O’Reilly Media Inc.
  • Bond, Francis y Foster, Ryan (2013). Linking and extending an open multilingual Wordnet. En Hinrich Schuetze, Pascale Fung y Massimo Poesio (Eds.), Proceedings of the 51st annual meeting of the association for computational linguistics (Volume 1: Long papers) (pp. 1352-1362). Association for Computational Linguistics. Disponible en: https://www.aclweb.org/anthology/P13- 1133.pdf
  • Bothma, Theo. J. D., y Tarp, Sven (2012). Lexicography and the Relevance Criterion. Lexikos, 22, 86-108. https://doi.org/10.5788/22-1-999
  • Chen, Yaju. (2006). Xian dai han yu ci yu da pei de zi dong chou qu fang fa 现代汉语词语搭配的自动抽取方法 [Método de extracción automática de colocaciones de palabras en chino moderno]. East China Normal University.
  • Corpas Pastor, Gloria (1996). Manual de fraseología española. Gredos.
  • de Gregorio-Godeo, Eduardo y Molina, Silvia (2011). Collocations and the Translation of News: An English–Spanish Electronic Dictionary of Multi-Word Combinations as a Translation Tool. Perspectives, 19 (2), 135-152.
  • de Marneffe, Marie Catherine; Manning, Christopher D.; Nivre, Joakim y Zeman, Daniel (2021). Universal Dependencies. Computational Linguistics, 47 (2), 255-308. https://doi.org/10.1162/coli_a_00402
  • Evert, Stefan (2008). Corpora and collocations. En A. Lüdeling & M. Kytö (Eds.), Corpus Linguistics (Vol. 2, pp. 1212-1248). Mouton de Gruyter.
  • Filho Wagner, Jorge A., Wilkens, Rodrigo; Idiart, Marco y Villavicencio, Aline (2018). The brWaC Corpus: A New Open Resource for Brazilian Portuguese. En K. C. Nicoletta, C. Cieri, T. Declerck, S. Goggi, K. Hasida, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, S. Piperidis y T. Tokunaga (Eds.), Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018) (pp. 4339-4344). European Language Resources Association. Disponible en: https://aclanthology.org/L18-1686
  • Fuertes-Olivera, Pedro Antonio y Tarp, Sven (2014). Theory and Practice of Specialised Online Dictionaries: Lexicography versus Terminography. De Gruyter. https://doi.org/10.1515/9783110349023
  • Gamallo, Pablo, García, Marcos, Piñeiro, César, Martínez-Castaño, Rodrigo y Pichel, Juan C. (2018). LinguaKit: A big data-based multilingual tool for linguistic analysis and information extraction. Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), 239-244. https://doi.org/10.1109/SNAMS.2018.8554689
  • García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2017). Using bilingual word-embeddings for multilingual collocation extraction. En S. Markantonatou, C. Ramisch, A. Savary y V. Vincze (Eds.), Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017) (pp. 21-30). ACL. https://doi.org/10.18653/v1/W17-1703
  • García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019a). A comparison of statistical association measures for identifying dependency-based collocations in various languages. En A. Savary, C. P. E. Agata, F. Bond, J. Mitro-vić y V. B. Mititelu (Eds.), Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019) (pp. 49-59). ACL. https://doi.org/10.18653/v1/W19-5107
  • García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019b). Towards the automatic construction of a multilingual dictionary of collocations using distributional semantics. En I. Kozem, M. Correia, J. P. Ferreira, M. Jansen, I. Pereira, J. Kallas, M. Jakubíček, S. Krek, C. Tiberius y T. Zingano Kuhn (Eds.), Proceedings of eLex 2019: Smart Lexicography (pp. 747-762). Lexical Computing CZ. Disponible en: https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_42.pdf
  • García, Marcos; García-Salido, Marcos y Alonso-Ramos, Margarita (2019c). Weighted compositional vectors for translating collocations using monolingual corpora. En G. Corpas Pastor & R. Mitkov (Eds.), Computational and Corpus-Based Phraseology (pp. 113-128). Springer. https://doi.org/10.1007/978-3-030-30135-4_9
  • Gries, Stephan Th. (2013). Statistics for linguistics with R: a practical introduction (2nd revised). De Gruyter Mouton. https://doi.org/10.1515/9783110718256
  • Hausmann, Franz Josef (1985). Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispiels. En H. Bergenholtz y J. Mugdan (Eds.), Lexikographie und Grammatik (pp. 118-129). De Gruyter. https://doi.org/10.1515/9783111635637-004
  • Hausmann, Franz Josef (1989). Le dictionnaire de collocations. En O. Reichmann, H. E. Wiegand y L. Zgusta (Eds.), Wörterbücher: Ein internationales Handbuch zur Lexicographie. Dictionaries. Dictionnaires (pp. 1010-1019). De Gruyter.
  • Heylen, Dirk y Maxwell, Kerry (1994). Lexical functions and the translation of collocations. International Conference on Computational Linguistics, Kyoto, Japan, pp. 298-305.
  • Higueras-García, Marta (2005). Necesidad de un diccionario de colocaciones para aprendientes de ELE. En M. A. Castillo et al. (Eds.). Las gramáticas y los diccionarios en la enseñanza del español como segunda lengua: deseo y realidad. Actas del XV Congreso Internacional de ASELE (pp. 480-490). Universidad de Sevilla.
  • Jousse, Anne-Laure y Polguère, Alain (2005). Le DiCo et sa version DiCouébe. Document descriptif et manuel d’utilisation. Université de Montréal: Observatoire de linguistique Sens-Texte (OLST). Disponible en: http://idefix.ling.umontreal.ca/dicouebe/DiCoDOC.pdf
  • Kenny, Dorothy (2001). Lexis and creativity in translation: A corpus-based study. St. Jerome Pub. https://doi.org/10.4324/9781315759968
  • Kilgarriff, Adam; Husák, Miloš; McAdam, Katy; Rundell, Michael y Rychly, Pavel (2008). GDEX: Automatically Finding Good Dictionary Examples in a Corpus. En E. Bernal y J. DeCesaris (Eds.), Proceedings of the 13th EURALEX International Congress (pp. 425-432). Institut Universitari de Linguistica Aplicada. Universitat Pompeu Fabra. Disponible en: https://euralex.org/publications/gdex-automatically-finding-good-dictionary-examples-in-a-corpus/
  • Kilgarriff, Adam; Marcowitz, Fredrik; Smith, Simon y Thomas, James (2015). Corpora and Language Learning with the Sketch Engine and SKELL. Revue française de linguistique appliquée, XX (1), 61-80. https://doi.org/10.3917/rfla.201.0061
  • Koehn, Philipp (2005). Europarl: A parallel corpus for Statistical Machine Translation. Proceedings of the 10th Machine Translation Summit, 79-86. Disponible en: https://aclanthology.org/2005.mtsummit-papers.11
  • Kosem, Iztok, Koppel, Kristina; Kuhn, Tanara Z.; Michelfeit, Jan y Tiberius, Carole (2019). Identification and automatic extraction of good dictionary examples: The case(s) of GDEX. International Journal of Lexicography, 32 (2), 119-137. https://doi.org/10.1093/ijl/ecy014
  • Laufer, Batia (2011). The Contribution of Dictionary Use to the Production and Retention of Collocations in a Second Language. International Journal of Lexicography, 24 (1), 29-49. https://doi.org/10.1093/ijl/ecq039
  • Manning, Christopher; Surdeanu, Mihai; Bauer, John; Finkel, Jenny; Bethard, Steven y McClosky, David (2014). The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 55-60. https://doi.org/10.3115/v1/P14-5010
  • Mei, Jiaju (Ed.) (1999). Xian dai han yu da pei ci dian 现代汉语搭配词典 [‘Diccionario de Colocación del Chino Moderno’]. Shanghai: Han yu da ci dian chu ban she 汉语大词典出版社.
  • Mikolov, Tomas; Chen, Kai; Corrado, Greg y Dean, Jeffrey (2013). Efficient estimation of word representations in vector space. En Y. Bengio y Y. LeCun (Eds.), Workshop Proceedings of the International Conference on Learning Representations (ICLR). https://doi.org/10.48550/arXiv.1301.3781
  • Moon, Rosamund (2008). Sinclair, Phraseology, and Lexicography. International Journal of Lexicography, 21 (3), 243-254. https://doi.org/10.1093/ijl/ecn027
  • Nesselhauf, Nadja (2005). Collocations in a Learner Corpus. John Benjamins. https://doi.org/10.1075/scl.14
  • Orenha-Ottaiano, Adriane (2009). A compilação de corpora comparáveis na área de negócios e sua relevância para a tradução e terminologia. Calidoscópio, 7 (3), 232-36.
  • Orenha-Ottaiano, Adriane (2012). English collocations extracted from a corpus of university learners and its contribution to a language teaching pedagogy. Acta Scientiarum, 34 (2), 241-251.
  • Orenha-Ottaiano, Adriane (2013). The proposal of an electronic bilingual dictionary based on corpora. En O. M. Karpova (Ed.), Life Beyond Dictionaries. Proceedings of X Anniversary International School on Lexicography (pp. 405-408).
  • Orenha-Ottaiano, Adriane (2016). The compilation of a printed and online corpus-based bilingual collocations dictionary. En G. Meladze, T. Margalitadze e I. Javakhishvili (Eds.), Proceedings of the 17th EURALEX international congress (pp. 735-745). Tbilisi University Press.
  • Orenha-Ottaiano, Adriane (2017). The compilation of an Online Corpus-Based Bilingual Collocations Dictionary: motivations, obstacles and achievements. En I. Kosem, C. Tiberius, M. Jakubíček, J. Kallas, S. Krek y V. Baisa (Eds.), Proceedings of eLex 2017–Electronic lexicography in the 21st century: Lexicography from Scratch (pp. 458-473). Lexical Computing CZ, s.r.o.
  • Orenha-Ottaiano, Adriane (2020). The creation of an online English collocations platform to help develop collocational competence. Phrasis: Revista di studi fraseologici e paremiologic. Associazone Italiana di Fraseologia e Paremiologia, 1, 59-81.
  • Orenha-Ottaiano, Adriane (2021). Escollas colocacionais a partir dun corpus de estudantes de tradución e a importancia do desenvolvemento da competencia colocacional. Cadernos de Fraseoloxía Galega, 21, 35-64.
  • Orenha-Ottaiano, Adriane; García, Marcos; Olímpio De Oliveira, Maria Eugênia; L’Homme, Marie-Claude; Alonso Ramos, Margarita; Valêncio, Carlos Roberto y Tenório, William (2021). Corpus-based methodology for an Online Multilingual Collocations Dictionary: First Steps. En I. Kosem, M. Cukr, M. Jakubíček, J. Kallas, S. Krek y C. Tiberius (Eds.), Proceedings of eLex 2021 (pp. 1-28).
  • Padró, Luís y Stanilovsky, Evgeny (2012). FreeLing 3.0: Towards wider multilinguality. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), 2473-2479. Disponible en: http://hdl.handle.net/2117/15986
  • Pamies, Antonio (2019). La fraseología a través de su terminología. En J. J. Martín Ríos (Ed.), Estudios lingüísticos y culturales sobre China (pp. 105-134). Comares.
  • Penadés Martínez, Inmaculada (2017). Arbitrariedad y motivación en las colocaciones. RLA, 55 (2), 121-142.
  • Pérez Serrano, Mercedes (2014). ¿Son indispensables los diccionarios combinatorios? Revista de Lexicografía, 20, 121–145.
  • Qian, Xiaofei (2012). Automatic Extraction of Chinese V-N Collocations. En D. Ji y G. Xiao (Eds.), Chinese Lexical Semantics (pp. 230-241). Springer. https://doi.org/10.1007/978-3-642-36337-5_24
  • Qiao, Yun (2017). Evolución y estructura del léxico chino: Un enfoque cognitivo. Universidad de Granada.
  • Santos, Diana y Rocha, Paulo (2005). The Key to the first CLEF in Portuguese: Topics, questions and answers in CHAVE. En C. Peters, P. Clough, J. Gonzalo, G. J. F. Jones, M. Kluck, y B. Magnini (Eds.), Multilingual Information Access for Text, Speech and Images (pp. 821-832). Springer. https://doi.org/10.1007/11519645_80
  • Sinclair, John McHardy (1991). Corpus, concordance, collocation. Oxford University Press.
  • Sinclair, John McHardy (1966). Beginning the study of lexis. In C. E. Bazell, J. C. Catford, M. A. K. Halliday y R. H. Robins (Eds.). In Memory of J.R. Firth. Longman.
  • Straka, Milan y Straková, Jana (2017). Tokenizing, POS tagging, lemmatizing and parsing UD 2.0 with UDPipe. En J. Hajič y D. Zeman (Eds.), Proceedings of the CoNLL 2017 shared task: Multilingual parsing from raw text to universal dependencies (pp. 88-99). Association for Computational Linguistics. https://doi.org/10.18653/v1/K17-3009
  • Sun, Maosong; Huang, Changning y Fang, Jie (1997). Han yu da pei ding liang fen xi chu tan 汉语搭配定量分析初探 [‘Un estudio preliminar sobre el análisis cuantitativo de la colocación china’]. Zhong guo yu wen 中国语文, 1, 29-38.
  • Tarp, Sven (2015). La teoría funcional en pocas palabras. Estudios de Lexicografía, 4, 31-42.
  • Teubert, Wolfgang (2004). Units of meaning, parallel corpora, and their implications for language teaching. En U. Connor y T. Upton (Eds.), Applied corpus linguistics: A multidimensional perspective (pp. 171–189). Rodopi.
  • Torner, Sergi y Bernal, Elisenda (Eds.). (2017). Collocations and Other Lexical Combinations in Spanish. Routledge. https://doi.org/10.4324/9781315455259
  • Zeng, Tong (2015). Ji yu da gui mo yu liao ku de han yu da pei zi dong yan jiu chou qu 基于大规模语料的汉语搭配自动抽取研究 [‘Extracción automática de colocaciones en chino a partir de un corpus a gran escala’]. Nanjing Agricultural University.