Valutare la qualità dei testi generati in lingua italiana
DOI:
https://doi.org/10.62408/ai-ling.v1i1.14Keywords:
lingua, intelligenza artificiale, testi generati da intelligenze artificiali, lingua italiana, valutazione, LLM, ChatGPTAbstract
Il contributo presenta il problema della valutazione dei testi generati in lingua italiana da LLM collocandolo nel contesto delle pratiche di valutazione esistenti in diversi settori connessi. Nella prima parte viene mostrato il posizionamento della valutazione degli LLM in rapporto ad alcune pratiche ampiamente diffuse, dalla valutazione semiautomatica delle traduzioni automatiche alla valutazione umana di testi di vario genere. Nella seconda parte vengono presentate le condizioni della valutazione in rapporto alle capacità effettive degli LLM, che sono in grado di generare testi di tipo molto diverso. Viene poi presentato l’esame di un campione di testi generati da ChatGPT, eseguito appunto nella prospettiva dell’identificazione delle pratiche di valutazione più adatte. Le produzioni testuali oggetto dell’esame, ricavate da conversazioni condotte con ChatGPT-3.5 e ChatGPT-4, mostrano infatti un avvicinamento notevole alle produzioni professionali di esseri umani, ma anche alcuni punti di divergenza. Complessivamente, il contributo argomenta quindi in favore dell’importanza e dell’utilità della valutazione umana applicata ai testi di buon livello linguistico prodotti dai sistemi attuali basati sull’intelligenza artificiale, purché in questa applicazione venga evitata l’adozione passiva di criteri sviluppati per altri tipi di attività.
References
Alva-Manchego, Fernando & Scarton, Carolina & Specia, Lucia. 2021. The (un)suitability of automatic evaluation metrics for text simplification. Computational Linguistics 47 (4). 861-889. https://doi.org/10.1162/coli_a_00418 (ultimo accesso 7 febbraio 2024)
Andorno, Cecilia & Rastelli, Stefano. 2009. Un’annotazione orientata alla ricerca acquisizionale. In Andorno, Cecilia & Rastelli, Stefano (eds), Corpora di italiano L2: tecnologie, metodi, spunti teorici, 49-70. Perugia: Guerra Edizioni. http://hdl.handle.net/11571/571173
Antonelli, Giuseppe. 2023. L’IA-taliano. La Lettura, Corriere della Sera, 3 dicembre 2023, 10-11.
Bender, Emily M. & Gebru, Timnit & McMillan-Major, Angelina & Shmitchell Shmargaret. 2021. On the dangers of stochastic parrots: can language models be too big? . In FAccT ‘21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (March 3-10, 2021), 610-623. New York: Association for Computing Machinery. https://doi.org/10.1145/3442188.3445922 (ultimo accesso 31 gennaio 2024)
Bentivogli, Luisa & Bisazza, Arianna & Cettolo, Mauro & Federico, Marcello. 2018. Neural versus phrase-based MT quality: an in-depth analysis on English–German and English–French. Computer speech and language 49. 52-70. https://doi.org/10.1016/j.csl.2017.11.004
Berruto, Gaetano. 2012. Sociolinguistica dell’italiano contemporaneo. Seconda edizione. Roma: Carocci.
Cervesato, Ivan. 2019. Valutazioni uniformi all’Esame di Maturità: la beffa delle griglie nazionali. Roars, 20 marzo 2019. https://www.roars.it/valutazioni-uniformi-allesame-di-maturita-la-beffa-delle-griglie-nazionali/ (ultimo accesso 31 gennaio 2024)
Cicero, Francesco. 2023. L’italiano delle intelligenze artificiali generative. Italiano LinguaDue 15 (2). 733-761. https://doi.org/10.54103/2037-3597/21990
Consiglio d’Europa. 2001. Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: Cambridge University Press. https://rm.coe.int/1680459f97 (ultimo accesso 31 gennaio 2024)
De Mauro, Tullio. 1980. Guida all’uso delle parole. Roma: Editori Riuniti.
De Mauro, Tullio. 2016. Il Nuovo vocabolario di base della lingua italiana. Internazionale, 23 dicembre 2016. https://www.internazionale.it/opinione/tullio-de-mauro/2016/12/23/il-nuovo-vocabolario-di-base-della-lingua-italiana (ultimo accesso 31 gennaio 2024)
Dell’Orletta, Felice & Montemagni, Simonetta & Venturi, Giulia. 2011. READ-IT: assessing readability of Italian with a view to text simplification. In Proceedings of the second workshop on speech and language processing for assistive technologies (Edinburgh, July 2011), 73-83. Stroudsburg: Association for Computational Linguistics.
Drugan, Joanna. 2013. Quality in Professional Translation: Assessment and Improvement. London, New York: Bloomsbury. https://doi.org/10.5040/9781472542014
Freedman, David H. 2010. Wrong: Why experts* keep failing us – and how to know when not to trust them* Scientists, finance wizards, doctors, relationship gurus, celebrity CEOs, high-powered consultants, health officials and more. New York: Little, Brown and Company.
Fulcher, Glenn & Harding, Luke (eds). 2021. The Routledge handbook of language testing. Second edition. London: Routledge. https://doi.org/10.4324/9781003220756
Gallina, Francesca & Orlando, Salvatore & Tavosanis, Mirko. In stampa. Le raccomandazioni per la scrittura universitaria: manuali, declaratorie, obiettivi formativi. Univers-ITA. La scrittura degli studenti universitari. Bologna: Bononia University Press.
Giunta, Claudio. 2018. Come non scrivere. Torino: UTET. http://hdl.handle.net/11572/216971
Graham, Yvette & Baldwin, Timothy. 2014. Testing for significance of increased correlation with human judgment. In Proceedings of the EMNLP (Doha, Qatar, October 25-29, 2014), 172-176. Stroudsburg: Association for Computational Linguistics. https://aclanthology.org/D14-1020.pdf (ultimo accesso 31 gennaio 2024). https://doi.org/10.3115/v1/d14-1020
Gualdo, Riccardo. 2020. È possibile evidenziare le evidenze? Storia e fortuna di un calco anglicizzante. Accademia della Crusca – Lingua italiana – Consulenza linguistica – Risposte ai quesiti. https://accademiadellacrusca.it/it/consulenza/%C3%A8-possibile-evidenziare-le-evidenze-storia-e-fortuna-di-un-calco-anglicizzante/2785 (ultimo accesso 31 gennaio 2024)
Jimenez-Crespo, Miguel A. 2018. Crowdsourcing and translation quality: novel approaches in the language industry and translation studies. In Moorkens, Joss & Castilho, Sheila & Gaspari, Federico & Doherty, Stephen (eds), Translation Quality Assessment: From Principles to Practice, 69-94. Berlin: Springer. https://doi.org/10.1007/978-3-319-91241-7_4
Khan, Salman. 2024. Brave New Words: How AI Will Revolutionize Education (and Why That’s a Good Thing). London: Viking.
Krippendorff, Klaus. 2019. Content Analysis. London: SAGE. https://doi.org/10.4135/9781071878781
Kuiken, Folkert & Vedder, Ineke. 2022. Measurement of functional adequacy in different learning contexts. TASK: Journal on Task-Based Language Teaching and Learning 2,1. 8-32. https://doi.org/10.1075/task.00013.kui
Lemoine, Blake. 2023. ‘I worked on Google’s AI. My fears are coming true’. Newsweek, 27 febbraio 2023. https://www.newsweek.com/google-ai-blake-lemoine-bing-chatbot-sentient-1783340 (ultimo accesso 31 gennaio 2024)
Lu, Sheng & Bigoulaeva, Irina & Sachdeva, Rachneet & Madabushi, Harish Tayyar & Gurevych, Iryna. 2023. Are emergent abilities in large language models just in-context learning? Arxiv. https://doi.org/10.48550/ARXIV.2309.01809 (ultimo accesso 31 gennaio 2024)
Lucisano, Pietro & Piemontese, Maria Emanuela. 1988. Gulpease: una formula per la predizione della leggibilita di testi in lingua italiana. Scuola e città 3. 110-124. http://hdl.handle.net/11573/450554
Mahowald, Kyle & Ivanova, Anna A. & Blank, Idan A. & Kanwisher, Nancy & Tenenbaum, Joshua B. & Fedorenko, Evelina. 2023. Dissociating language and thought in large language models. Arxiv. https://doi.org/10.48550/ARXIV.2301.06627 (ultimo accesso 31 gennaio 2024)
Marazzini, Claudio. 2023. Intervista di Marcello Pelizzari a Claudio Marazzini. Corriere del Ticino, 12 ottobre 2023. https://www.cdt.ch/lifestyle/tecnologia/chatgpt-ed-evoluzione-della-lingua-dove-sta-andando-litaliano-329827 (ultimo accesso 31 gennaio 2024)
Moorkens, Joss & Castilho, Sheila & Gaspari, Federico & Doherty, Stephen (eds). 2018. Translation Quality Assessment: From Principles to Practice. Berlin: Springer. https://doi.org/10.1007/978-3-319-91241-7
NIST. 2009. Tools | NIST. https://www.nist.gov/itl/iad/mig/tools (ultimo accesso 7 febbraio 2024)
Papa, Sirio & Tavosanis, Mirko. 2020. Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano. In Dell’Orletta, Felice & Monti, Johanna & Tamburini, Fabio (eds), CLiC-it 2020 – Proceedings of the Seventh Italian Conference on Computational Linguistics (Bologna, March 1-3, 2021), 422-428. Torino: Accademia University Press.
Papineni, Kishore & Roukos, Salim & Ward, Todd & Zhu Wei-Jing. 2002. BLEU: a method for automatic evaluation of machine translation. In Isabelle, Pierre & Charniak, Eugene & Dekang, Lin (eds), Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (Philadelphia, PA, July 2002), 311-318. Stroudsburg: Association for Computational Linguistics. https://doi.org/10.3115/1073083.1073135
Piemontese, Emanuela. 1996. Capire e farsi capire. Teorie e tecniche della scrittura controllata. Napoli: Tecnodid.
Rivera-Trigueros, Irene. 2022. Machine translation systems and quality assessment: a systematic review. Language Resources and Evaluation 56 (2). 593-619. https://doi.org/10.1007/s10579-021-09537-5 (ultimo accesso 31 gennaio 2024)
Rosi, Fabiana. 2009. «Non ha saputo dove è stato»: come annotare le forme non-target in un corpus di italiano L2? In Andorno, Cecilia & Rastelli, Stefano (a c. di), Corpora di italiano L2: tecnologie, metodi, spunti teorici, 49-70. Perugia: Guerra Edizioni.
Schaeffer, Rylan & Brando, Miranda & Sanmi, Koyejo. 2023. Are emergent abilities of large language models a mirage? Arxiv. https://doi.org/10.48550/ARXIV.2304.15004 (ultimo accesso 31 gennaio 2024)
Serianni, Luca & Benedetti, Giuseppe. 2015. Scritti sui banchi. Roma: Carocci.
Shterionov, Dimitar & Superbo, Riccardo & Nagle, Pat & Casanellas, Laura & O’Dowd, Tony & Way, Andy. 2018. Human versus automatic quality evaluation of NMT and PBSMT. Machine Translation 32 (3). 217-235. https://doi.org/10.1007/s10590-018-9220-z
Tavosanis, Mirko. 2018. Lingue e intelligenza artificiale. Roma: Carocci. http://hdl.handle.net/11568/909841
Turovsky, Barak. 2016. Found in translation: more accurate, fluent sentences in Google Translate. Google: The Keyword. https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/ (ultimo accesso 7 febbraio 2024)
Wei, Jason & Tay, Yi & Bommasani, Rishi & Raffel, Colin & Zoph, Barret & Borgeaud, Sebastian & Yogamata, Dani & Bosma, Maarten & Zhou, Denny & Chi, Ed H. et al. 2022. Emergent abilities of large language models. Arxiv. https://doi.org/10.48550/ARXIV.2206.07682 (ultimo accesso 31 gennaio 2024)
White, James. 1995. Approaches to Black Box MT Evaluation. In Proceedings of Machine Translation Summit V (Luxembourg, July 10-13, 1995). Luxembourg.
Wu, Tianyu & He, Shizhu & Liu, Jingping & Sun, Siqi & Lui, Kang & Han, Qing-Long & Tang, Yang. 2023. A brief overview of ChatGPT: the history, status quo and potential future development. Journal of Automatica Sinica 10 (5). 1122-1136. https://doi.org/10.1109/JAS.2023.123618 (ultimo accesso 31 gennaio 2024)
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2024 Mirko Tavosanis

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.