Evaluatie en integratie van "common sense" in grote taalmodellen om het begrip van impliciet taalgebruik te verbeteren. 01/11/2023 - 31/10/2025

Abstract

Ondanks indrukwekkende vooruitgang in Natural Language Processing (NLP), blijft Natural Language Understanding (NLU), i.e., het extraheren van semantische en discours representaties uit tekst, een moeilijke taak. Een van de problemen die de huidige NLP-methoden nog niet kunnen oplossen betreft impliciet taalgebruik. Bij het omgaan met implicietheid, i.e., het overbrengen van betekenis zonder expliciete uitdrukking waarbij de sprekers intentie wordt afgeleid uit indirecte aanwijzingen, kunnen Machine Learning (ML) modellen zich niet baseren op oppervlakkige tekstpatronen, maar moeten ze een diepere wereldkennis en redeneervermogen hanteren. Om dergelijke complexe taken aan te pakken, investeren onderzoekers in de integratie van common sense (CS) in ML-modellen. Hoewel de integratie van CS een uitdagende taak is, is het essentieel om impliciete taal te interpreteren. In de literatuur is er echter geen consensus over de mate waarin deze kennis aanwezig is in grote taalmodellen. Daarom gaan we de integratie van CS in deze modellen evalueren en verbeteren. Als praktische toepassing van dit kader focussen we op sarcasmedetectie, wat momenteel lijdt onder een gebrek aan CS. Aangezien sarcasme ook implicaties heeft voor haatspraakdetectie, willen we het gebruik van CS voor sarcasme in haatspraak onderzoeken, wat nog niet gebeurd is. Ten slotte zullen we onze methode extrapoleren naar het Nederlands, om na te gaan of onze methode kan worden gegeneraliseerd over meerdere talen heen.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject