Pixels & pennen: AI en menselijke schrijvers nemen het tegen elkaar op
- Yves Peirsman
- Llms , Creative writing
- 21 september 2024
Table of Contents
De afgelopen jaren hebben grote taalmodellen (LLM’s) grote vooruitgang geboekt op het gebied van creatief schrijven. Slechts vijf jaar geleden zou geen enkel taalmodel ook maar in de buurt zijn gekomen van de vertelkunsten van menselijke auteurs. Vandaag is het landschap echter drastisch veranderd, waardoor zowel onderzoekers als schrijvers zich afvragen hoe de huidige AI-modellen zich verhouden tot menselijke vertellers? Laten we eens kijken naar drie recente studies die deze vraag proberen te beantwoorden.
LLM’s vs. Schrijfstudenten
Om LLM’s te vergelijken met menselijke auteurs, lieten Gómez-Rodríguez en Williams (2023) vijf studenten Creatief Schrijven het opnemen tegen twaalf LLM’s. Hun taak was om een episch kortverhaal te schrijven over een gevecht tussen een pterodactylus en Ignatius J. Reilly (de hoofdpersoon van John Kennedy Tooles A Confederacy of Dunces ) in de kenmerkende donkere en humoristische stijl van de auteur. De redenering achter deze originele opdracht was dat de LLM’s waarschijnlijk geen vergelijkbaar materiaal in hun trainingsdata hadden gezien en dus een nieuw verhaal moesten bedenken.
Tien studenten Creatief Schrijven beoordeelden de verhalen op tien criteria: leesbaarheid, plot, begrip van het epische genre, nauwkeurige weergave van de hoofdpersonages, gebruik van de juiste humoristische toon, enzovoort. Verrassend genoeg presteerde AI beter dan de menselijke auteurs op 9 van de 10 criteria, waaronder leesbaarheid, plot en begrip van het genre. Alleen op het vlak van creativiteit behielden de menselijke schrijvers een lichte voorsprong. GPT-4 en Claude bleken de beste AI-modellen, die zowel de menselijke auteurs als open-source AI-modellen zoals Koala en Vicuna overtroffen. Het grootste verschil tussen gesloten en open-source modellen lag in hun vermogen om donkere humor te genereren, waarbij alleen GPT-4, Claude, Bing (en mensen) scores boven de 5 op 10 behaalden. Wie weet ligt dat ondertussen wel anders: aangezien de huidige open-source modellen bijna even goed presteren als hun gesloten tegenhangers, zou het interessant zijn om dit experiment te herhalen.
LLMs vs. gevestigde auteurs
Als studenten verliezen van AI, hoe zouden gevestigde auteurs het dan doen? Om dat te achterhalen vroegen Chakrabarty et al. (2024) schrijvers niet om nieuwe verhalen te verzinnen, maar selecteerden ze als benchmark twaalf korte verhalen uit The New Yorker, van bekende auteurs zoals Haruki Murakami en Annie Ernaux . Vervolgens lieten ze LLM’s gelijkaardige verhalen schrijven. Om ervoor te zorgen dat de teksten zo vergelijkbaar mogelijk waren, lieten ze GPT-4 een korte samenvatting maken van elk verhaal en vroegen ze drie robuuste taalmodellen (ChatGPT, GPT-4 en Claude 1.3) om verhalen van een vergelijkbare lengte te schrijven, gebaseerd op die samenvattingen.
Experten evalueerden de resultaten aan de hand van veertien binaire tests, zoals de volgende:
- Vormen de verschillende elementen van het verhaal een samenhangend, boeiend en bevredigend geheel?
- Bevat het verhaal wendingen die zowel verrassend als passend zijn?
- Confronteert het verhaal zijn lezers met een uniek en origineel idee?
- Heeft elk personage in het verhaal de gewenste complexiteit?
In tegenstelling tot de studie hierboven toonden de bevindingen een aanzienlijke kloof tussen de verhalen die door mensen en door AI werden geschreven. De verhalen uit The New Yorker slaagden gemiddeld voor twaalf van de veertien binaire tests, terwijl de AI-verhalen duidelijk slechter presteerden. GPT-3.5 slaagde typisch voor slechts één van de tests, terwijl GPT-4 en Claude gemiddeld vier op veertien behaalden. Hoewel de LLM’s vloeiend schreven, hadden ze moeite met originaliteit, net als in de vorige studie. Het bevestigt dat creativiteit een belangrijk verbeterpunt blijft voor AI-modellen.
De ultieme confrontatie: GPT-4 tegen Patricio Pron
In een experiment dat doet denken aan de schaakwestrijd tussen Kasparov en Deep Blue , organiseerden Marco et al. (2024) een schrijfwedstrijd tussen GPT-4 en Patricio Pron, een beroemde Argentijnse schrijver. Beiden kregen de opdracht om dertig originele titels te bedenken en vervolgens korte verhalen te schrijven bij zowel hun eigen titels als die van hun tegenstander. Een groep literatuurwetenschappers deed dienst als jury en beoordeelde alle verhalen op aantrekkelijkheid, originaliteit, creativiteit, hun potentieel om in een bloemlezing te worden opgenomen en de uniekheid van hun stem.
De resultaten van deze confrontatie waren duidelijk: de verhalen van Pron deden het consequent beter dan die van GPT-4 op alle evaluatiecriteria. Ook Prons titels werden aantrekkelijker, origineler en creatiever bevonden dan die van GPT-4. Een aantal voorbeelden waren Alle liefdesliedjes zijn droevige liedjes, Ik probeer nog steeds je belofte te vergeten, De laatste lach van dat jaar en De nationale rode knop, terwijl GPT-4 vaker terugviel op clichés zoals Tussen de regels van het lot, Echo’s van een verloren droom, Schaduwen in de mist en De vergeten melodie. Interessant genoeg schreef GPT-4 betere verhalen voor de titels van Pron dan voor zijn eigen creaties, wat aantoont dat menselijke input de kwaliteit van creatief schrijven door AI kan verbeteren.
Daarnaast keek deze studie zowel naar Engelse als Spaanse AI-output. De auteurs ontdekten dat de Spaanse teksten van GPT-4 het minder goed deden dan de Engelse, wat suggereert dat de kwaliteit van AI afneemt voor talen die minder goed zijn vertegenwoordigd in de trainingsdata. Bovendien leerden experts al snel de menselijke en AI-verhalen van elkaar te onderscheiden, wat aangeeft dat AI-gegenereerde inhoud vaak terugvalt op herkenbare patronen.
Conclusie
Natuurlijk hebben alle studies hierboven hun beperkingen. Ten eerste richtten ze zich voornamelijk op zeer korte verhalen, meestal van enkele honderden tot 2.000 woorden. Langere fictie, met zijn hogere eisen aan plot en karakterontwikkeling, zal waarschijnlijk een veel grotere uitdaging vormen voor AI. Ten tweede gebruikten de onderzoekers vrij eenvoudige promptstrategieën om de LLM’s aan te sturen, en experimenteerden ze niet met de vele beschikbare parameterinstellingen. Dat kan een nadeel betekenen voor de AI-modellen. Toch toont hun onderzoek overtuigend aan dat LLM’s indrukwekkende vooruitgang hebben geboekt in creatief schrijven. Hoewel ze vaak minder creatief zijn, kunnen zeer korte AI-verhalen vaak al concurreren met de fictie van amateur-auteurs. En hoewel AI nog tekortschiet in vergelijking met topauteurs, kan zijn vloeiende stijl misschien wel een waardevol hulpmiddel vormen voor schrijvers.