Binnen CITaDOG proberen we onderzoek en onderwijs nadrukkelijk te integreren. Daarom zijn wij nauw betrokken bij het Bachelor Final Project (BEP) binnen de bachelor Data Science van Tilburg University en Eindhoven University of Technology. Elk semester kunnen studenten die aan het einde van hun bacheloropleiding zitten, kiezen uit een breed scala aan onderwerpen om hun zogeheten ‘eindwerk’ te verrichten. Met dit eindwerk kunnen zij laten zien over alle kwalificaties te beschikken die zij tijdens de driejarige bacheloropleiding Data Science zouden moeten hebben opgedaan. Voor dit eindwerk heeft het CITaDOG-team het onderwerp ‘NLP for open government’ aangedragen. 

Beschikkingen

In het afgelopen collegejaar hebben wij in het najaar twee eindwerken begeleid en in het voorjaar zelfs zes. De insteek daarbij is dat we studenten aanmoedigen om aan de hand van een concrete set van ‘open’ beschikkingen (zoals sanctiebesluiten van de Kansspelautoriteit of subsidiebeschikkingen vanuit de Rijksoverheid) een specifieke uitdaging op het terrein van data science op te pakken. Daarbij is uiteraard van belang dat studenten niet alleen de meest recente data science technieken kunnen toepassen, maar ook een verband kunnen leggen met de state-of-the-art literatuur, omdat de afronding van een academische bacheloropleiding meer is dan het ontwikkelen en toepassen van softwarecode. 

Projecten

De eindwerken die wij in het afgelopen collegejaar hebben begeleid, zijn zeer divers. Meerdere studenten hebben zich bezig gehouden met het extraheren van uiteenlopende informatie uit de tekst van beschikkingen. Zo zijn verschillende technieken, waaronder large language models, vergeleken ten aanzien van hun vermogen om kerninformatie als de datum van de beschikking, de wettelijke grondslag hiervoor en het rechtsgevolg hiervan, adequaat te extaheren. Andere studenten hebben zich bezig gehouden met de vraag in hoeverre samenvattingen van beschikkingen kunnen worden gecreëerd met behulp van Natural Language Processing (NLP)-technieken. Ook is – juist vanwege de soms slechts ‘machine-leesbare’ staat van beschikkingen – onderzocht in hoeverre visueel georiënteerde technieken, die de beschikking meer als een figuur dan als een tekst benaderen, beter presteren dan tekstuele technieken bij het extraheren van informatie.

Daarnaast hebben sommige studenten ook stilgestaan bij het juist categorizeren van beschikkingen, waarbij gekeken is of het verder anonymiseren van beschikkingen, met behulp van Named Entity Recognition (NER)-technieken, het categorisatieprocess kan verbeteren. Andere studenten hebben gekeken naar het juridisch accuraat meten van vergelijkbaarheid (similarity) tussen casusen, waarbij complexere technieken, waaronder verschillende netwerkanalyses en transformer-methodes zijn vergeleken met traditionelere methodes (zoals TFIDF).

Toekomst

Het leuke aan deze eindwerken is dat studenten wegen inslaan die wij zelf niet altijd hadden voorzien. Soms blijken die veelbelovend, soms ook niet. Maar ook in het laatste geval verrijken die resultaten ons beeld over de mogelijkheden (en onmogelijkheden) van een kwantitatieve, geautomatiseerde analyse van beschikkingen. Binnen ons CITaDOG onderzoek kunnen we daarom voortbouwen op die ‘pilot’-bevindingen binnen het promotieonderzoek dat wordt verricht. Deze eindwerken zijn daarmee zeer waardevolle bouwstenen voor de constructie van een ‘CITaDOG-citadel’. Wordt volgend collegejaar vervolgd! 

Reacties zijn gesloten.