Van 11 tot en met 13 december 2024 vond in Brno (Tsjechië) de jaarlijkse JURIX-conferentie van de AI & Law-community plaats. Tijdens deze conferentie presenteerden Harry Nan en Johan Wolswinkel het paper ‘Combining rule-based and machine learning methods for efficient information extraction from enforcement decisions’. Dit paper kwam tot stand als follow-up van de masterscriptie die Harry schreef onder begeleiding van Maarten Marx (UvA) en Johan Wolswinkel en die de opmaat vormt voor zijn huidige promotieonderzoek. 

Een van de grootste uitdagingen voor geautomatiseerde analyse van beschikkingen is de aanwezigheid van geschikte metadata. Anders dan rechterlijke uitspraken (met de bekende ECLI-standaard) gaan beschikkingen vaak niet vergezeld van uitgebreide metadata. Een mogelijkheid om dergelijke metadata alsnog te verzamelen, is door deze informatie te extraheren uit de tekst van de beschikking zelf. Zo mag van elke beschikking worden verwacht dat zij ten minste bevat de datum van de beschikking, de beslissingsbevoegde overheidsinstantie, de ontvanger, de juridische grondslag voor de beschikking en het rechtsgevolg hiervan. 

In dit paper richten wij ons op een specifieke categorie van beschikkingen, namelijk handhavingsbeschikkingen. Voor dit type beschikkingen geldt dat ze in elk geval – naast bovengenoemde informatie – ook een concrete overtreding en het overtreden wettelijk voorschrift zouden moeten vermelden. Om deze informatie te extraheren wordt een ‘hybride’ benadering toegepast waarbij eerst aan de hand van traditionele NLP-methoden kandidaatzinnen worden geïdentificeerd waaruit die informatie mogelijk kan worden geëxtraheerd. Vervolgens wordt het daadwerkelijk extraheren van die informatie overgelaten aan een Large Language Model (LLM). Op basis van twee typen sanctiebesluiten (last onder dwangsom en bestuurlijke boete) en twee overheidsinstanties (Kansspelautoriteit en Autoriteit Financiële Markten) verkennen we in hoeverre deze ‘hybride’ benadering succesvol is. 

In vervolgonderzoek zullen we de uitdaging van informatie-extractie uit beschikkingen toepassen op een grotere variëteit aan typen beschikkingen (zoals ook vergunningen en subsidies) en aan overheidsinstanties. De onderliggende gedachte is namelijk dat elke beschikking bepaalde kerninformatie zou moeten bevatten, zodat telkens opnieuw die informatie uit de tekst van de beschikking kan worden geëxtraheerd. Die ‘metadata’ zouden vervolgens het vergelijken van beschikkingen eenvoudiger moeten maken. 

Reacties zijn gesloten.