Gebruik AI en machine learning in de strijd tegen financiële criminaliteit

27 juli 2020 Banken.nl

Door het gebruik van slimme technologie zoals kunstmatige intelligentie kunnen banken digitale criminelen steeds beter en sneller ontmaskeren. Diederick Levi, consultant bij het Utrechtse Solid Professionals, laat aan de hand van twee concrete methodieken – ‘geavanceerde time-series’ en ‘exceptional model mining’ – zien hoe dit in zijn werk gaat.

Door met artificial intelligence (AI) en machine learning (ML) technieken te kijken naar patronen in data, kunnen witwaspraktijken mogelijk worden opgespoord. Data met een tijdsaspect, zoals de omzet van een bedrijf per dag of per week, noemt men in vaktaal ook vaak time-series data genoemd.

Time-series data wordt vaak gebruikt om voorspellingen te maken in de toekomst. In onderstaande figuur kan gezien worden dat een voorspelling in de toekomst gemaakt wordt op basis van geobserveerde patronen in de historische data. Deze voorspellingen bevatten een onzekerheid, waarbij geldt dat hoe verder de voorspelling in de tijd is, hoe groter de onzekerheid is.

De voorspelling is dus geen absolute waarde, maar een betrouwbaarheidsinterval waar de waarde met een vooraf bepaalde waarschijnlijkheid tussen ligt. Deze voorspellingen kan men van tevoren al maken en vergelijken met de werkelijkheid, zodra de echte data beschikbaar is. Normaal is het zo dat een punt afwijkt als het buiten het betrouwbaarheidsinterval ligt.

Neem als voorbeeld de ontwikkeling van bedrijfsprestaties in door Covid-19 getroffen sectoren. Het zou bijzonder zijn als een bedrijf in een momenteel slecht draaiende sector, zoals de horeca, nog steeds dezelfde omzet weet te maken. In dit geval kan het interessant zijn om dit bedrijf nader te onderzoeken. Dit omdat een crimineel met een witwaszaak juist alles eraan doet om ‘normaal’ over te komen. Het is dan mogelijk verdacht als een punt nu juist binnen het confidence-interval ligt.

Een andere toepassing is dat de huidige sectortrends meegenomen worden in een time-series analyse. Indien dit op een juiste manier gedaan wordt, zullen sectortrends juist weer binnen het confidence-interval moeten vallen.

Kunstmatige intelligentie

Waar de bovenstaande voorbeelden vrij eenvoudig zijn, is het mogelijk om aan time-series meerdere factoren toe te voegen, die relevant kunnen zijn in het opsporen van witwassers. Hier komt dan ook het ‘AI-aspect’ naar boven.

Om een voorspelling op time-series data te maken kunnen zowel statistische methodes als meer geavanceerde machine learning technieken gebruikt worden. Vanuit de statistische methodes zou je bijvoorbeeld de gemiddelde stijging / daling over de laatste 5 punten kunnen berekenen om zo de lijn ‘door te trekken’.

Machine learning methodes zullen er vooral op gericht zijn om bepaalde (terugkerende) patronen te herkennen en op basis van deze patronen een voorspelling maken. In de twee bovenstaande figuren zijn een tweetal voorspellingen op time-series data met machine learning technieken gebruikt. De gebruikte techniek hier (Gaussian Process Regression) is in staat in figuur 1 om een neerwaartse trend te herkennen en in figuur 2 een neerwaartse trend gecombineerd met een wekelijks stijgend en dalend patroon. In deze figuren is ook goed te zien dat de onzekerheid van de voorspelling groter wordt naarmate deze verder in de tijd gemaakt kan worden.

Exceptional Model Mining

Een andere nuttig gebruik van artificial intelligence in de ontmaskering van witwassers is Exceptional Model Mining (EMM). Deze methode kan subgroepen binnen een dataset onderscheiden op basis van een combinatie van attributen, dat bepaalt of het gedrag van deze subgroep al of niet exceptioneel is.

Dit betekent dat het algoritme alle mogelijke subgroepen in de data gaat maken, op basis van verschillende attributen. Stel dat een klantdataset een attribuut ‘leeftijd’ heeft, dan genereert het model een subgroep met personen tussen de 11 en 20 jaar, tussen de 40 en 60 jaar, tussen de 13 en 55 jaar; letterlijk alle combinaties zijn mogelijk.

Het algoritme evalueert deze subgroepen door een metriek die zelf moet worden ingevuld. Elke subgroep krijgt vervolgens een score op basis van deze metriek. Deze score geeft dus de mate van aan hoe interessant een subgroep is. Twee voorbeelden uit de praktijk:

Voorbeeld: verduidelijking EMM

Stel, er is een dataset met huizen en bijbehorende attributen zoals oppervlakte, aantal badkamers, en ligging ten opzichte van het centrum. Graag zou men te weten willen komen welke factoren invloed heeft op de verkoopprijs van een huis. Nu is het mogelijk om allerlei correlaties te maken. Echter zullen er vaak veel factoren zijn die invloed op elkaar hebben, wat de analyse compliceert.

Met EMM wordt in dit voorbeeld eerst gekeken naar voor welke subgroepen een correlatie vindbaar is tussen de oppervlakte van een huis en de vraagprijs. De hypothese is dat de oppervlakte hierop van invloed is, maar over de algehele dataset lijkt dit onvoldoende waar te zijn. De metriek die men dan gebruikt is correlatie, doelvariabelen zijn huisprijs en oppervlakte, en de overige variabelen worden gebruikt om subgroepen te maken. Elke mogelijke subgroep krijgt dus als score de correlatie tussen huisprijs en oppervlakte binnen de subgroep.

Nadat alle mogelijke subgroepen gemaakt zijn, verkrijgt men een lijst met top X subgroepen waarbij juist een hele hoge of hele lage correlatie is (afhankelijk van maximalisatie of minimalisatie). Een conclusie kan bijvoorbeeld zijn dat oppervlakte alleen een directe correlatie heeft met de vraagprijs als het perceel minimaal tien kilometer van de binnenstad af staat, of minimaal twee kilometer.

Voorbeeld: EMM Toepassing op Transactiemonitoring

Eenzelfde methodiek is toepasbaar op transacties. Als metriek zou een voorbeeld kunnen zijn het ‘huidige aantal transacties ten opzichte van het aantal transacties op een normale dag’. Alle mogelijke subgroepen kunnen gemaakt en geëvalueerd worden met deze metriek. Als uitkomst zullen subgroepen ontstaan die relatief grote of kleine hoeveelheid transacties doen ten opzichte van de benchmark-hoeveelheid.

Sommige van deze groepen zijn te verklaren met domeinkennis. Bijvoorbeeld over bepaalde sectoren die in grotere of mindere mate geraakt zijn door de crisis. Andere subgroepen zijn mogelijk zeer interessant om nader te onderzoeken. Een uitkomst hiervan zou kunnen zijn dat de SBI-code 47.42-winkels in telecommunicatieapparatuur opeens een enorme groei aan transacties hebben. Dit zou een indicatie kunnen zijn dat er verder onderzoek gedaan moet worden naar telecomwinkels ten tijde van corona.

AI in control

Er klinken regelmatig negatieve geluiden over het gebruik van geavanceerde berekeningen en algoritmes op klantdata. Dit is ook niet gek. Immers, het is vrij gemakkelijk om een profilerende voorspelling te gaan doen op basis van klantdata. Voor dergelijke profilering moet gewaakt worden.

Bij Solid Professionals werken we hiervoor altijd via het ACE-framework. Dit raamwerk maakt inzichtelijk waar de verantwoordelijkheid voor het model ligt, en zorgt ervoor dat de analyses voldoen aan de wet- en regelgeving en dat de resultaten van het algoritme uitlegbaar zijn. ACE staat dan ook voor Accountable, Compliant en Explainable.