Begroten met Machine learning op het Sociaal Domein

Steeds meer gemeenten kampen met steeds groter wordende begrotingstekorten op het Sociaal domein. Gemeenten lijken de grip op de uitgaven kwijt te zijn. SPYNK Consulting heeft twee Machine Learning modellen ontwikkeld die de uitgaven significant beter voorspellen dan de de gemeentelijke begrotingen.

Photo licensed  CC0 from Pixabay

Photo licensed CC0 from Pixabay

Iedere gemeente stelt jaarlijks een begroting op. Zo’n begroting geeft inzicht in de plannen voor het jaar, wat die plannen kosten en opleveren. De begroting vormt hiermee een belangrijke input voor het uitoefenen van kaderstellende en controlerende taken van de gemeenteraad. Door het vaststellen van de begroting door de gemeenteraad krijgt het college toestemming om het geld uit te geven om de plannen te realiseren. In principe zijn gemeenten verplicht om een sluitende begroting te maken. Voor het Sociaal domein is dat de afgelopen jaren een steeds groter wordende uitdaging geworden. De figuur hieronder laat zien (op basis van IV3 gegevens via het CBS) dat tekorten eerder regel dan uitzondering zijn geworden.

FiguurTekorten.jpg

Het belang van een sluitende begroting is groot. Niet alleen in het licht van de controlerende taken van de gemeenteraad. Ook toezichthouders, zoals de provincies, verwachten dat de gemeentelijke begrotingen gebaseerd zijn op reële ramingen van de kosten en opbrengsten. De meeste provincies zullen dan ook vragen om vroegtijdig geïnformeerd te worden als een gemeente niet in staat is om een structureel en reëel sluitende begroting vast te stellen.

Voorspellen en begroten

Het opstellen van een gemeentelijke begroting is een complex proces waar veel mensen bij betrokken zijn. Het gaat daarbij niet alleen om het inschatten van kosten, maar ook om het maken van plannen - en daarmee keuzes - die invloed hebben op de verwachte kosten. Bij het opstellen van de begroting voor het Sociaal domein lukt het gemeenten duidelijk steeds minder goed om kloppende ramingen te maken van de kosten van de gemaakte keuzes.

De begroting is dus zeker niet de mechanische optelsom van alle kosten. Maar het kunnen maken van goede voorspellingen van de kosten zouden gemeenten wel beter in staat stellen om juist die keuzes te maken die qua kosten passen bij een sluitende begroting. En daarmee zou vaker voorkomen kunnen worden dat tekorten gaan ontstaan.

Ontwikkelingen op het gebied van kunstmatige intelligentie, ook wel Machine Learning, zouden een zinvolle bijdrage kunnen leveren aan het verbeteren van kostenramingen. SPYNK Consulting is gestart met de ontwikkeling van Machine Learning algoritmes om gemeenten te helpen bij het verbeteren van de ramingen.

Machine Learning

Met Machine Learning wordt gedoeld op computerprogramma’s (algoritmes) die ‘leren’ zonder dat het ‘geleerde’ expliciet geprogrammeerd hoeft te worden. Het eenvoudige idee is om een algoritme te voeden met (veel) gegevens zodat op basis daarvan verbanden gelegd kunnen worden.

Conceptueel model

Voor het ramen van de kosten voor het Sociaal domein is het dus interessant om te vragen welke factoren van invloed zouden kunnen zijn op de kosten. En of daar gegevens over beschikbaar zijn. Het conceptuele model wat hierbij is gebruikt als startpunt is dat de kosten in het Sociaal domein het resultaat zijn van drie soorten factoren:

  1. Structuurkenmerken (zoals het aantal inwoners)

  2. Voorzieningenniveau (zoals de hoogte van een vergoeding voor mantelzorgers)

  3. Uitvoeringspraktijk (zoals de inzet van casebeheerders)

De structuurkenmerken zijn kenmerken waar een gemeente niet snel iets aan kan veranderen. Voor het voorzieningenniveau en de uitvoeringspraktijk geldt natuurlijk dat hierin juist de keuzes gemaakt dienen te worden om invulling te geven aan de plannen voor het Sociaal domein. Deze hebben dan ook - in ieder geval - conceptueel invloed op de uitkomsten op het Sociaal domein. De structuurkenmerken spelen echter ook een rol bij de uitkomsten. Zo kan een daling van het percentage uitkeringen per inwoner gezien worden als een uitkomst van keuzes in de uitvoeringspraktijk. Als echter het aantal inwoners fors is toegenomen dan zou het absolute aantal uitkeringen zo maar eens kunnen stijgen. .

Aanpak ontwikkeling

In de ontwikkeling van de Machine Learning algoritmes is daarom gestart met onderzoek naar de invloed van de structuurkenmerken op de kosten. Het gestelde doel was om een algoritme te ontwikkelen waarmee op basis van de structuurkenmerken van een gemeente van jaar x een voorspelling te kunnen doen van de totale kosten voor het Sociaal domein voor het jaar x + 1.

Hiervoor is eerst gekeken naar de invloed van de structuurkenmerken op de kosten van hetzelfde jaar. Hiermee is inzicht verkregen in welke kenmerken de grootste veroorzakers zijn van kosten. Daarna is gekeken naar welke kenmerken (gemeten 1 jaar eerder) goede voorspellers voor de kosten.

Om de algoritmes te ontwikkelen was (veel) data nodig. Er is gebruik gemaakt van de door het CBS beschikbaar gestelde open data (CC-BY 4.0):

  • Kerncijfers per gemeente per jaar: het gaat hier om 269 structuurkenmerken, waaronder inwoneraantallen, demografie, inkomens, et cetera. Deze gegevens zijn verzameld over de jaren 2015 tot en met 2019. In totaal betreft het bijna 2000 records.

  • IV3 gegevens begroting en realisatie per gemeente: het gaat hier om de IV3 taakvelden van het Sociaal domein en de lastencategorieën zoals daarvoor zijn voorgeschreven. Deze gegevens zijn ook verzameld over de jaren 2015 tot en met 2019. In totaal betreft het bijna 4 miljoen records.

Dataset

Op basis van de totale dataset is een selectie gemaakt van de structuurkenmerken. Hierbij is alleen rekening gehouden met de technische eisen die de Machine Learning algoritmes stellen. Deze kunnen in de regel slecht tegen missende waardes. Dus kenmerken waar (te) veel gemeenten niks voor hebben aangeleverd zijn weggelaten. Dit leverde aan dataset op met 86 kenmerken voor iedere gemeente voor ieder jaar in de rapportageperiode (2015-2019), in totaal 1902 waarnemingen. Deze dataset is gebruikt om de relatie tussen kenmerken en kosten van hetzelfde jaar te onderzoeken. Een tweede dataset is aangemaakt, waarbij de kenmerken van jaar x gekoppeld waren aan de kosten van jaar x + 1. Deze tweede dataset bevatte 1493 waarnemingen.

Training gegevens versus testgegevens

Beide datasets zijn gesplitst (80-20) in een set waarmee de algoritmes getraind zijn en een set waarmee het uiteindelijke algoritme getest is. Tijdens het trainen wordt het algoritme steeds gevoed met de training gegevens waar de gegevens over de kosten ook in zitten. Bij het testen krijgt het algoritme die kosten niet te zien en maakt het een voorspelling. Deze kostenvoorspelling wordt dan vergeleken met de werkelijke kosten om zo de performance van het algoritme te bepalen.

Resultaten

In de ontwikkeling van de Machine Learning algoritmes is steeds gestart met enkele eenvoudige algoritmes en steeds toegewerkt naar complexere algoritmes. Tot op heden is het beste resultaat voor beide algoritmes gekregen met een zogenaamde RandomForest regressor. Dit is een algoritme waarin ‘decision trees’ worden toegepast. In zo’n tree wordt op ieder knooppunt een beslissing gemaakt door één of meerdere features (kenmerken) te beoordelen. In een RandomForest algoritme worden heel veel van dat soort ‘trees’ gebruikt en wordt steeds de best presterende gebruikt. Dit levert uiteindelijk per kenmerk een gewicht op waarmee tot uitdrukking komt hoe belangrijk dat kenmerk is bij het voorspellen van de kosten. Die relatie hoeft niet lineair te zijn. Door de veelheid aan kenmerken die gelijktijdig beoordeeld worden en de hoeveelheid ‘trees’ kunnen hierdoor hele complexe relaties gemodelleerd worden. De algoritmes zijn als laatste getest op de set met testgegevens om te kijken hoe goed ze in staat zijn de werkelijke kosten te voorspellen.

Kwaliteit voorspellingen

De ontwikkelde algoritmes hebben een enorme precisie:

  1. Algoritme 1 waarmee de relatie tussen kenmerken en kosten van hetzelfde jaar zijn gemodelleerd had een gemiddelde afwijking van 1,5% (overschot) op de testgegevens.

  2. Algoritme 2 waarmee dus op basis van kenmerken van een jaar een voorspelling gemaakt wordt voor het volgende jaar had een gemiddelde afwijking van 1,12% (overschot) op de testgegevens.

Hiermee presteren deze algoritmes significant beter dan de gemeenten zelf met hun begrotingen. Voor de 299 waarnemingen uit de testset weken de echte begrotingen namelijk gemiddeld 6,8% negatief af. In alle gevallen (100%) was de voorspelling een betere begroting dan de gemeenten hadden gemaakt. Er waren op basis van de voorspellingen nog wel tekorten ontstaan. Maar daar waar 77% van de gemeenten uit de testset een begrotingstekort hadden, zou dat op basis van de voorspellingen slechts 45% zijn geweest. De figuur hieronder laat het percentage tekort/overschot zien van de begrotingen (blauwe lijn) en voor diezelfde gemeenten het tekort/overschot op basis van de voorspellingen (oranje lijn). Duidelijk is dat voor alle 299 waarnemingen (gemeente-jaar combinaties) de gemeentelijke begrotingen lager zijn dan de voorspellingen van het algoritme.

Figuur: Performance algoritme versus gemeenten (n=299) (Bron: SPYNK Consulting)

Figuur: Performance algoritme versus gemeenten (n=299) (Bron: SPYNK Consulting)

Belangrijke kenmerken

Feature importance: 6 kenmerken samen 60% invloed, de overige 80 kenmerken samen 40% (RandomForest regressor op basis 86 kenmerken)

De algoritmes geven ook inzicht in de belangrijkste kenmerken (van de 86 die meegenomen waren). Zoals gezegd, de relatie tussen de kenmerken enerzijds en de kosten anderzijds is niet altijd lineair en kan zelfs heel complex zijn. Maar inzicht in de belangrijkste kenmerken helpt wel bij het verder verbeteren van de algoritmes. De figuur hieronder laat de belangrijkste kenmerken van algoritme 2 zien. Duidelijk is dat slechts enkele kenmerken samen 60% van de invloed op de kosten verklaren. De overige 80 kenmerken hebben samen slechts 40% invloed.

Vervolgstappen

Alhoewel de resultaten van de algoritmes erg goed zijn, is er nog veel werk te verrichten om gemeenten echt te kunnen gaan helpen bij het verbeteren van hun begrotingen voor het Sociaal domein. De komende maanden werkt SPYNK Consulting verder aan diverse sporen:

  • De algoritmes zijn significant beter in het voorspellen van de totale kosten voor het Sociaal domein voor een groep gemeenten (slechts 1,12% overschot op 299 begrotingen) . Maar er zouden nog steeds begrotingstekorten ontstaan (in 45% van de gevallen). Ook valt op dat er in 20% (tegen 2% door gemeenten) gevallen een overschot van meer dan 10% wordt veroorzaakt door het algoritme. En dat is ook ongewenst omdat in het totaal van een gemeentelijke begroting dat geld dan beter elders bestemd had kunnen worden. Er is meer onderzoek nodig om te kijken in welke situaties deze pessimistische voorspellingen gedaan worden.

  • Er zijn nog andere (zeer krachtige) Machine Learning algoritmes beschikbaar die mogelijk betere resultaten bieden. Te denken valt aan bijvoorbeeld Support Vector Machines en complexe neurale netwerken.

  • Zoals het conceptuele model duidelijk maakt, zijn de kosten niet alleen afhankelijk van de structuurkenmerken. Ook het voorzieningenniveau en de uitvoeringspraktijk hebben invloed en zijn juist waardevol omdat hierin keuzes gemaakt kunnen worden. Er is echt meer onderzoek nodig om dat vlak omdat op deze aspecten weinig openbare gegevens beschikbaar zijn.

  • Om tot een bruikbaar hulpmiddel omgevormd te kunnen worden, zal het aantal kenmerken verlaagd moeten worden. De mogelijkheden zijn hiervoor volop aanwezig. Een eerste verkenning laat zien dat hiermee het model iets verbetert zelfs.

  • Er is alleen nog gekeken naar de totale kosten voor het Sociaal domein (alle taakvelden). Om gemeenten echt te kunnen helpen bij het verbeteren van hun begrotingen is inzicht per taakveld nodig. Daar worden namelijk de concrete keuzes gemaakt.

  • Tot slot, is er inzicht nodig in de effecten (uitkomsten) van keuzes zodat sturing en bijsturing ook echt mogelijk wordt. Ook hier geldt dat er maar weinig gegevens openbaar beschikbaar zijn. Er is bijvoorbeeld nader onderzoek nodig naar mogelijke databronnen.

Volgende
Volgende

Ouderen en Internet, overdrijven is ook een kunst.