Hoe ik in enkele dagen een enterprise AI-platform bouwde (en wat ik ervan leerde)

De meeste mensen denken dat AI gewoon een chatbot is. Je typt iets, het systeem antwoordt, klaar. Maar wat als je AI niet één vraag wil laten beantwoorden, maar wil inzetten in een heel bedrijfsproces? Wat als je wilt dat AI automatisch reageert op binnenkomende bestellingen, dat het zichzelf verbetert op basis van resultaten, en dat elke beslissing die het neemt netjes wordt bijgehouden voor de boekhouder of auditor? Dan heb je iets heel anders nodig dan een chatbot. Dan heb je een AI Control Platform nodig — en dat is exact wat ik de afgelopen dagen heb gebouwd.

Wat is een AI Control Platform eigenlijk?

Vergelijk het met een vliegtuig. Een vliegtuig heeft motoren, maar die motoren vliegen niet zelfstandig. Er is een cockpit die alles bestuurt: welke motor op welk vermogen draait, of de vleugelkleppen open of dicht zijn, hoe hoog en snel het toestel vliegt. De piloot geeft de opdracht, de cockpit vertaalt dat naar duizenden kleine beslissingen. Zo werkt een AI Control Platform ook. De AI-modellen (zoals een lokaal Ollama-model op mijn eigen server) zijn de "motoren" — krachtig, maar blind zonder sturing. De Control Plane is de cockpit. Die beslist welk AI-model welke taak krijgt, hoeveel het mag kosten, hoe risicovol de operatie is, en of er een mens moet meekijken. Elke beslissing wordt geregistreerd in een Decision Journal. Alles wordt gemeten door een Quality Monitor. En wanneer een bepaalde aanpak beter werkt dan een andere, promoot een A/B-systeem die automatisch. Het is AI die zichzelf bestuurt én bewaakt — maar altijd onder menselijk toezicht.

Het probleem: losse agents zijn gevaarlijk

Voordat ik dit platform bouwde, had ik al een werkend multi-agent systeem. Dat systeem kon klantenservice beantwoorden, productbeschrijvingen schrijven en bestellingen verwerken. Maar het was een verzameling losse scripts die samenleefden in een map. Geen centraal overzicht. Geen idee welk model wanneer werd aangeroepen. Geen manier om te zeggen: "dit AI-model mag maximaal €0,50 per aanroep kosten" of "voor medische informatie moet er altijd een mens meekijken". Dat is het probleem met losse AI-agents op schaal: ze zijn zoals werknemers zonder manager, zonder onkostennota en zonder evaluatiegesprek. Het werkt — totdat het niet meer werkt, en dan weet je niet waarom.

AI zonder governance is zoals een team zonder manager: alles lijkt goed te gaan tot de eerste crisis, en dan weet niemand meer wie wat heeft beslist.

Wave 1: Het fundament leggen

Ik heb het platform opgebouwd in zes "waves" — iteratieve bouwfases waarbij elke wave voortbouwt op de vorige. De eerste wave draait om vertrouwen en structuur. Ik heb getypeerde contracten gedefinieerd in Python: wat is een AIRequest? Wat is een AIResponse? Wat is een PolicyViolation? Dit klinkt technisch, maar het idee is simpel: als alles dezelfde "taal" spreekt, kun je fouten vroeg opvangen. Dan is er de Policy Engine. Dat is een verzameling governance-regels, geschreven als gewone YAML-bestanden. Zoiets als: "Voor alle aanroepen met een risicoscore hoger dan 7, stuur altijd een notificatie naar de manager." Of: "Agents op maturity level 1 (experimenteel) mogen niet draaien in productie." Ten slotte is er het Decision Journal — een logboek van elke beslissing die het systeem neemt. Elke AI-aanroep krijgt een unieke trace-ID, een tijdstempel, de redenering en het eindoordeel. Dat is niet alleen handig voor debugging; het is essentieel als je ooit aan een klant of regelgever moet verantwoorden waarom het systeem iets heeft gedaan.

De Control Plane: wie beslist wat?

De Control Plane is het hart van het platform. Elke keer als iemand of iets AI wil gebruiken, gaat de aanroep door de Control Plane. Die kijkt naar acht dimensies tegelijk: wat is de gevraagde capability (klantenservice? SEO? analyse?), wat is de risicoscore van deze taak, in welke omgeving zitten we (test of productie?), wat is het budget, hoeveel latency is acceptabel, welk model past, zijn er actieve policies die dit beperken, en in welke deployment ring zitten we? Op basis van die acht factoren beslist de Control Plane welke agent de taak uitvoert — of blokt hij de aanroep als die niet door de governancecheck komt.

python

# Zo stroomt een aanroep door het systeem
request = AIRequest(
    capability="customer_service",
    input="Ik wil mijn bestelling annuleren",
    risk_score=3,
    environment="production",
    budget_eur=0.10,
)

# Control Plane valideert en routeert
result = await control_plane.route(request)
# → Policy Engine: OK (risk 3 < threshold 7)
# → Agent Runner: mistral via Ollama
# → Cost Governance: €0.002 verbruikt
# → Decision Journal: trace_id=abc123, verdict=APPROVED
# → Quality Monitor: latency 340ms, score 0.87

print(result.antwoord)  # "Uw bestelling is geannuleerd..."

Quality Monitor & A/B Testing: zelflerende AI

Een van de onderdelen waar ik het meest trots op ben, is de combinatie van Quality Monitor en AutoPromoter. De Quality Monitor houdt bij hoe goed elke agent presteert: hoe snel antwoordt hij, hoe hoog scoort het antwoord, hoeveel fouten maakt hij? Als de score onder een drempel zakt, gooit het systeem automatisch een alert — DEGRADED of zelfs CRITICAL. Dan is er de A/B Tester. Stel je voor: je hebt twee versies van een prompt voor klantenservice. Versie A zegt "Wees vriendelijk en formeel." Versie B zegt "Wees empathisch en gebruik de voornaam van de klant." Je laat beide versies draaien op echte aanroepen, meet welke beter scoort, en zodra versie B statistisch significant beter is, promoot de AutoPromoter die automatisch naar productie. Geen handmatige ingreep nodig. De AI optimaliseert zichzelf — maar op een gecontroleerde, meetbare manier.

Event Bridge: webhooks worden slim

Een van de krachtigste features van het platform is de Event Bridge. Die verbindt externe events (webhooks) met AI skill chains. Een praktisch voorbeeld: als er een nieuwe bestelling binnenkomt in je webshop, stuurt je systeem een webhook naar het platform. De Event Bridge vangt dat event op, herkent het als een "order_created" event, en start automatisch een AI-keten: eerst analyseert een agent de bestelling op fraudepatronen, dan genereert een andere agent een gepersonaliseerde bevestigingsmail, en tot slot wordt alles gelogd in het Decision Journal. Dat alles zonder dat een mens het hoeft aan te sturen. Hetzelfde werkt voor "payment_failed" events: automatisch een vriendelijke herinneringsmail opstellen, klantsegment bepalen, en escaleren als het al de derde keer is. Dit is wat ik bedoel met "event-driven AI": het systeem reageert intelligent op wat er in de wereld gebeurt.

1389 tests later...

Het platform heeft op dit moment 1389 geautomatiseerde tests die allemaal slagen. Dat getal klinkt indrukwekkend, maar wat betekent het in de praktijk? Het betekent dat als ik morgen een nieuwe feature toevoeg, ik binnen seconden weet of ik iets heb gebroken. Het betekent dat ik met vertrouwen kan refactoren — code opruimen, verbeteren, optimaliseren — zonder angst dat ergens stiekem iets kapotgaat. En het betekent dat elk kritiek stuk logica — de Policy Engine, het Decision Journal, de AutoPromoter — expliciet gedocumenteerd is in de vorm van testcases. Die tests zijn mijn vangnet. Ze zijn ook mijn documentatie. Als je wilt weten hoe het systeem zich gedraagt als een agent een timeout krijgt, lees je de test. Als je wilt weten wat er gebeurt als een policy wordt geschonden, lees je de test. Voor een enterprise-omgeving is dat niet een nice-to-have — het is een vereiste.

Wat ik geleerd heb

Governance eerst, features later. Het was verleidelijk om meteen coole AI-features te bouwen, maar zonder een solide fundament van policies en audit trails wordt alles een grote spaghetti.
YAML als governance-taal werkt verrassend goed. Business-regels in YAML zijn leesbaar voor niet-ontwikkelaars en kunnen worden beheerd als configuratie, niet als code.
Typed contracts zijn goud waard. Als elke component dezelfde datastructuren gebruikt, vind je fouten in seconden in plaats van uren.
Automatisch testen is niet optioneel bij AI. AI-gedrag is inherent probabilistisch — je kunt niet "even in je hoofd controleren" of het klopt. Je hebt tests nodig.
Event-driven architectuur maakt AI pas echt nuttig. AI die reageert op wat er in je bedrijf gebeurt, is waardevoller dan AI die je handmatig aanroept.
Begin klein, bouw modulair. Elke wave voegde één laag toe. Dat maakte het overzichtelijk en veilig — en ik kon altijd terugvallen op wat al werkte.

Dit project heeft me laten zien dat enterprise AI niet draait om de nieuwste modellen of de duurste cloudoplossingen. Het draait om structuur, vertrouwen en controle. Hetzelfde wat een goede manager doet voor een team, doet een AI Control Platform voor je agents. Ben je benieuwd hoe zoiets er voor jouw organisatie uit zou kunnen zien? Of wil je weten hoe dit te integreren met je bestaande systemen? Stuur me een bericht — ik denk graag mee.