Open source vs proprietary LLM: de definitieve gids 2026

Executive Summary / Direct Antwoord: Open-source modellen zoals Llama 4 en Qwen 3.5 zijn in 2026 volwaardig alternatief voor GPT-5 en Claude. Bij meer dan 10 miljoen tokens per dag is eigen hosting na 12-18 maanden aantoonbaar goedkoper. Voor high-risk AI-systemen onder de EU AI Act biedt open source bovendien structureel betere auditeerbaarheid dan gesloten proprietary API's.

Wat is er precies veranderd in het LLM-landschap van 2026?

Het is niet langer een kwestie van 'de beste modellen zijn van OpenAI of Anthropic'. Die vlieger gaat in 2026 niet meer op. Open-source families zoals Meta's Llama 4 en Alibaba's Qwen 3.5 leveren op meerdere zakelijk relevante benchmarks prestaties die gelijkwaardig zijn aan, en soms beter dan, de meest geavanceerde proprietary API's. Chinese open-source modellen zijn inmiddels verantwoordelijk voor 41% van alle downloads op Hugging Face, een platform met 13 miljoen gebruikers en 2 miljoen publieke modellen. Dat is geen bijzaak; dat is een structurele verschuiving in de mondiale AI-infrastructuur.

De reden achter deze prestatieverbetering zit grotendeels in architectuur. De Mixture-of-Experts (MoE) structuur maakt het mogelijk dat een model met 397 miljard parameters per token slechts 17 miljard actieve parameters inzet. Dat betekent lagere latency, lagere hardwareeisen en schaalbare inference-kosten. Llama 4 Scout gaat nog een stap verder met een contextvenster van 10 miljoen tokens, een 78-voudige stijging ten opzichte van de 128K van zijn voorganger. Dat opent gebruiksscenario's, zoals het analyseren van een volledig dossier in één aanroep, die tot vorig jaar uitsluitend weggelegd waren voor de duurste proprietary opties.

Het gevolg voor Nederlandse enterprise-teams is direct: de beslissing over modelkeuze is geen technisch detail meer. Het is een strategisch vraagstuk over kosten, controle, compliance en geopolitieke afhankelijkheid.

Welke open-source modellen zijn in 2026 serieus voor enterprise-gebruik?

Niet elk open-source model verdient de kwalificatie 'enterprise-ready'. De families die dat in 2026 wél doen, onderscheiden zich op concrete benchmark-prestaties, licentievrijheid en productie-ecosysteem. Hieronder vind je de vier families die er werkelijk toe doen voor een Nederlandse enterprise-context.

Llama 4 (Meta) biedt de diepste ecosysteemintegratie. Elk major inference-framework, elk cloud-platform en elke fine-tuning service ondersteunt Llama standaard. De Scout-variant heeft dat ongekende contextvenster van 10 miljoen tokens, ideaal voor documentintensieve workflows in juridische, financiële of zorgsectoren. De Maverick-variant overtreft GPT-4o op code-generatie en multilingual reasoning. De licentie (Llama Community License) is goed ingeburgerd bij juridische teams van Nederlandse enterprise-organisaties.

Qwen 3.5 (Alibaba) heeft in March 2026 zijn volledige lineup uitgerold, van 0.8B edge-modellen tot het 397B-A17B vlaggenschip. Op IFBench, de benchmark voor het nauwkeurig opvolgen van complexe instructies, scoort Qwen 3.5 76.5, vergeleken met 75.4 voor GPT-5.2 en een opvallend lage 58.0 voor Claude. Voor gestructureerde data-extractie en API-response formatting is dit relevant: een betere instructievolging vertaalt zich direct in minder post-processing overhead. Het kleine 9B-model scoort op GPQA Diamond 81.7 tegenover 71.5 voor GPT-OSS-120B, een model met meer dan dertien keer zoveel parameters. De Apache 2.0-licentie is volledig commercieel vrij.

Mistral Small 4 (Mistral AI, Frans) is de Europese troef in dit rijtje. Het model combineert reasoning, vision en agentic coding in één model, waardoor je niet meerdere gespecialiseerde varianten hoeft te beheren. Op efficiëntie wint Mistral: het produceert 3 tot 4 keer minder output tokens voor vergelijkbare resultaten, verwerkt 3 keer zoveel requests per seconde als zijn voorganger en is met $0.10 per miljoen input tokens de goedkoopste via API in deze klasse. Voor Europese organisaties die naast prestaties ook strategische voorkeur geven aan Europees herkomst, is Mistral de meest logische keuze.

DeepSeek V3.2 is het model voor het zwaarste redeneerwerk. Het behaalde gold-level resultaten bij internationale wiskunde- en programmeercompetities (IMO, ICPC World Finals), wat de grens van beredenering in open source vertegenwoordigt. Het vereist echter multi-GPU-infrastructuur en brengt geopolitieke vragen met zich mee die voor sommige sectoren doorslaggevend zijn.

Wat kosten proprietary API's echt vergeleken met open-source hosting?

De kosten op het eerste gezicht zijn misleidend. Per-token API-prijzen zien er overzichtelijk uit, maar de werkelijke kostenstructuur is complexer. Een eerlijke vergelijking vraagt om een totaalplaatje.

Bij proprietary modellen via API geldt: betaalbaarheid bij lage volumes, maar lineaire kostengroei bij schaal. GPT-4o kost $2.50 per miljoen input tokens, Claude $3.00. Qwen 3.5-397B via OpenRouter kost $0.39 per miljoen input tokens, Mistral Small 4 slechts $0.10. Het prijsverschil voor input is respectievelijk 6x en 25x ten gunste van open-source API's, nog voordat je eigen hosting overweegt.

De echte kanteling treedt op bij organisaties met substantieel volume. Stel dat je 10 miljoen tokens per dag verwerkt voor agentic document-workflows. Via GPT-4o (het kosten-geoptimaliseerde proprietary alternatief) kost dat $1.500 per dag, €540.000 per jaar. Eigen hosting van Llama 4 op een H200 GPU vraagt een initiële investering van circa €40.000, plus elektriciteitskosten van zo'n €500 per maand. Na 12 tot 18 maanden zijn de cumulatieve kosten van eigen hosting aantoonbaar lager, en daarna loopt de besparing alleen maar op.

"Bij hoge volumes zijn open-source modellen goedkoper vanwege vaste GPU-kosten versus lineaire per-token pricing. Het omslagpunt ligt doorgaans bij 10 miljoen tokens per dag en een exploitatieperiode van 12 tot 18 maanden."

Daarnaast schuilen er verborgen kosten in proprietary API's die zelden worden meegeteld: vendor lock-in die herstructurering dwingt bij een leverancierswisseling, rate limiting die throughput beperkt bij piekbelasting, en het ontbreken van fine-tuning op eigen data zonder additionele overeenkomsten. Open-source hosting elimineert al deze factoren, maar vraagt om infrastructuurexpertise die niet elke organisatie in huis heeft.

Hoe verhoudt de EU AI Act zich tot jouw modelkeuze?

De EU AI Act is vanaf 2 augustus 2026 volledig van kracht voor high-risk AI-systemen, met boetes tot €35 miljoen of 7% van de wereldwijde jaaromzet voor overtredingen. Voor Nederlandse enterprise-teams die AI inzetten in recruitment, creditscoring, essentiële diensten of kritieke infrastructuur zijn de verplichtingen concreet en veelomvattend.

De wet eist technische documentatie die minimaal tien jaar bewaard blijft, logging en traceerbaarheid van alle systeemactiviteiten, een risicobeheerssysteem gedurende de volledige levenscyclus, aantoonbare menselijke toezichtsmechanismen en een conformiteitsassessment vóór ingebruikname. Het zijn precies deze vereisten die de modelkeuze direct beïnvloeden.

Proprietary API's stellen je bloot aan een fundamenteel auditprobleem. OpenAI en Anthropic publiceren geen volledige specificaties van trainingsdata of modelgedrag. Als een high-risk systeem een beslissing neemt die een toezichthouder wil doorgronden, kun jij als deployer niet aantonen wat er precies in het model is gebeurd, want je hebt geen toegang tot de onderkant van de stack. Open-source modellen lossen dit structureel op. Je kunt de volledige inferentiepijplijn inzien, loggen en auditen. Je kunt fine-tuning-processen documenteren en reproduceren. Je bent eigenaar van de bewijslast die de EU AI Act van je vraagt.

Daarnaast raakt de AI-governance strategie die je als organisatie hanteert direct aan de vraag welk model je kunt verdedigen tegenover een externe auditor. Proprietary API-gebruik voor high-risk toepassingen vereist aanvullende contractuele garanties, data verwerkingsovereenkomsten en vertrouwen op de documentatie van de aanbieder, wat de compliance-bewijslast op jouw organisatie legt zonder dat je de onderliggende feiten kunt verifiëren.

Een praktisch startpunt: voer vóór augustus 2026 een AI-inventarisatie uit, classificeer elke toepassing naar risicocategorie, en koppel daaraan de vraag of de huidige modelkeuze voldoende auditerbaarheid biedt. De inzet van production-ready AI agents in high-risk contexten vereist een expliciete koppeling tussen modelkeuze, logging-infrastructuur en compliance-documentatie.

Wat betekent AI-soevereiniteit concreet voor jouw infrastructuurkeuze?

Er bestaat inmiddels een duidelijke Europese beleidsrichting die AI-soevereiniteit als strategisch doel positioneert. Nederland, Duitsland en Frankrijk hebben elk nationale initiatieven gelanceerd die Europese alternatieven voor Amerikaanse AI-infrastructuur stimuleren. Voor organisaties die werken met overheidsopdrachten of in gereguleerde sectoren opereren, levert aansluiting op deze richting potentieel voordeel op bij aanbestedingen en strategische partnerschappen.

De soevereiniteitsvraag heeft drie lagen. Ten eerste data-residentie: proprietary API's sturen gebruikersdata naar infrastructuur van Amerikaanse bedrijven, wat GDPR-frictie oplevert. Bij open-source hosting op Europese infrastructuur blijft data volledig binnen de EU. Ten tweede geopolitieke afhankelijkheid: wie zijn AI-infrastructuur volledig heeft gebouwd op OpenAI's API, is kwetsbaar voor prijswijzigingen, dienstonderbrekingen of beleidsaanpassingen van één Amerikaans bedrijf. Ten derde supply-chain-risico met Chinese modellen: hoewel Apache 2.0-licenties juridisch geen beperkingen opleggen en self-hosting data-sovereignty garandeert, brengt het gebruik van modellen van ByteDance of Alibaba geopolitieke vragen mee voor organisaties in sectoren met verhoogde veiligheidseisen.

De praktische uitkomst voor de meeste Nederlandse organisaties is een hybride strategie: open-source modellen voor high-volume routineprocessen en soevereiniteits-gevoelige toepassingen, proprietary API's als aanvulling voor specifieke taken waarbij het prestatieverschil de kostenpremium rechtvaardigt. Dit is ook exact het patroon dat een router-gebaseerde hybride architectuur mogelijk maakt, waarbij een lichtgewicht classifier inkomende requests naar het meest passende model stuurt en operationele kosten met 45 tot 80% reduceert bij schaalbare implementaties.

Hoe werkt inference-optimalisatie en waarom is dat beslissend voor open-source?

Een model is een set gewichten. Wat die gewichten omzet in een productiewaardige service, is de inference-infrastructuur. Dit is de laag die bepaalt of open-source deployment economisch levensvatbaar is.

vLLM is de de-facto standaard voor open-source inference en introduceert PagedAttention: een geheugenbeheerssysteem dat GPU-geheugen in herbruikbare pagina's verdeelt in plaats van grote blokken per request. Het resultaat is een 4- tot 6-voudige throughput-verbetering op dezelfde hardware, zonder hardwarewijziging. Concreet: een organisatie die zonder optimalisatie 6 H200 GPU's nodig heeft voor de vereiste doorvoersnelheid, kan met vLLM toe met 1 tot 2 GPU's. Dat zet miljoenen euro's aan investeringskapitaal vrij.

NVIDIA's TensorRT-LLM gaat nog een stap verder op NVIDIA-hardware via kernel fusion en geheugenoptimalisatie, maar vraagt meer implementatie-expertise. SGLang voegt gestructureerde generatie toe: het model wordt gedwongen output te produceren in exact het gewenste formaat (JSON, databaseschema), cruciaal voor agentic workflows waarbij downstream systemen specifieke outputstructuren verwachten. Qwen 3.5 en Llama 4 worden door alle drie frameworks volledig ondersteund.

De conclusie hier is direct: de infrastructuurlaag is inmiddels voldoende volwassen om organisaties met gemiddeld software-engineering-niveau in staat te stellen productieklare inference-services te draaien. De technische drempel die open-source deployment jaren lang onpraktisch maakte, is in 2026 grotendeels weggevallen.

Welk model past het best bij welke enterprise-usecase?

Er bestaat geen universeel beste keuze. De juiste modelselectie is afhankelijk van je prioriteiten per usecase.

Usecase / Prioriteit	Aanbevolen model	Reden
Lange documentanalyse (> 100K tokens)	Llama 4 Scout	10M token contextvenster, ongeëvenaard
Gestructureerde data-extractie en API-output	Qwen 3.5	IFBench 76.5, beste instructievolging
Hoge throughput, lage kosten per query	Mistral Small 4	3x meer req/sec, 25x goedkoper dan GPT-4o via API
Complexe wiskunde en hard reasoning	DeepSeek V3.2	IMO en ICPC gold-level, sterkste open-source redenering
Brede ecosysteemintegratie + finetuning	Llama 4 Maverick	Meeste tooling, meeste cloud-support
Europese soevereiniteit + multimodal	Mistral Small 4	Frans bedrijf, Apache 2.0, geïntegreerde capabilities
On-device / edge deployment	Qwen 3.5-9B	Draait op 8GB RAM, overtreft modellen met 13x meer parameters
High-risk AI Act compliance	Open-source (alle)	Volledige auditbaarheid van de inferentiepijplijn

Voor de meeste Nederlandse enterprise-teams is de praktische strategie een portfolio-aanpak: Qwen 3.5-35B voor server-side general tasks, Llama 4 voor documentintensieve workflows, Mistral Small 4 als Europese kernoptie voor hoge doorvoer, en proprietary API's als fallback voor uitzonderingsgevallen waarbij open-source écht tekortschiet. De keuze van je AI stack heeft directe impact op je ROI, en een hybride aanpak met model routing maximaliseert zowel prestaties als kostenefficiëntie.

Dit patroon strookt ook met hoe teams succesvol agentic AI in productie draaien: niet door te vertrouwen op één model voor alles, maar door een gedifferentieerde stack te bouwen waarbij elk model doet waar het structureel goed in is.

Conclusie: de beslissing kan niet langer worden uitgesteld

De convergentie van technische pariteit, infrastructuurvolwassenheid en EU AI Act-handhaving maakt 2026 het jaar waarin de modelkeuze-discussie definitief strategisch van aard is. Open-source LLM's zijn volwassen, goedkoop bij schaal en structureel beter positioneerbaar voor compliance. Proprietary API's blijven waardevol als aanvulling, niet als fundament.

Nederlandse enterprise-teams die nu nog geen AI-inventarisatie hebben uitgevoerd, lopen concreet risico op non-compliance per 2 augustus 2026. Wie al wél bouwen aan een eigen AI-stack, doen er verstandig aan de modelkeuze te herzien op basis van de benchmarks, kostenmodellen en soevereiniteitsoverwegingen uit dit artikel. De beste strategie is niet het kiezen van één model, maar het bouwen van een flexibele architectuur die elk model inzet voor de taak waarvoor het structureel het geschiktst is.

De infrastructuurlaag is klaar. De modellen zijn klaar. De vraag is of jouw organisatie klaar is.

Veelgestelde vragen (FAQ)

Is Llama 4 echt beter dan GPT-4o?

Op specifieke benchmarks wel. Llama 4 Maverick overtreft GPT-4o op coding, reasoning en multilingual taken. Voor algemeen gebruik is het verschil marginaal. De keuze hangt meer af van kosten, hosting-voorkeur en compliance-eisen dan van pure prestaties.

Mag ik Qwen 3.5 commercieel gebruiken?

Ja. Qwen 3.5 is gelicenseerd onder Apache 2.0, de meest permissieve open-source licentie. Er zijn geen beperkingen op commercieel gebruik, aanpassing of herdistributie, ook niet voor enterprise-toepassingen.

Wanneer is eigen LLM-hosting goedkoper dan een proprietary API?

Bij een volume van meer dan 10 miljoen tokens per dag is eigen hosting doorgaans na 12 tot 18 maanden goedkoper dan proprietary API-gebruik, afhankelijk van hardware-amortisatie en elektriciteitsprijzen.

Voldoen open-source modellen automatisch aan de EU AI Act?

Nee. Open-source modellen maken volledige auditbaarheid technisch mogelijk, maar compliance vraagt ook logging-infrastructuur, risicobeheer, menselijk toezicht en conformiteitsassessment. Open source biedt de benodigde technische grondslag; het procesmatige werk blijft aan jou.

Wat is het risico van Chinese open-source modellen zoals Qwen voor Europese bedrijven?

Bij self-hosting verlaat er geen data jouw infrastructuur, ongeacht de herkomst van de modelgewichten. Het juridische risico van Apache 2.0-licenties is minimaal. Geopolitieke overwegingen zijn echter relevant voor sectoren met verhoogde veiligheidseisen, zoals defensie, overheid en kritieke infrastructuur.

Onderwerpen

Open Source LLMAI StackEU AI ActLlama 4Qwen 3.5AI SoevereiniteitLLM VergelijkingEnterprise AI

Open source vs proprietary LLM: de definitieve gids 2026

Open source vs proprietary LLM: de definitieve gids 2026

Wat is er precies veranderd in het LLM-landschap van 2026?

Welke open-source modellen zijn in 2026 serieus voor enterprise-gebruik?

Wat kosten proprietary API's echt vergeleken met open-source hosting?

Hoe verhoudt de EU AI Act zich tot jouw modelkeuze?

Wat betekent AI-soevereiniteit concreet voor jouw infrastructuurkeuze?

Hoe werkt inference-optimalisatie en waarom is dat beslissend voor open-source?

Welk model past het best bij welke enterprise-usecase?

Conclusie: de beslissing kan niet langer worden uitgesteld

Veelgestelde vragen (FAQ)

Is Llama 4 echt beter dan GPT-4o?

Mag ik Qwen 3.5 commercieel gebruiken?

Wanneer is eigen LLM-hosting goedkoper dan een proprietary API?

Voldoen open-source modellen automatisch aan de EU AI Act?

Wat is het risico van Chinese open-source modellen zoals Qwen voor Europese bedrijven?

Onderwerpen

Klaar om te automatiseren?