Vandaag.ai

dagelijks overzicht van AI-nieuws
Maandag stond in het teken van technische ondersteuning en betrouwbaarheidsvragen: van GPU-prestaties en schrijfstijlidentificatie tot benchmarkintegriteit en plagiaat in open-source code.
gemengd

NVIDIA heeft op de releasedag ondersteuning geleverd voor DeepSeek V4 op Blackwell-hardware. Het model bestaat uit twee varianten: een Pro-versie met 1,6 biljoen parameters en een Flash-versie met 284 miljard parameters. Op GB300/Blackwell Ultra haalt NVIDIA voorlopige doorvoercijfers van circa 3.500 tokens per seconde per GPU voor het grote model, mede dankzij de NVFP4-architectuur.

NVIDIABlackwellDeepSeek V4
negatief

Vox-journalist Kelsey Piper voerde 125 woorden van een ongepubliceerde column in bij Claude Opus 4.7, zonder te zijn ingelogd en via de API op een andere computer. Het model noemde haar naam correct, ook bij vervolgpogingen met andere ongepubliceerde teksten. ChatGPT en Gemini gaven bij dezelfde test incorrecte namen terug.

Claude 4.7ChatGPTGemini
negatief

In een populaire discussie op r/LocalLLaMA stellen gebruikers dat SWE-bench structureel overfit (te sterk afgestemd op de testset) is geraakt doordat modellen gericht op de publieke testset worden getraind. Commenters wijzen op de noodzaak van private testsets naast publieke benchmarks om generalisatie te meten. De discussie raakt het bredere probleem dat publieke benchmarks hun onderscheidend vermogen verliezen zodra ze breed worden gebruikt.

SWE Bench
gemengd

Uit Reddit-onderzoek bleek dat het 'reaper-abliteration'-pakket van HauhauCS zeven van zeven modulebestandsnamen en dertig van tweeëndertig weigermaxkers identiek overnam uit Heretic v1.2.0, zonder bronvermelding. De maker van Heretic bevestigde de bevindingen in de discussiethread. HauhauCS had de broncode van PyPI verwijderd, maar onderzoekers herstelden deze via PyPI's CDN.

HauhauCSHereticQwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive