AI-nieuws 27 april 2026

maandag 27 april 2026

Maandag stond in het teken van technische ondersteuning en betrouwbaarheidsvragen: van GPU-prestaties en schrijfstijlidentificatie tot benchmarkintegriteit en plagiaat in open-source code.

Dev-tool ↑ 74

NVIDIA levert day-0 Blackwell-ondersteuning voor DeepSeek V4

gemengd

NVIDIA heeft op de releasedag ondersteuning geleverd voor DeepSeek V4 op Blackwell-hardware. Het model bestaat uit twee varianten: een Pro-versie met 1,6 biljoen parameters en een Flash-versie met 284 miljard parameters. Op GB300/Blackwell Ultra haalt NVIDIA voorlopige doorvoercijfers van circa 3.500 tokens per seconde per GPU voor het grote model, mede dankzij de NVFP4-architectuur.

NVIDIABlackwellDeepSeek V4

Officiële bronnenBuild with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints | NVIDIA Technical Blog NVIDIA Adds Day-0 DeepSeek V4 Blackwell Support | Let's Data Science NVIDIA Beats Everyone To DeepSeek V4 With Day-0 Blackwell SupportRedditNVIDIA Beats Everyone To DeepSeek V4 With Day-0 Blackwell Support, Pushing 3,500 Tokens Per Second On 1.6T Models

Onderzoek ↑ 576

Claude Opus 4.7 herkende journalist uit 125 ongepubliceerde woorden

negatief

Vox-journalist Kelsey Piper voerde 125 woorden van een ongepubliceerde column in bij Claude Opus 4.7, zonder te zijn ingelogd en via de API op een andere computer. Het model noemde haar naam correct, ook bij vervolgpogingen met andere ongepubliceerde teksten. ChatGPT en Gemini gaven bij dezelfde test incorrecte namen terug.

Claude 4.7ChatGPTGemini

Officiële bronnenI can never talk to an AI anonymously again Claude Opus 4.7 identified a writer from 125 words she'd never published Claude knows who you areRedditClaude 4.7 named a journalist from 125 words of unpublished writing

Onderzoek ↑ 410

Community benoemt SWE-bench als overfitte benchmark

negatief

In een populaire discussie op r/LocalLLaMA stellen gebruikers dat SWE-bench structureel overfit (te sterk afgestemd op de testset) is geraakt doordat modellen gericht op de publieke testset worden getraind. Commenters wijzen op de noodzaak van private testsets naast publieke benchmarks om generalisatie te meten. De discussie raakt het bredere probleem dat publieke benchmarks hun onderscheidend vermogen verliezen zodra ze breed worden gebruikt.

SWE Bench

Officiële bronnenDe nauwkeurigheid en integriteit van benchmarks waarborgen Benchmark (kwaliteitsbewaking)RedditConfirmed: SWE Bench is now a benchmaxxed benchmark

Community ↑ 692

HauhauCS-pakket plagieerde Heretic-broncode en schond AGPL-3.0

gemengd

Uit Reddit-onderzoek bleek dat het 'reaper-abliteration'-pakket van HauhauCS zeven van zeven modulebestandsnamen en dertig van tweeëndertig weigermaxkers identiek overnam uit Heretic v1.2.0, zonder bronvermelding. De maker van Heretic bevestigde de bevindingen in de discussiethread. HauhauCS had de broncode van PyPI verwijderd, maar onderzoekers herstelden deze via PyPI's CDN.

HauhauCSHereticQwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive

Officiële bronnenGitHub - p-e-w/heretic: Fully automatic censorship removal for language models Uncensored LLM Abliteration Benchmarked: HauhauCS vs Heretic vs HuihuiRedditHauhauCS (of "Uncensored Aggressive" fame) published an abliteration package that plagiarizes Heretic without attribution, and violates its license