Google DeepMind sprænger hastighedsbarrieren: Ny "DiffusionGemma"-model skriver tekst 4 gange hurtigere

Modellen genererer og spytter hele tekstblokke ud på én gang og opnår derved en hastighed, der er op til fire gange hurtigere end traditionelle modeller.

Modellen er udgivet under en åben Apache 2.0-licens og er resultatet af et tæt samarbejde mellem Google DeepMind og tech-giganten NVIDIA.

Fra AI-støj til færdig tekst: Sådan virker det

Når populære AI-billedgeneratorer som Midjourney eller Imagen skaber et billede, starter de med et lærred af helt tilfældig digital støj (statisk), som de gradvist forfiner i flere omgange, indtil et skarpt billede dukker op.

DiffusionGemma overfører denne "diffusionsteknik" direkte til tekst og kode:

Lærredet: Modellen starter med et virtuelt lærred på 256 tilfældige pladsholder-tokens (orddele).
Gradvis forfining: AI'en kigger på hele blokken på én gang og tager flere lynhurtige passager hen over teksten. Den fastlåser de ord, den er sikker på, og bruger dem som kontekst til at rette og forfine de resterende ord.
Selvkorrigering: Processen gentager sig selv, indtil teksten konvergerer og står helt skarpt i en fejlfri kvalitet.

Slut med flaskehalse på computeren

Når man kører en normal sprogmodel lokalt på sin egen computer, opstår der en flaskehals. Computeren bruger det meste af sin tid på at vente på hukommelsens båndbredde, hver gang den skal spytte et nyt enkelt ord ud. Grafikkortets enorme regnekraft bliver simpelthen underudnyttet.

Ved at generere 256 tokens parallelt i hvert eneste skridt, tvinger DiffusionGemma computerens processor til at yde sit maksimale. Resultaterne taler for sig selv: Modellen præsterer over 1.000 tokens i sekundet på et enkelt professionelt NVIDIA H100-grafikkort, og over 700 tokens i sekundet på det nye forbruger-grafikkort NVIDIA GeForce RTX 5090.

Store fordele for programmører og komplekse formater
Fordi DiffusionGemma kan overskue og redigere i hele tekstblokken på samme tid (såkaldt bi-directional attention), har den nogle helt unikke fordele.

Traditionelle AI-modeller kan miste overblikket og glemme at lukke en parentes eller en kode-formatering i bunden af et dokument, fordi de kun kigger fremad. DiffusionGemma kan rette sine egne fejl i realtid. Det gør den ideel til:

In-line redigering: Hvor AI'en skal indsætte eller rette tekst midt i et eksisterende dokument.
Kodegenerering: Modellen kan generere og rendere computere-kode næsten i realtid.
Ikke-lineære opgaver: AI-udviklerhuset Unsloth har demonstreret, at modellen kan fintunes til at løse Sudoku i lyntempo – en opgave traditionelle AI'er næsten altid dumper, fordi hvert tal i et Sudoku-felt afhænger af de felter, der kommer efter det.
Avanceret hjerne – lille nok til dit skrivebord
Rent teknisk er DiffusionGemma bygget oven på Googles Gemma 4-familie. Der er tale om en såkaldt Mixture of Experts (MoE)-model med i alt 26 milliarder parametre. Når modellen kører, aktiverer den dog kun 3,8 milliarder parametre ad gangen.

Når modellen komprimeres (kvantiseres), kan den klemme sig ned på omkring 15-18 GB VRAM. Det betyder, at den uden problemer kan installeres og køre lokalt på kraftige forbruger-computere uden at sende data op i skyen. Den understøtter desuden multimodalitet (kan modtage både tekst, billeder og videoer på op til 60 sekunder) samt over 140 sprog.

Hastighed frem for alt – men med et kompromis

Google DeepMind er dog ærlige omkring, at der er tale om en eksperimentel model. For at opnå den ekstreme hastighed og evnen til at generere tekst i parallelle blokke, har man måttet gå på kompromis med den absolutte topkvalitet. På traditionelle logiske ræsonnements-tests må DiffusionGemma se sig slået af den almindelige standardudgave af Gemma 4.

Hvis man har brug for komplekse, dybe analyser, anbefaler Google stadig de traditionelle modeller – men hvis man har brug for lynhurtige AI-agenter, realtids-chat eller øjeblikkelig kodning på sin egen computer, repræsenterer DiffusionGemma et massivt teknologisk kursskifte.

Modellen kan downloades fra i dag via platforme som Hugging Face, vLLM og Unsloth.

Google DeepMind sprænger hastighedsbarrieren: Ny "DiffusionGemma"-model skriver tekst 4 gange hurtigere

Kommentarer (0)