Modeli më i fundit i Google DiffusionGemma hapur AI vjen me një rritje të shpejtësisë 4x

June 12, 2026 besi

Divergjenca AI është më e zakonshme në brezin e figurave, por mund të bëjë prodhimin e teksteve shumë më shpejt.

Një ditë tjetër, një tjetër model nga Google. Këtë herë, Google DeepMind ka lëshuar një anëtar të ri të familjes Gemma 4 të hapur model, por kjo është krejtësisht ndryshe nga pjesa tjetër e vijës. DivesionGemma nuk prodhon prodhime lineare si shumica e modeleve të AI. Përkundrazi, ajo mund të prodhojë një bllok të tërë teksti paralel. Google thotë se kjo e bën atë më të shpejtë dhe më të efektshme kur punon në hardware lokale si një Nvidia DGX ose një lojë modeste GPU.

Shumica e modeleve të AI-it janë projektuar për të qenë autoregresive ato prodhojnë tekstin e majtë në të djathtë në çdo kohë. DivesionGemma ka më shumë të përbashkëta me modelet e gjenerimit të figurave, të cilat fillojnë me statik dhe pastaj e denoizojnë atë për të krijuar përmbajtjen e dëshiruar. Ky model merr një fushë me shenja vendshënuese që lëvizin shumë herë mbi kanavacë për të prodhuar shenja të mundshme dhe për t’i përdorur ato për të përmirësuar vlerësimin e të tjerëve. Në fund të procesit, modeli finalizon rezultatet e saj të shquara në një bllok të madh të kanavacës së tekstit të përpunuar.

DivesionGemma është mjaft e madhe në fushën e modeleve të hapura të Google-it. Ajo është një model i përzierjes së ekspertëve (MoE) me një total prej 26 miliardë parametrash, por vetëm 3.8 miliard janë aktivizuar gjatë mosmbajtjes. Kjo do të thotë se ajo duhet të përshtatet në 16-GB. Në testim me një RTX 5090, DiverGemma nxjerr rreth 700 shenja në sekondë. Me një përshpejtues të vetëm Nvidia H100 AI, DifersionGemma mund të prodhojë 1,000+ shenja në sekondë. Kjo është rreth katër herë më e madhe se prodhimi i modeleve autoregresive të ngjashme me Xhemën.

Kjo qasje ndaj brezit të tekstit e ndryshon pengesën nga një grup me kujtesë në numër, duke krijuar deri në 256 shenja paralelisht. Google thotë se kjo ofron një rritje të matëshme në detyrat jo-lineare si redaktimi në linjë, sekuentimi molekular dhe grafiku matematikor. Animacioni më sipër tregon se si DivesionGemma ishte sinkronizuar për të zgjidhur gjëegjëzat e Sudokut, e cila është një detyrë mjaft sfiduese për modelet standarde autoregresive AI, sepse çdo shenjë varet nga shenjat e ardhshme. DivesionGemma; aftësia për të vetë-rregulluar vazhdimisht grupe të mëdha shenjash e bën këtë më të lehtë.

Nëse disposioni është shumë më i shpejtë, pse Google-i po e përdor në modelet e mëdha të Geminit me bazë reje? Google ka eksperimentuar me këtë , por ka disa të meta në disposion tekst, duke përfshirë një shkallë më të lartë gabimi. Në modelet e disposionit të figurave, një pixel i vetëm i parashikuar keq, nuk e bën të padobishme imazhin, por gjuha është e matur. Një gabim i barasvlershëm në tekst mund t’ju bëjë një bllok shenjash pa kuptim dhe t’ju detyrojë të filloni nga e para për të marrë një rezultat më të mirë. Modelet e ndryshimit gjithashtu harxhojnë burimet kur prodhimi i dëshiruar është vetëm disa shenja të gjata. Atyre u duhet të bëjnë më shumë punë paralele për t’u rënë në sy disa shenjave që një model autoregresiv bën nga fillimi deri në fund vetëm në pesë hapa.

Megjithatë, fitimi i efektshmërisë për procesimin lokal e bën këtë një mënyrë tërheqëse eksperimentimi. Në re, modelet autoregresive mund të grumbullojnë një numër të madh punësh të llogaritura nga përdoruesit e shumtë, kështu që ata gjithnjë nxjerrin shenja dhe kujtesa e lartë e grupit (HBM) e përdorur në këto sisteme mund të lëvizë të dhënat rreth shumë më me efektshmëri.

Nga ana tjetër, IA vendase ndesh ciklet e shpenzuara të llogaritjes për shkak të më të ultave dhe kohës së lirë të kujtesës. Modelet e ndryshimit mund ta përdorin më mirë llogaritjen në dispozicion, por kjo është e vetmja mënyrë. Google gjithashtu kohët e fundit filloi zbatimin e projektuesve shumë-Token (MTP), të cilët përdorin ciklet përfundimtare të shpenzuara për të parashikuar shenjat e mundshme për të rritur shpejtësinë. Por disposioni është edhe më i shpejtë se versionet e MTP të Xhemës.

Google thekson se DivesionGemma është eksperimentale, por është në dispozicion nën të njëjtën licensë Apash 2.0 si të gjitha modelet e tjera të brezit të katërt të Xhemës. Ju mund të shkarkoni peshat model sot nga Hading Face. Google thotë se ka punuar me Nvidia për të siguruar që DiffusionGemma ishte optimizuar për një shumëllojshmëri strukturash, duke përfshirë RTX GPUs (të automatizuara) dhe sisteme të ndërmarrjeve si platforma H100 ose DGX Spark.

Leave a Reply Cancel reply