DifionGemma: 4x Më shpejt Gjenerata e Tekstit

June 12, 2026 besi

Modeli ynë më i ri eksperimental i hapur jep deri në 4x më shpejt zjarr në GPUs dedikuar dhe hap derën për eksplorimin e rrjedhave të shpejtë dhe interaktive lokale të punës.

Shfletuesi juaj nuk suporton zërin.

Sot, ne jemi duke futur DiversionGemma, një model eksperimental i hapur që eksploron disposionin e tekstit, një metodë veçanërisht e shpejtë ndaj brezit të teksteve. E liruar nga një liçensë Apash 2.0, ky model i 28B përzierje e ekspertëve (MoE) shkon përtej përpunimit të shënuar në mënyrë tipike të modeleve të gjuhës së madhe autoregjistrive (LLM). Në vend të kësaj, ajo gjeneron blloqe të tëra teksti njëkohësisht, duke dhënë deri në 4x tekste më të shpejta në GPUs.

Ndërtuar me kontrollin e inteligjencës së drejtuar nga industria, në parametrinë e familjes tonë Xhema 4 dhe hulumtimin e shkëmbimit të Gege Gemini, DiverGemma integron një kokë romani të projektuar për të rritur shpejtësinë e brezit. Ndërsa modelet autoregresive Xhema 4 mbeten standarti për prodhimet e prodhimit me cilësi të lartë, DiffusionGemma është projektuar për kërkuesit dhe zhvilluesit që eksplorojnë hyrjet e shpejtë, interaktive lokale të punës, të tilla si redaktimi në linjë, riorganizimi i shpejtë dhe gjenerimi i strukturave jo-lineare të tekstit.

Zhvilluesit ndërtojnë aplikime interaktive në kohë reale AI-ja shpesh luftojnë me ndërprerjet e paaftësisë së vonë të pasigurisë lokale. DivesionGemma trajton këto sfida drejtpërsëdrejti, me disa shkëmbime kyçe:

Mund të përmirësosh performancën e DiverzionGemma në detyra të veçanta duke u përshtatur mirë. Në shembullin më poshtë, DivelopionGemma e shquar për të luajtur rolin e Sudokut, me të cilin luftojnë modelet autoregressioniste sepse çdo shenjë varet nga shenjat e ardhshme. Vëmendja bi-drejtore e DiverusionGemma e bën këtë shumë më të lehtë.

Divesioni Gemma, i cili është në rregull.

Ndërsa komuniteti i kërkimit i AI ka eksploruar për vite me radhë prodhimin e teksteve me bazë në diskusion, zbatimi i tyre në modele të mëdha ka mbetur një sfidë. DivesionGemma e ndryshon këtë duke ndryshuar mënyrën se si modelet përdorin hardware.

Shumica e modeleve gjuhësore veprojnë si një makinë shkrimi, duke prodhuar një shenjë në një kohë nga e majta në të djathtë. Në re, kjo është efikase sepse serverat mund të mbledhin së bashku mijëra kërkesa përdoruesi për të ndarë ngarkesën hardware. Por kur drejtohet lokalisht për një përdorues të vetëm, ky proces fjalë për fjalë të lë GPU-në tuaj të dedikuar ose TPU-në të pakuIizuar ♫ ai e kalon pjesën më të madhe të kohës thjesht duke pritur për “makicke.”

Ndryshimi Gemma e kthen mbrapsht këtë paefektshmëri. Në vend që të parashikojë fjalët sekuentalisht, ajo harton një paragraf të tërë 256 këmbësh njëkohësisht. Duke i dhënë procesorit të kompjuterit një pjesë më të madhe të punës menjëherë, DiffusionGemma përdor hardware për potencialin e saj të plotë. Ajo përmirëson modelin tuaj nga një makinë shkrimi e vetme dhe sekuente në një shtypshkronjë masive që vulos të gjithë bllokun e tekstit njëkohësisht.

DivesionGemma tekst-to-3D SVG demo nga Huping Face. Brez hap pas hapi.

Kjo do të thotë se shpejtësia e DifrisionGemma-it është projektuar për mospërfillje lokale dhe konkurencë të ulët. Në shërbimin me re të lartë të QPS-së, modelet autoregresioniste mund të vendosen për t’u llogaritur në mënyrë të efektshme, kështu që dekodimi paralel i DifritionGemma ofron ulje të kthimit dhe mund të rezultojë në kosto më të larta shërbimi. Avantazhi i kaluar është më i fortë në përmasat e grupit të vogël në një përshpejtues të vetëm.

E ngjashme me gjeneratorët e imazheve AI që fillojnë me statike vizuale dhe e rafinojnë atë në një figurë të qartë, DivesionGemma zbatohet për këtë tekst:

Për shkak se modeli mund të përpunojë të gjithë paragrafin ndërsa gjenerohet, ai hap modele të reja të sjelljes model, si për shembull, duke mbyllur në mënyrë të përsosur kompleksin e formatimit ose gjenerimin dhe përkthimin e kodit në kohë reale.

Shënim: Për shkak se kjo shpejtësi mbështetet në shfrytëzimin e intensitetit të lartë aritmetik të përshpejtuesve, arkitekturat e unifikuara-memoriale si ato në Apple Silicon Macs ♫ të cilat shpesh janë të lidhur me kujtesën në vend që të llogariten gjatë inferencave nuk mund të shohin të njëjtën përshpejtim mbi modelet autoregjistrative si Gem 4.

Leave a Reply Cancel reply