Instalimi i një agjenti kodimi lokal në macOS me Gemma 4

June 13, 2026 noname

Pas disa ndërprerjeve të internetit që më bënë të mbetem pa ndonjë mjet për programim, vendosa të provoja versionin më të ri të Gemma 4, i cili tani mbështet “Multi‑Token Prediction” (MTP). Qëllimi im ishte të krijoja një agjent kodimi që funksionon plotësisht lokalisht, pa nevojë për lidhje në internet, dhe që të jetë i shpejtë dhe i aftë të përpunojë edhe imazhe përmes platformës Pi.

Testimi u krye në një MacBook Pro Apple M1 Max me 64 GB RAM dhe macOS 15.7.7. Modeli kryesor përdorur ishte **gemma‑4‑26B‑A4B‑it‑UD‑Q4_K_XL.gguf**, i ngarkuar nga HuggingFace dhe me madhësi rreth 16 GB; pas shtimit të skedarit MTP draft dhe projektorit multimodal, dosja e modelit mbërriti në 17 GB. Duke e ekzekutuar përmes **llama.cpp** me përshpejtim Metal, arrita 58 tokenë në sekondë – një shpejtësi e pranueshme, por jo ideale për punë intensive me thirrje të mjeteve.

Pasi aktivizova modelin draft MTP, shpejtësia u rrit në 69,2 tokenë/s për 4 tokenë draft. Sipas udhëzimeve të Unsloth, vlera optimale për **–spec-draft-n-max** është 2, por në testet e mia (vlera 1‑6) 3 tokenë draft dhënë rezultatin më të mirë: 72,2 tokenë/s, duke përmirësuar prodhimin me rreth 24 % pa ndikuar në kohën e përpunimit të kërkesës. Krahasimi me **mlx‑lm** tregoi se, për këtë konfigurim, **llama.cpp** mbetet më i shpejtë se MLX, edhe pse MLX është optimizuar për macOS.

Për të aktivizuar funksionin multimodal, e ngarkova projektorin **mmproj** në serverin e llama.cpp; kështu Pi mundi të dërgojë imazhe në model, pa ndikuar në shpejtësinë e prodhimit të tekstit. Përfundimisht, struktura e plotë për agjentin lokal përfshinte skriptin **start_server.sh** brenda tmux, modelin kryesor Gemma 4, modelin draft MTP, projektorin multimodal dhe integrimin me Pi.

Si përfundim, përdorimi i modelit draft MTP sjell një rritje të dukshme të performancës – nga 58,2 në 72,2 tokenë në sekondë – dhe lejon funksionimin e thjeshtë si një server lokal kompatibil me OpenAI. Nëse kërkohet alternativë, Qwen 3.6 35B‑A3B ofron rezultate më të mira për kodim, por shpejtësia bie në 55 tokenë/s, ndryshe nga 72 tokenë/s të Gemma 4.

Leave a Reply Cancel reply