Fine‑tuning i një LLM për stilin e dokumentacionit të viteve ’80‑’90
Parashikimet e mia për vitin 2030 përfshinin një skenë ku shkrimtarët teknikë do të përdornin modele të specializuara LLM, të instaluara lokalisht në hardware të fuqishëm. Sot, ndërsa disa ekspertë të inxhinierisë flasin për një “local‑first” approach, realiteti është se modelet e lidhura në “frontier” janë ende shumë më të fuqishme. Kjo nuk e ndalon eksperimentimin, dhe javën e kaluar kam provuar të fine‑tune një model instruksional që të shkruajë si një shkrues teknik i vitit 80‑90.
Për të krijuar një model personal që të imitojë stilin e dokumentacionit të viteve ’90, kam pasur nevojë për një sasi të madhe materialesh të shkruara. Burimi më i përshtatshëm ka qenë Bitsavers, një portal që arkivon dhe skanon manuale dhe broshura kompjuterike të vjetra. Kam zgjedhur koleksionin Microsoft, i cili përfshin dokumente të botuara nga 1977 deri në 2005, me më shumë se 37 milionë fjalë. Pas shkarkimit të skedarëve OCR‑të, i kam pastruar përmes skripteve Python, hequr indekset dhe pjesët e padobishme, dhe kam përdorur modelin e lirë dhe të shpejtë gemma‑4‑26b në OpenRouter për të klasifikuar çdo paragraf si “mbaj” ose “hiq”, me një kosto prej rreth 8 dollarësh. Edhe pse pas dy kalimeve pastrimi mbetën disa zhurma, ato nuk ndikuan ndjeshëm në rezultatet e provave.
Teksti i pastruar është ndarë në shembuj trajnimi në bazë të kufizimeve të paragrafëve dhe seksioneve, duke ruajtur blloqet e kodit të paprekur dhe duke kufizuar secilin fragment në rreth 512 tokenë, sipas këshillës së Claude. Çdo fragment është shoqëruar me një udhëzim sintetik i nxjerrë nga shabllonet, duke prodhuar 192 456 shembuj në formatin JSONL. Në vend që të ndërtoj një model të ri nga zero (një projekt që do të kërkonte miliona dollarë), kam zgjedhur fine‑tuning, një teknikë që “rregullon” peshat e një modeli ekzistues për të prodhuar output të kondicionuar nga materialet e trajnimit. Kjo metodë është më e lirë dhe më e shpejtë se trajnimi i plotë, dhe më e përshtatshme për qëllimin tim: të formoj stilin, jo të rikuperoj fakte.
Për të shmangur kohëzgjatjen e gjatë të trajnimit në kompjuterin tim me kartë grafike të vjetër, kam përdorur shërbimin Runpod, i cili ofron pod-e me GPU‑ra të konfiguruara paraprakisht për çmime të arsyeshme. Me pak më shumë se 6 dollarë në orë, mund të marr një Nvidia B200 me 192 GB memorie. Kam konsultuar modelin Claude për metodën më të sigurt, dhe kemi vendosur të përdorim QLoRA (Quantized Low‑Rank Adaptation), e cila “bllokon” peshat origjinale dhe shton një adapter të vogël që ndryshon sjelljen e modelit, duke reduktuar kërkesat memorie për shkak të kuantizimit.
Eksperimentet e mia përfshinë fine‑tuning në dy modele: Llama 3.1 8B Instruct dhe Qwen 2.5 7B Instruct, të cilat, me rreth 8 billion parametra, funksionojnë lehtë në një MacBook Air. Kam testuar gjithashtu një model bazë Llama që nuk është trajnuar për përgjigje pyetje. Testimet janë kryer nën kushte të ndryshme për të vlerësuar cilësinë e prodhimit pas fine‑tuning, dhe rezultatet tregojnë se është e mundur të arrijmë një stil teknik të vitave ’80‑’90 brenda një fundjave.
