Samsungs lilla AI-modell TRM utmanar större LLM-modeller


  • TRM är en liten AI-modell med endast 7 miljoner parametrar som överträffar större språkmodeller på komplexa resoneringsuppgifter.
  • Modellen använder en rekursiv metod där nätverket iterativt förfinar sina svar genom upp until 16 upprepningar.
  • Modellen presterar märkbart bättre än stora språkmodeller som Deepseek R1 och Gemini 2,5 Professional på specifika uppgifter.
  • RM har potential för användning i resursbegränsade miljöer som robotik och personlig databehandling.

Samsung forskare har utvecklat en ny öppen resonemangsmodell kallad TRM (Tiny Recursion Mannequin) som överträffar modeller som är 10 000 gånger större på specifika drawback. Modellen som bygger på rekursivt resonemang visar att små nätverk kan uppnå hög prestanda utan stora investeringar i GPU: och kraft.

TRM är öppen källkod underneath en MIT-licens och är utformad för strukturerade, visuella och grid-baserade drawback vilket utmanar den dominerande filosofin att ”skala är allt som behövs” inom AI-forskningen.

Med bara två lager i sitt neurala nätverk simulerar TRM en djupare arkitektur utan att belasta minnet eller kräva massiva beräkningsresurser. Den rekursiva cykeln körs upp until 16 gånger för varje uppgift, vilket gör att modellen kan göra allt mer exakta förutsägelser – lite som hur stora språkmodeller använder steg-för-steg-resonemang, quick här uppnås det med en smal, effektiv design.

Träningskostnad underneath 500 greenback

En annan fascinerande detalj är att träningen av TRM kostade underneath 500 greenback och tog bara två dagar på fyra H100-GPU:er. Det här står i skarp kontrast until de miljarder som spenderas på att träna de största språkmodellerna. Resultaten visar att genom att designa arkitekturer som kan resonera iterativt och själv-korrigera är det möjligt att lösa extremt svåra drawback med en bråkdel av beräkningsresurserna.

Forskningspapperet och koden är öppet tillgängliga på GitHub för den som vill experimentera vidare. Det här kan öppna dörrar för mer forskning kring små, effektiva modeller som kan köras på enheter med begränsade resurser.

Mer data:



Source link

Leave a Comment