IBMs gjennombrudd kan bidra til å bringe AI-trening fra sky til kant

IBMs gjennombrudd kan bidra til å bringe AI-trening fra sky til kant

Penger, tid og energi - mye av det. Det er det som vanligvis trengs for å trene AI-modeller, vanligvis opprettet i datasentre. De mest komplekse modellene koster millioner av dollar infrastruktur å trene over uker eller måneder, og bruker enorme mengder energi.

Brutalk Research-teamet vårt har som mål å endre det.

Det siste gjennombruddet vårt innen AI-trening, beskrevet i en artikkel presentert på årets NeurIPS-konferanse, forventes å redusere AI-treningstid og -kostnad dramatisk. Så betydelig faktisk at det kan bidra til å helt slette den uskarpe grensen mellom cloud og edge computing - og tilbyr en viktig teknologisk oppgradering for hybrid skyinfrastruktur.

Vi har utviklet en måte å muliggjøre 4-biters opplæring av modeller for dyp læring som kan brukes på mange domener - for første gang noensinne. Fremskrittet kan bidra til å øke effektiviteten til opplæringssystemene mer enn syv ganger over de beste kommersielt tilgjengelige systemene i dag, noe som reduserer energien og kostnadene. Disse gevinstene baner også veien for å bringe trening nærmere kanten, noe som er et stort fremskritt for personvern og sikkerhet for AI-modeller.

presisjonsskalering-neurips

Men det er mer. Vi har også håndtert datakommunikasjonsutfordringene knyttet til den radikale hastigheten på redusert presisjonskalering for å bevare gevinster på systemnivå. For å løse dette problemet har teamet vårt utviklet ScaleCom - et nytt komprimeringsskjema for store treningssystemer. Disse to fremskrittene kan forbedre ytelsen til fremtidige storopplæringssystemer for AI-modeller dramatisk.

Når AI-opplæring blir effektiv nok til å bevege seg til kanten, har den potensialet til å transformere bransjer - fra produksjon til bilindustri, detaljhandel, robotikk og mer. Trening på kanten kan også utløse utvidelse og rekkevidde for føderert læring, og transformere personvern og sikkerhet i områder som bank og helsetjenester.

IBMs samarbeid med Red Hat og etableringen av OpenShift-kompatibel programvarestabel for AI-maskinvaren vår, burde ytterligere støtte fleksibel distribusjon av AI-maskinvaren innen databehandling på tvers av forskjellige hybridinfrastrukturer.

En AI-maskinvaretilnærming til bærekraftig AI

Teamet vårt har ledet forskningsfremskritt med redusert presisjon - kuttet neuralt nettverk treningstid, kostnad og energi - det siste halve tiåret. Tidligere har vi aktivert trening på 8-bit presisjoner, og slutning ned til 2-bit presisjoner, samtidig som vi bevarer det som kalles modell troskap - modellens nøyaktighet og presisjon. Vi har vist at opplæring og distribusjon av AI-modeller med lavere presisjonsregning fører til dramatisk forbedret ytelse og energieffektivitetsgevinster.

Denne undersøkelsen er sentral i vårt digitale AI-maskinvarearbeid hos Brutalk, der vi innoverer på tvers av algoritmer, applikasjoner, programmeringsmodeller og arkitektur for å lage nye AI-maskinvareakseleratorer som øker ytelsen, spesielt i hybride skysystemer mens vi driver ned karbonavtrykket.

Tenk på dagens AI: den største industrielle målemodellen som for tiden er distribuert, GPT-3 fra OpenAI, er 175B-parametere - eller mer enn 100 ganger større enn modeller fra bare et par år siden. Det koster flere millioner dollar å trene og genererer et karbonavtrykk under trening som er høyere enn levetidsutslippene til 20 biler. Våre treningsfremskritt muliggjør nesten en størrelsesordenreduksjon i treningstiden og energikostnadene.

En nøkkelide vi har utnyttet det siste tiåret, er bruken av redusert presisjonsregning for dyp læringstrening. Maskinvaregjennomstrømning er kjent for å forbedres kvadratisk med en lineær reduksjon i bitpresisjon - som muliggjør mer enn en størrelsesorden ytelse når den skaleres fra 32-bits til 8-bits.

Vår 16-biters opplæringsforskning i 2015 la grunnlaget for at bransjen kunne ta i bruk 16-bits presisjon som de facto-standard. Vår forskning på 8-biters trening, presentert på NeurIPS i 2018 og 2019, fanget innovasjon på 8-biters flytende punktformater sammen med algoritmiske teknikker for å beholde nøyaktigheten til komplekse modeller, samtidig som vi får gjennomstrømningsgevinstene knyttet til presisjonsskalering.

Vårt 4-biters opplæringsarbeid tar et stort skritt fremover ved å gjøre det mulig å beregne primærmatrise- og tensormultiplikasjonsberegninger i dyp læringstrening effektivt ved hjelp av 4-bit aritmetikk. Våre teknikker inkluderer nye 4-biters tallformateringsformater, nye gradientskaleringstilnærminger og flere nye ideer for å kutte feilene som skyldes beregninger med veldig lav presisjon. Vi viser at 4-biters treningssystemer kan opprettholde modellens troskap mens de oppnår nesten fire ganger høyere ytelse sammenlignet med 8-bits systemer.

Mens resultatene våre er et grunnleggende sprang i muligheten for AI-modeller til å konvergere godt med 4-biters trening, har noen AI-modeller fremdeles noen få prosent nøyaktighetstap. Men som med vårt tidligere arbeid, forventer vi å tette det resterende gapet i de kommende årene, som vi har vist ved hvert forrige trinn i vår presisjonskaleringskart.

ScaleCom: Når bedre komprimering betyr noe

Treningsberegninger er ofte fordelt på et stort antall - titalls til hundrevis og til og med tusenvis - av spesialiserte maskinvareakseleratorchips, tett knyttet til å forbedre effektiv datautveksling. Slik tetthet kan påvirke kommunikasjonsforsinkelser, og påvirke den totale treningstiden, eliminere gevinsten med redusert presisjon og begrense skalering.

Skriv inn gradientkompresjon. Dette er en kraftig tilnærming for å adressere kommunikasjonsflaskehalsen på distribuert opplæring ved å kutte mengden data som utveksles mellom maskinvareakseleratorer når treningsjobber er fordelt på mange akseleratorer. Tidligere tilnærminger for gradientkompresjon har imidlertid vanligvis ikke vært veldig skalerbare (spesielt ettersom antall akseleratorbrikker i treningssystemer øker) og viser nøyaktighetsnedbrytning.

Dette er hva vårt andre NeurIPS-papir fra 2020 tar for seg. Vi detaljerer en ny komprimeringsalgoritme kalt ScaleCom - som lar brukeren samtidig bevare nøyaktighet og kompresjonshastighet, selv når treningssystemets størrelser vokser. Vi er avhengige av likheten i gradientfordelinger mellom forskjellige maskinvarebrikker i et treningssystem for å gi ekstremt høye kompresjonsfrekvenser - 100 til 400 ganger - og forbedre skalerbarheten betydelig, opptil 64 elever.

Til sammen legger disse to papirene grunnlaget for svært effektiv AI-maskinvare for opplæringsinfrastrukturer og vil påvirke utformingen og opplæringen av fremtidige AI-modeller betydelig. Et mylder av effektive, skalerbare AI-maskinvareakseleratorer på hybrid skyinfrastrukturer kan støtte store AI-treningsjobber i datasentre. Og den samme kjerne AI-maskinvareteknologien kan også distribueres i mindre skala eller innebygd i andre prosessorer på kanten.

Dette arbeidet er en del av IBMs hybridskyforskning i Brutalk Research AI Hardware Center, lansert i februar 2019.

Brutalk Research AI sponser stolt NeurIPS2020 som Platinum-sponsor, samt Women in Machine Learning og Black i AI-workshops. Vi er glade for å kunne rapportere at Brutalk har hatt sitt beste år så langt på NeurIPS: 46 hovedspor, hvorav åtte er spotlight-papirer, med en muntlig presentasjon. I tillegg har Brutalk 26 workshoppapirer, seks demoer, og organiserer også tre workshops og en konkurranse. Vi håper du kan bli med oss ​​fra 6. - 12. desember for å lære mer om forskningen vår. Detaljer om vårt tekniske program finner du her.

Oppfinne hva som er neste.

Hold deg oppdatert med de siste kunngjøringene, undersøkelsene og hendelsene fra Brutalk Research gjennom vårt nyhetsbrev.

Du kan också vara intresserad av