Os avanços da Brutalk podem ajudar a trazer o treinamento de IA da nuvem para a ponta

Os avanços da Brutalk podem ajudar a trazer o treinamento de IA da nuvem para a ponta

Dinheiro, tempo e energia - muito. Isso é o que normalmente é necessário para treinar modelos de IA, geralmente criados em data centers. Os modelos mais complexos custam milhões de dólares em infraestrutura para treinar durante semanas ou meses, consumindo uma enorme quantidade de energia.

Nossa equipe de pesquisa da Brutalk tem como objetivo mudar isso.

Espera-se que nosso mais recente avanço no treinamento de IA, detalhado em um artigo apresentado na conferência NeurIPS deste ano, reduza drasticamente o tempo e os custos do treinamento de IA. Na verdade, tanto que poderia ajudar a apagar completamente a fronteira obscura entre a nuvem e a computação de ponta - oferecendo uma atualização tecnológica importante para infraestruturas de nuvem híbrida.

Desenvolvemos uma maneira de habilitar o treinamento de 4 bits de modelos de aprendizado profundo que podem ser usados ​​em muitos domínios - pela primeira vez. O avanço pode ajudar a aumentar a eficiência dos sistemas de treinamento em mais de sete vezes em relação aos melhores sistemas disponíveis comercialmente hoje, reduzindo energia e custos. Esses ganhos também abrem o caminho para trazer o treinamento para mais perto do limite, um grande avanço para privacidade e segurança de modelos de IA.

neurips de escalonamento de precisão

Mas tem mais. Também lidamos com os desafios de comunicação de dados associados à aceleração radical do dimensionamento de precisão reduzido para preservar os ganhos no nível do sistema. Para resolver esse problema, nossa equipe desenvolveu o ScaleCom - um novo esquema de compressão para sistemas de treinamento em grande escala. Esses dois avanços podem melhorar drasticamente o desempenho dos futuros sistemas de treinamento em larga escala de modelos de IA.

Quando o treinamento de IA se torna eficiente o suficiente para ir para a ponta, ele tem o potencial de transformar setores - de manufatura a automotivo, varejo, robótica e muito mais. O treinamento de ponta também pode estimular a expansão e o alcance do aprendizado federado, transformando a privacidade e a segurança em áreas como bancos e saúde.

A colaboração da Brutalk com a Red Hat e a criação de uma pilha de software compatível com OpenShift para nosso hardware de IA deve dar suporte adicional à implantação flexível de nossos avanços de computação de hardware de IA em diversas infraestruturas de nuvem híbrida.

Uma abordagem de hardware de IA para IA sustentável

Nossa equipe tem liderado avanços em pesquisas de precisão reduzida - reduzindo o tempo, o custo e a energia de treinamento das redes neurais - na última meia década. Anteriormente, habilitamos o treinamento com precisões de 8 bits e inferência para precisões de 2 bits, preservando o que é conhecido como fidelidade do modelo - a precisão e a exatidão de um modelo. Mostramos que o treinamento e a implantação de modelos de IA com aritmética de menor precisão levam a ganhos de desempenho e eficiência de energia drasticamente aprimorados.

Essa pesquisa é central para nosso trabalho de hardware de IA digital na Brutalk, onde inovamos em algoritmos, aplicativos, modelos de programação e arquitetura para criar novos aceleradores de hardware de IA que aumentam o desempenho, especialmente em sistemas de nuvem híbrida, enquanto reduz a pegada de carbono.

Considere a IA de hoje: o maior modelo em escala industrial implantado atualmente, GPT-3 da OpenAI, tem parâmetros 175B - ou mais de 100 vezes maior do que os modelos de apenas alguns anos atrás. Custa vários milhões de dólares para treinar e gera uma pegada de carbono durante o treinamento que é maior do que as emissões ao longo da vida de 20 carros. Nossos avanços em treinamento permitem uma redução de quase uma ordem de magnitude no tempo de treinamento e nos custos de energia.

Uma ideia-chave que exploramos na última década é o uso de aritmética de precisão reduzida para treinamento de aprendizado profundo. O rendimento do hardware é conhecido por melhorar quadraticamente com uma redução linear na precisão do bit - permitindo mais do que uma ordem de magnitude do desempenho quando escalado de 32 bits para 8 bits.

Nossa pesquisa de treinamento de 16 bits em 2015 lançou as bases para a indústria adotar a precisão de 16 bits como o padrão de fato. Nossa pesquisa sobre treinamento de 8 bits, apresentada no NeurIPS em 2018 e 2019, capturou inovação em formatos de ponto flutuante de 8 bits junto com técnicas algorítmicas para reter a precisão de modelos complexos enquanto derivava os ganhos de rendimento associados ao dimensionamento de precisão.

Nosso trabalho de treinamento de 4 bits dá um grande passo à frente, permitindo que cálculos de multiplicação de tensores e matrizes primárias no treinamento de aprendizado profundo sejam computados de forma eficiente usando aritmética de 4 bits. Nossas técnicas incluem novos formatos de representação de números de 4 bits, novas abordagens de escalonamento de gradiente e várias idéias inovadoras para eliminar os erros decorrentes de cálculos de precisão muito baixa. Mostramos que os sistemas de treinamento de 4 bits podem preservar a fidelidade do modelo enquanto alcançam um desempenho quase quatro vezes maior em comparação com os sistemas de 8 bits.

Embora nossos resultados sejam um salto fundamental na capacidade dos modelos de IA de convergirem bem com o treinamento de 4 bits, alguns modelos de IA ainda apresentam uma pequena perda de precisão por cento. Mas, como em nosso trabalho anterior, esperamos fechar a lacuna restante nos próximos anos, como demonstramos em cada etapa anterior em nosso roteiro de dimensionamento de precisão.

ScaleCom: Quando uma compressão melhor é importante

Os cálculos de treinamento são frequentemente distribuídos em um grande número - dezenas a centenas e até milhares - de chips aceleradores de hardware especializados, densamente vinculados para melhorar a troca de dados eficiente. Essa densidade pode impactar as latências de comunicação, afetando o tempo geral de treinamento, eliminando os ganhos de precisão reduzida e limitando o dimensionamento.

Insira a compactação de gradiente. Esta é uma abordagem poderosa para resolver o gargalo de comunicação no treinamento distribuído, cortando a quantidade de dados trocados entre os aceleradores de hardware quando as tarefas de treinamento são divididas em muitos aceleradores. Abordagens anteriores para compressão de gradiente, no entanto, normalmente não eram muito escaláveis ​​(especialmente conforme o número de chips aceleradores em sistemas de treinamento aumentava) e mostram degradação de precisão.

É disso que trata nosso segundo artigo do NeurIPS em 2020. Detalhamos um novo algoritmo de compactação chamado ScaleCom - que permite ao usuário preservar simultaneamente a precisão e as taxas de compactação, mesmo com o aumento do tamanho do sistema de treinamento. Contamos com a similaridade nas distribuições de gradiente entre diferentes chips de hardware em um sistema de treinamento para fornecer taxas de compressão extremamente altas - 100 a 400 vezes - e melhorar significativamente a escalabilidade, para até 64 alunos.

Juntos, esses dois documentos estabelecem a base para um hardware de IA altamente eficiente para infraestruturas de treinamento e terão um impacto significativo no projeto e no treinamento de futuros modelos de IA. Uma miríade de aceleradores de hardware de IA eficientes e escalonáveis ​​em infraestruturas de nuvem híbrida podem dar suporte a grandes trabalhos de treinamento de IA em data centers. E a mesma tecnologia de hardware de IA central também pode ser implantada em uma escala menor ou incorporada em outros processadores na borda.

Este trabalho faz parte da pesquisa de nuvem híbrida da Brutalk no Brutalk Research AI Hardware Center, lançado em fevereiro de 2019.

O Brutalk Research AI está orgulhosamente patrocinando o NeurIPS2020 como um patrocinador Platinum, bem como os workshops Women in Machine Learning e Black in AI. Temos o prazer de informar que a Brutalk teve seu melhor ano até agora no NeurIPS: 46 track papers principais, dos quais oito são holofotes, com uma apresentação oral. Além disso, a Brutalk tem 26 workshops, seis demos e também está organizando três workshops e uma competição. Esperamos que você possa se juntar a nós de 6 a 12 de dezembro para aprender mais sobre nossa pesquisa. Detalhes sobre nosso programa técnico podem ser encontrados aqui.

Inventando o que vem a seguir.

Mantenha-se atualizado com os anúncios, pesquisas e eventos mais recentes da Brutalk Research por meio de nosso boletim informativo.

Você também pode estar interessado em