Código Estável 3B: Codificando no Limite — Estabilidade AI

contente

Hoje, anunciamos nosso primeiro lançamento do Large Language Model de 2024: Stable Code 3B. Este novo LLM é uma continuação do nosso anteriormente lançado Stable Code Alpha 3B e o primeiro grande lançamento do Stable Code, oferecendo um novo modelo de ponta projetado para completar códigos com múltiplas capacidades adicionais.

Comparado ao CodeLLaMA 7b, o Stable Code 3B é 60% menor, mantendo um desempenho de alto nível semelhante em várias linguagens de programação. Com base em nosso modelo fundamental Stable LM 3B pré-existente treinado em 4 trilhões de tokens de dados de linguagem natural, o Stable Code foi ainda mais treinado em dados específicos de engenharia de software, incluindo código. O tamanho compacto do modelo permite que ele seja executado de forma privada na borda em tempo real em laptops modernos, mesmo aqueles sem uma GPU dedicada.

O Código Estável 3B oferece mais recursos e desempenho significativamente melhor em vários idiomas, com benefícios adicionais como suporte para capacidades de Preenchimento no Meio (FIM) e tamanho de contexto expandido. O Código Estável como base é treinado em sequências de até 16.384 tokens, mas segue uma abordagem semelhante ao CodeLlama com a implementação de Incorporações Rotativas, permitindo opcionalmente a modificação da base rotativa de até 1.000.000, expandindo ainda mais o comprimento do contexto do modelo para até 100.000 tokens.

O Stable Code é treinado em 18 linguagens de programação (selecionadas com base na Pesquisa de Desenvolvedores do StackOverflow de 2023) e demonstra desempenho de ponta (em comparação com modelos de tamanho semelhante) nas métricas MultiPL-E em várias linguagens de programação testadas.

Comparação de Desempenho

Comparação lado a lado do Code Completion 3B estável com o CodeLLama 7B

Visão Geral do Treinamento

Nosso pipeline de treinamento consiste em um processo de vários estágios semelhante ao Codellama. Começamos com um LM pré-treinado em dados de linguagem natural, neste caso, StableLM-3B-4e1t, seguido de ajuste fino não supervisionado em vários conjuntos de dados de código e relacionados ao código, incluindo CommitPack, GitHub Issues, StarCoder e outros conjuntos de dados de Matemática. No segundo passo, ajustamos ainda mais o modelo com sequências mais longas de 16.384 tokens com a modificação base sugerida no CodeLLama. O novo modelo de código estável também suporta Flash Attention 2 e está disponível para uso.

Mais referências aos dados e ao modelo podem ser encontradas em nosso cartão de modelo. Vamos lançar um relatório técnico completo com detalhes adicionais e ablações para ser mais transparente e aberto à comunidade.

Resumir
O novo Large Language Model (LLM) Stable Code 3B foi lançado em 2024 pela Stability AI, oferecendo um modelo de última geração para completar códigos com múltiplas capacidades adicionais. Com 60% do tamanho do CodeLLaMA 7b, o Stable Code 3B mantém alto desempenho em várias linguagens de programação. Ele foi treinado em dados específicos de engenharia de software, incluindo código, e pode ser executado em tempo real em laptops modernos, mesmo sem GPU dedicada. O modelo oferece melhor desempenho em várias linguagens de programação, suporta Fill in the Middle (FIM) e possui tamanho compacto. Além disso, foi treinado em 18 linguagens de programação e demonstra desempenho de ponta em métricas MultiPL-E. O processo de treinamento inclui pré-treinamento em dados de linguagem natural, ajuste fino não supervisionado em conjuntos de dados de código e ajuste fino com sequências mais longas. O modelo também suporta Flash Attention 2 e está disponível para uso comercial.