Stable Code 3B: Coding on the Edge — Stability AI

콘텐츠

오늘, 2024년 첫 번째 대형 언어 모델 릴리스를 발표합니다: Stable Code 3B. 이 새로운 LLM은 이전에 출시된 Stable Code Alpha 3B를 따르는 것으로, 새로운 최첨단 모델로 코드 완성 및 여러 추가 기능을 제공하는 첫 번째 주요 Stable Code 릴리스입니다.

CodeLLaMA 7b에 비해 Stable Code 3B는 프로그래밍 언어 전반에 걸쳐 유사한 고수준 성능을 보이면서 60% 더 작습니다. 4조 토큰의 자연어 데이터로 훈련된 기존의 Stable LM 3B 기본 모델을 기반으로, Stable Code는 코드를 포함한 소프트웨어 엔지니어링 특화 데이터로 추가 훈련되었습니다. 모델의 소형 크기로 인해, 전용 GPU가 없는 최신 노트북에서도 엣지에서 실시간으로 비공개로 실행할 수 있습니다.

Stable Code 3B는 추가 혜택으로 FIM(Fill in the Middle) 지원 및 확장된 컨텍스트 크기와 함께 여러 언어에서 더 많은 기능과 현저히 향상된 성능을 제공합니다. Stable Code는 최대 16,384 토큰의 시퀀스로 훈련되었지만 CodeLlama와 유사한 접근 방식을 따라 Rotary Embeddings를 구현하여 선택적으로 1,000,000까지 로터리 베이스를 수정할 수 있어 모델의 컨텍스트 길이를 최대 100k 토큰까지 확장할 수 있습니다.

Stable Code는 18개의 프로그래밍 언어로 훈련되었으며(2023 StackOverflow Developer Survey를 기반으로 선택됨) 다양한 프로그래밍 언어에 대해 MultiPL-E 지표에서 유사한 크기의 모델과 비교하여 최신 기술 성능을 보여줍니다.

성능 비교

안정적인 코드 완성 3B와 CodeLLama 7B의 나란히 비교

훈련 인사이트

저희의 훈련 파이프라인은 Codellama와 유사한 다단계 프로세스로 구성되어 있습니다. 우리는 자연어 데이터로 사전 훈련된 LM인 StableLM-3B-4e1t으로 시작하여 CommitPack, GitHub Issues, StarCoder 및 기타 수학 데이터 세트를 포함한 여러 코드 및 코드 관련 데이터 세트에서 비지도 학습 미세 조정을 진행합니다. 두 번째 단계에서는 CodeLLama에서 제안된 기본 수정으로 16,384 토큰의 더 긴 시퀀스로 모델을 더 미세 조정합니다. 새로운 stable-code 모델은 Flash Attention 2를 지원하며 사용할 수 있습니다.

데이터와 모델에 대한 추가 참고 자료는 저희의 모델 카드에서 찾을 수 있습니다. 더 투명하고 커뮤니티에 공개하기 위해 추가 세부 정보와 실험 결과를 담은 전체 기술 보고서를 곧 발표할 예정입니다.

상업용 응용프로그램

우리의 진행 상황을 최신 상태로 유지하려면 뉴스레터에 가입하고, 상업용 응용 프로그램에 대해 더 알아보려면 여기로 연락해 주세요.

Twitter(https://twitter.com/stabilityai), Instagram(https://www.instagram.com/stability.ai/), LinkedIn(https://www.linkedin.com/company/66318622/) 및 Discord 커뮤니티(https://discord.gg/stablediffusion)에서 팔로우해주세요.

요약하다
2024년 첫 번째 대형 언어 모델인 Stable Code 3B를 발표했다. 이 모델은 CodeLLaMA 7b보다 60% 작지만 프로그래밍 언어 전반에 걸쳐 뛰어난 성능을 제공한다. Stable Code는 18가지 프로그래밍 언어에 대해 최신 기술을 보여주며, Flash Attention 2를 지원한다. 모델 카드와 기술 보고서는 공개되었으며, 상업적 응용 프로그램에 대한 정보는 공식 웹사이트에서 확인할 수 있다.