[아이티비즈 김문구 기자] 글로벌 AI 데이터 클라우드 기업 스노우플레이크가 기업들이 강력한 AI 애플리케이션을 대규모로 쉽게 활용 및 구축할 수 있도록 스노우플레이크 코텍스 AI(Snowflake Cortex AI)에서 라마 3.1에 대한 호스팅을 개시한다고 9일 발표했다.
라마 3.1은 다중 언어 오픈소스 대규모언어모델(LLM)의 컬렉션이다. 이번에 출시한 서비스에는 메타에서 가장 큰 규모이자 강력한 성능의 오픈소스 LLM인 라마 3.1 405B가 제공된다. 스노우플레이크는 실시간의 고처리량 추론을 구현함은 물론 강력한 자연어 처리 및 생성 애플리케이션의 보편화를 증진하는 추론 시스템 스택을 개발하고 오픈 소싱한다.
스노우플레이크 AI 리서치팀은 추론 및 파인튜닝에 대해 라마 3.1 405B를 최적화함으로써 서비스 개시 첫날부터 거대한 128K 컨텍스트 윈도우를 지원한다. 동시에 기존 오픈소스 솔루션에 비해 엔드투엔드 지연시간은 최대 3분의 1로 낮아지고 처리량은 1.4배 높아진 실시간 추론을 구현한다. 또한, 코텍스 AI에서 하나의 GPU 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화해준다.
메타와 협력을 통해 스노우플레이크 고객은 AI 데이터 클라우드에서 메타의 최신 모델에 원활하게 액세스하고 파인튜닝하여 배포할 수 있다. 스노우플레이크는 사용이 간편하고 효율성 및 신뢰도 높은 방법은 물론, 기본적으로 내장된 신뢰도 및 안전성에 대한 포괄적인 접근방식을 제공한다.
비벡 라구나단 스노우플레이크 AI 엔지니어링 부사장은 “스노우플레이크의 AI 리서치팀은 기업과 오픈 소스 커뮤니티가 라마 3.1 405B 등의 최첨단 오픈 모델을 적극 활용해 효율 극대화를 위한 추론 및 파인튜닝을 가능하게 한다”며, “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라, 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도우와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등을 지원하는 새로운 연구 및 오픈소스 코드로 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.