지포스 RTX·RTX PRO GPU로 로컬에서 오픈AI 신규 오픈 모델 가속화
엔비디아가 오픈AI(OpenAI)와 협력해 새로운 오픈 소스 gpt-oss 모델을 엔비디아(NVIDIA) GPU에 최적화했다. 이를 통해 클라우드부터 PC까지 빠르고 스마트한 추론이 가능해졌다. 새로운 추론 모델은 웹 검색, 심층 연구 등 다양한 에이전틱 AI 애플리케이션을 지원한다.
오픈AI는 gpt-oss-20b와 gpt-oss-120b를 출시해 수백만 명의 사용자에게 최첨단 모델을 공개했다. AI 애호가와 개발자는 올라마(Ollama), 라마.cpp(llama.cpp), 마이크로소프트 AI 파운드리 로컬(Microsoft AI Foundry Local) 등 인기 도구와 프레임워크를 통해, 엔비디아 RTX AI PC와 워크스테이션에서 최적화된 모델을 사용할 수 있다. 이와 함께 엔비디아 지포스(GeForce) RTX 5090 GPU에서 초당 최대 256개 토큰의 성능을 경험할 수 있다.
엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “오픈AI는 엔비디아 AI를 기반으로 무엇을 구축할 수 있는지 세상에 보여줬으며, 이제 오픈소스 소프트웨어 분야에서의 혁신을 이끌고 있다. gpt-oss 모델은 전 세계 개발자들이 최첨단 오픈소스 기반 위에 구축할 수 있도록 지원하고, 세계 최대 규모의 AI 컴퓨팅 인프라를 기반으로 미국의 AI 기술 리더십을 강화할 것”이라고 말했다.
gpt-oss-20b와 gpt-oss-120b는 사고 사슬(chain-of-thought) 기능을 갖추고 있으며, 널리 사용되는 전문가 혼합 방식(mixture-of-experts, MoE) 아키텍처를 활용해 추론 강도를 조절할 수 있는 유연한 오픈 웨이트(open-weight) 추론 모델이다. 이 모델은 지시 이행(instruction-following), 도구 사용(tool use)과 같은 기능을 지원하도록 설계됐으며, 엔비디아 H100 GPU에서 훈련됐다. AI 개발자는 엔비디아 기술 블로그에서 자세한 내용을 알아보고 지침을 참조해 시작할 수 있다.
이 모델은 로컬 추론에서 가장 긴 수준인 최대 131,072 컨텍스트 길이를 지원한다. 따라서 컨텍스트 기반 문제를 추론할 수 있어 웹 검색, 코딩 지원, 문서 이해, 심층 연구와 같은 작업에 이상적이다.
아울러 이 오픈AI 개방형 모델은 엔비디아 RTX에서 지원되는 최초의 MXFP4 모델이다. MXFP4는 높은 모델 품질을 유지하면서도 다른 정밀도 유형 대비 적은 리소스를 사용해 빠르고 효율적인 성능을 제공한다.
엔비디아 RTX에서 오픈AI 모델 실행
새로운 올라마 앱은 VRAM 24GB 이상의 GPU를 갖춘 RTX AI PC에서 이 오픈AI 모델을 테스트할 수 있는 가장 쉬운 방법이다. 올라마는 손쉬운 통합으로 AI 애호가와 개발자에게 인기를 끌고 있다. 또한 새로운 사용자 인터페이스(user interface, UI)는 오픈AI의 오픈 웨이트 모델을 기본적으로 지원한다. 올라마는 RTX에 완전히 최적화돼 개인용 AI를 PC나 워크스테이션에서 경험하고자 하는 사용자에게 이상적이다.
올라마를 설치하면 모델과 빠르고 쉽게 대화할 수 있다. 드롭다운 메뉴에서 모델을 선택하고 메시지를 보내기만 하면 된다. 올라마는 RTX에 최적화돼 있으므로 지원되는 GPU에서 최상의 성능을 내기 위해 별도의 설정이나 명령어가 필요하지 않다.
올라마에서 손쉽게 오픈AI의 개방형 모델을 테스트할 수 있다. 올라마의 새로운 앱에는 PDF나 텍스트 파일을 채팅 내에서 간편하게 지원하는 기능, 적용 가능한 모델에서 사용자가 프롬프트에 이미지를 포함할 수 있게 하는 멀티모달 지원, 대용량 문서나 채팅 작업 시 쉽게 조절 가능한 컨텍스트 길이 등 다양한 새로운 기능이 포함된다.
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>