▶ 환불·신형 교체로 사태 수습… “AI 수요 폭증에 게임 칩은 올해 안낸다”

엔비디아 로고[로이터]
인공지능(AI) 칩 1위 기업인 엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 서버 구축 과정에서 문제를 일으켜 거대 기술기업들이 때아닌 냉가슴을 앓은 것으로 나타났다.
오픈AI와 메타 등 주요 AI 기업들은 지난해 내내 블랙웰 기반 AI 서버를 구축하고 최적화하는 과정에서 기술적 난관 때문에 어려움을 겪었다고 미 정보기술(IT) 전문매체 디인포메이션이 내부 소식통을 인용해 6일 보도했다.
블랙웰 이전의 엔비디아 칩은 납품 후 몇 주 안에 쉽사리 설치하고 가동할 수 있었다는 게 이들 기업의 입장이다.
문제는 칩 자체의 성능이 아니라 이를 대규모로 연결해 하나의 거대한 시스템처럼 작동하도록 하는 과정의 복잡성 때문에 일어났다.
72개의 '그레이스 블랙웰'(GB) 칩을 잇는 과정에서 발열과 연결 관련 문제가 발생한 것이다.
연결된 칩 가운데 하나만 오작동을 일으켜도 칩 수천 개로 구성된 전체 클러스터가 장애를 일으키거나 중단되는 사례도 있었다.
기업들은 이와 같은 장애로 중단된 작업을 마지막 저장 시점에서 다시 시작하는 데만 수천∼수백만 달러의 비용을 들여야 했다.
AI 데이터센터를 구축하는 오라클은 이와 같은 블랙웰 칩 구축의 기술적 어려움 등 때문에 약 1억 달러(약 1천400억원)의 손실을 감수해야 했다.
텍사스주 데이터센터의 블랙웰 서버에 대해 고객사인 오픈AI가 한동안 승인을 늦췄기 때문이다.
엔비디아는 지난해 불만을 제기한 고객사에 부분 환불을 해주거나, 할인을 제공하는 등 달래기에 나서기도 했다.
이 같은 문제는 지난해 3분기에 관련 문제를 개선한 새 버전 'GB300'을 내놓은 이후에야 수습되기 시작했다.
오픈AI 등 고객사들은 아직 받지 못한 기존 칩을 새 버전으로 교체하고 있다고 소식통은 전했다.
엔비디아는 출시가 예정된 신형 '베라 루빈' 칩에도 이와 같은 개선 사항을 적용했다.
한편 엔비디아는 AI 칩 수요 폭증에 따른 공급 부족 등으로 올해 게임용 GPU는 출시하지 않기로 한 것으로 알려졌다.
게임용 칩 설계로 사업을 시작한 엔비디아가 게임용 GPU를 내놓지 않은 것은 30여년 만에 처음이다.
<연합뉴스>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x