핀포인트 리서치는 국내외 비상장기업과 산업을 분석하는 리서치 그룹입니다. 최신 글을 이메일로 받아보시려면 구독하세요! 오늘은 한국의 AI 팹리스 스타트업, 리벨리온을 분석합니다.
thesis
the age of ai
AI의 시대가 온다.
The development of AI is as fundamental as the creation of the microprocessor, the personal computer, the Internet, and the mobile phone. It will change the way people work, learn, travel, get health care, and communicate with each other. Entire industries will reorient around it. Businesses will distinguish themselves by how well they use it.
AI가 인류의 역사를 바꿀 파급력을 지니고 있다는 건 점점 더 분명해지고 있다. 게이츠가 말한 대로, AI는 우리가 일하고, 공부하고, 여행하고, 소통하고, 의료 서비스를 제공받는 방식을 바꿀 것이다. 나아가 산업의 구조는 AI에 맞춰 재구성될 것이다. 우리는 그 시작점에 서 있다.
그렇다면 인공지능은 정확히 어떻게 작동하는 것일까?
inference load
AI는 크게 두 단계로 작동한다: 학습과 추론. 학습은 데이터를 통해 배우는 과정이다. 추론은 배운 것을 토대로 문제를 푸는 것이다.
인공지능은 인간의 지능을 흉내 낼 수 있도록 설계되었기에, 뇌와 유사한 부분이 존재한다. 간소화해서 비교해 보자: 인간은 새로운 정보를 감각기관으로 입수하고, 그에 따라 뉴런에 변화가 생기며 학습한다. 인공지능은 개발자들이 제공한 데이터를 기반으로, 매개변수(파라미터)를 조정하며 학습한다. 즉, 주어진 정보를 표현하기에 가장 적합한 함수(모델)를 찾기 위해 함수 속의 변수(파라미터)를 조정하는 과정이다 (이때 함수의 틀은 AI 연구자들이 짠다).
추론은 조금 다르다. 인간은 자연스럽게 새로운 정보를 배우는 것과, 기존의 지식을 기반으로 새로운 문제를 푸는 것을 넘나들 수 있지만, 인공지능 모델은 그렇지 못하다. AI는 추론 시 파라미터를 고정한 상태에서 문제를 푼다. 인간으로 치면, 지식을 인출할 때 뉴런의 상태를 고정하는 것이다.1
예로, 연구자들이 GPT에 데이터를 주고 똑똑하게 만드는 과정이 학습이고, 엔드 유저가 GPT와 채팅을 하는 것이 추론이다. 이를 일반화하면, AI를 다루는 사람은 학습을 주로 하냐, 추론을 주로 하냐에 따라 연구자와 엔드 유저 (편의를 위해 유저라 칭함)로 구분할 수 있다.
그동안 인공지능은 철저히 연구자 중심이었다. 화려한 언론보도와 무관하게, 일반인이 고도의 인공지능을 사용할 일은 거의 없었다. 그러나 ChatGPT가 출시되며 큰 변화가 일었다. 대중이 사용하였을 때 실질적 효용이 있는 AI 서비스가 처음으로 출시된 것이다. ChatGPT는 역대 최단기간에 100M 유저를 확보한 서비스가 되었고,2 현재까지도 1B 이상의 페이지 방문을 유지하고 있다.
ChatGPT가 출시된 지 1년도 되지 않았다는 점을 상기하면, 앞으로 얼마나 더 많은 추론향 수요가 있을지 가늠하기 어려울 정도이다.
ai hardware
추론을 위해서 필요한 것은 ChatGPT와 같은 인공지능 모델을 돌리기 위한 하드웨어이다. 기존의 CPU 구조는 막대한 양의 행렬 곱을 처리하기에 부적합하기에, 인공지능 모델을 구동시키는 데 필요한 연산만 모아 가속하는 AI 하드웨어 가속기 (이를 회사에 따라 [GP]GPU, NPU, TPU 등으로 부른다. 이하 글에서도 다양한 표현 활용)가 필수적이다.
AI 하드웨어 가속의 전통 강자는 NVIDIA이고, 최근 컨퍼런스 콜에서 AI wave의 큰 수혜를 본 것이 드러났다. 그러나 추론 수요가 폭발하면서, NVIDIA의 가격 정책, 높은 전력 소모, 느린 칩 공급에 피해를 보는 기업들이 속출하고 있다.
학습은 파라미터를 조정하면서 이루어지기에, 파라미터를 고정하고 진행하는 추론보다 복잡성이 높다. NVIDIA는 AI 시장의 태동기 (AlexNet) 때부터 연구자들과 협업하며, 그들이 더 쉽고 빠르게 학습을 진행할 수 있도록 CUDA라는 툴을 제공해 왔다.3 이는 API이자, SDK이자, 플랫폼이자, 프로그래밍 모델이다.
단순화하면, NVIDIA는 복잡한 GPU 코딩에 거대한 추상화 레이어(CUDA)를 더해 무료로 개발자들에게 제공하고 있다. 압도적 SW와 브랜드로 lock-in 효과를 구현하고, HW에 높은 마진율을 매겨 파는 것이 NVIDIA의 애플-esque한 BM이다.
추론의 경우, CUDA에 대한 의존성이 상대적으로 떨어진다. 학습된 모델을 구동시키고 결과를 뽑아내는 것이 핵심이기에, 복잡한 코드를 구현할 필요가 없다. 즉, HW 제작사 입장에서 추상화 레이어를 제공하는데 품이 덜 든다.
또한 추론에서는 성능뿐 아니라 TCO(Total Cost of Ownership: 생애 주기 소유 비용. 이에는 전력 소모, 가격, 부피 등 여러 요소가 포함된다)의 중요성이 높아지기에, NVIDIA의 칩이 일부 약점을 지닌다. 이런 틈새를 발견하고, NVIDIA에 대항하는 플레이어들이 등장하고 있다. 마치 과거의 GPU 시장을 보는 듯하다: AI HW 가속기 춘추전국 시대이다.
기존 팹리스 강자들 (NVIDIA, AMD, Qualcomm), 데이터 센터 업체들 (Microsoft, Amazon, Google), 그리고 스타트업 (Rebellions, Cerebras, Sambanova 등)의 소리 없는 전쟁은 지금도 진행되고 있다.
과연 동사는 이 거대한 글로벌 경쟁 속에서 승리할 수 있을까?
founding story
동사는 2020년, 박성현(CEO), 오진욱(CTO), 김효은(CPO), 신성호가 공동 창업했다. 4명 모두 하드웨어나 AI로 박사 학위를 수여한, 엔지니어 중심의 기업이다.
박성현 대표는 KAIST 전기 및 전자공학부(EE)를 수석 졸업 후 MIT에서 CPU 설계 (network on chip)로 석사 및 박사 학위를 수여했다. 학계를 떠난 후에는 인텔 (Senior), 삼성전자 (Staff), 스페이스X (Starlink Project), 모건 스탠리 (VP)에서 칩 설계를 담당했다.
오진욱 CTO는 서울대학교 EE를 졸업 후 KAIST EE에서 컴퓨터 비전 SW와 HW 설계로 석사 및 박사 학위를 수여했다. 이후 IBM에서 AI 칩 수석 설계자로 데이터 센터에 들어가는 반도체를 설계했다.
김효은 CPO 역시 KAIST EE 학부를 졸업 후 동 대학원에서 VLSI 설계로 석사 및 박사 학위를 수여했다. 이후 삼성전자를 거쳐, 의료 AI 기업 루닛에서 AI 분야 총괄 및 CPO를 역임했다.
신성호 공동창업자는 서울대학교에서 AI 알고리즘 연구로 박사 학위를 받았다.4
미국에서 승승장구하던 박성현 대표와 오진욱 CTO가 한국에 돌아와 팹리스 (반도체 생산은 하지 않고, 설계만 하는 기업) 기업을 차린 것이 인상적이다. 세계 최고의 기업에서 반도체 설계를 해본 두 공동창업자는 한국에서 기회를 포착했다.
박성현 대표는 “이번 성과는 삼성전자, 반도체 디자인 하우스 세미파이브 등과 함께 만든 한국 반도체 생태계의 승리”라고 강조했다. 2년 전 반도체 쇼티지 상황에서도 삼성전자와 세미파이브는 신생 기업인 리벨리온의 아톰 시제품의 제작을 맡았다. 박 대표는 “한국은 훌륭한 파운드리 기업이 있고 반도체 디자인 하우스 생태계도 강력해 리벨리온 같은 AI 반도체 스타트업이 글로벌 기업으로 성장할 수 있는 곳”
"미국도 정부에서 반도체에 투자를 많이 하지만 시장 분위기가 바뀌었어요. 반도체 설계와 개발은 공부도 오래 해야 하고 힘들다 보니 사람들이 기피하죠. 미국 대학들은 컴퓨터공학 전공과 전자공학 전공을 같이 뽑는데, 모두 소프트웨어 개발하는 컴퓨터공학으로 넘어가요. 미국은 서비스업에 AI를 접목해 돈을 잘 벌다 보니 우수 인력들이 페이스북 등 서비스 분야에 모입니다. 반면 한국은 우수 인력들이 전자공학에 지원을 많이 하죠."
박성현 대표가 타 AI 팹리스 기업과의 경쟁 우위를 한 가지 뽑으라는 질문에 인재라고 답할 만큼, 팀에 대해 강한 믿음을 가지고 있다. 처음에는 금융 회사가 필요로 하는 칩을 만드는 것에서 시작했으나, 확신이 강해짐에 따라 더 큰 꿈인 AI 추론 칩 시장 장악을 목표로 하게 되었다고 한다.
현재 동사는 90명 이상의 인력을 고용하고 있고, 이 중 엔지니어의 비율은 88%, 박사학위 소지자의 비율은 ~30%이다. 서울대학교, KAIST, POSTECH 출신 / 삼성전자와 SK 하이닉스의 출신 엔지니어들이 연구 인력의 주를 이루고 있다.5 이외에도 MIT, Harvard 등의 해외 대학 졸업 / Broadcom, Cirrus Logic 등의 해외 팹리스에서 근무하던 한국 인력을 한데 모았다.
product
ION
동사는 금융업에서 이용되는 초저지연(Ultra Low Latency, 이하 ULL) 칩 설계에 도전장을 내밀며 출범했다. 퀀트 투자를 할 때 경쟁자보다 정보를 빠르게 처리해야 좋은 거래를 낚아챌 수 있기에, 특화된 칩이 필요하다. 또한, 최근 딥러닝 알고리즘을 이용한 트레이딩이 늘어남에 따라, 이를 구동할 수 있도록 설계했다.
박성현 대표는 모건 스탠리에서 ULL FPGA 개발을, 오진욱 CTO는 IBM에서 인공지능 NPU 설계를 리드했기에 이런 선택은 자연스럽게 느껴진다. 처음부터 모험을 하기보다는 공동 창업자들이 가장 잘하는 것을 조합해 첫 제품을 내놓은 것이다.
2021년 11월에 출시하였고, 현재 월스트리트에서 테스트(QA)를 받고 있다고 한다. 체결된 계약이 없다는 점에서 아쉬움이 있지만, ION을 테이프-아웃(파운드리에 설계도 전달)한 것은 후속작 ATOM을 만드는데 좋은 거름이 되었다.
스펙은 다음과 같다. TSMC 7nm 공정으로 제작되었고, FP16에서 최대 4TFLOPs, INT8/4에서 최대 16/32TOPs의 연산을 수행할 수 있다. 최대 TDP (Thermal Design Power. 최대 로드에서 소비되는 에너지 양)는 2~6W이다. 몇 가지 특징은:
FP16과 INT8/4/2 함께 지원
mixed precision. FP16은 소수점까지 다룰 수 있는 연산이고, INT8/4/2는 정수형 연산이다. 이를 동시에 지원하는 국내 팹리스는 아직 동사밖에 없다.
학습을 갓 마친 모델은 소수점 연산으로 작동되나, 양자화 (quantization)를 통해 FP16 → INT8/4/2로 변환할 수 있다. 이를 통해 모델 크기 축소, 연산량 감소, 효율적인 하드웨어 활용을 도모할 수 있으나 성능에 부정적 영향을 준다.
작은 성능 감소라 체감이 크지 않을 수 있으나, Google이 AI 하드웨어 가속기를 개발하며 작성한 TPUv4i 논문에 의하면, 성능이 높아질수록 1%의 하락이 더 크게 체감되기에 TPUv1 이후로는 FP 연산을 할 수 있도록 설계했다고 말한다. 이렇듯 mixed precision 설계를 갖추고 있는 것은 장점으로 작용할 것이다.
커스텀 ISA
Instruction Set Architecture. HW와 SW 사이의 인터페이스. 이로 칩이 어떻게 작동하는지 결정된다.
다양한 딥러닝 알고리즘 지원: CNN, LSTM, BERT
CNN은 이미지, LSTM은 시계열 데이터, BERT는 자연어에 쓰이는 딥러닝 모델이다. 서로 다른 딥러닝 알고리즘은 각각의 특징을 가지고 있기에, 한 가지에만 특화하는 것이 HW를 설계하기 더 쉽다. 그러나 범용성이 떨어져 새로운 모델이 등장했을 때 문제가 발생하는데, 동사의 칩은 비교적 넓은 범위의 모델을 구동할 수 있는 것으로 보인다.
성능 면에서 동사가 강조한 부분은 다음과 같다:
전성비 (TOPS/Watt)
FP16 기반 금융 알고리즘: >2.0 TFLOPS/Watt6
FP16 기반 컴퓨터 비전 알고리즘: >2.0 TFLOPS/Watt
INT8 기반 자연어 알고리즘: >10 TOPS/Watt
ULL 서버 구축 가능
ION 4개를 합쳐 LightTrader 카드를 구성할 수 있다. 성능은 64TOPS, 20W, 50K Symbols/s.
LightTrader 카드 8장으로 서버를 구성하면 512TOPS, 300W, 400K Symbol/s의 성능을 낼 수 있다.7
이를 통해 환기할 수 있는 중요한 사실은, ION이 연산을 처리할 수 있는 하나의 단위 (compute granule)라는 것이다. 즉, ION은 1개로도 구동이 가능하지만, 여러 개 붙이면, 더 많은 연산을 처리할 수 있게 된다.
작은 컴퓨팅 조각을 붙이고 떼며 유연성을 확보하는 것이 동사의 설계 철학이며, ATOM과 차기작 REBEL을 다루며 그 사실이 더 명확해진다.
ATOM
ION은 퀀트를 전문적으로 다루는 월스트리트의 거대 금융 기업들만 관심을 가지는 니시(niche)한 제품이다. 반면 ATOM은 추론향 AI 하드웨어 시장에 도전한 야심작이다.
처음엔 빅테크 공룡들이 즐비한 AI 하드웨어 가속기 시장에 도전하는 것에 두려움이 있었다고 한다. 그러나 국내 2위 데이터 센터 업체인 KT와 협력 관계가 가시화되고, 회사의 비전이 커지며 (“삼성으로부터 바톤을 받는 반도체 회사 되겠다”) 큰 시장에 도전하고 있다. 최근 KT 데이터 센터에 탑재된 ATOM이 동사를 뜨거운 감자로 만들어 준, 바로 그 칩이다.
ATOM의 스펙을 살펴보자. ATOM은 삼성파운드리 5nm EUV 공정으로 제작되었다 (삼성이 먼저 찾아왔다는 이야기). FP16에서 32TFLOPs, INT8/4에서 128/256TOPS의 성능을 보여주며, 64MB의 SRAM과 16GB의 GDDR6 (256GB/s) DRAM을 탑재했다. PCIe Gen5 (64GB/s)로 서버에 탑재되며, TDP는 60~150W이다.
the memory wall
ION과 다르게 메모리가 스펙에 추가된 것을 알 수 있다. 이는 칩의 목적성이 AI에 집중되었기에 자연스러운 일이다. 추론을 가속하기 위해서는 연산뿐 아니라, 모델의 파라미터를 가속기에 전달하는 (input/ouput 이하 I/O) 것이 필수적이기 때문이다. 메모리와 관련된 이야기는 앞으로 다룰 내용을 이해하는 데 필수적이기에 짚고 넘어가고자 한다.
딥러닝 모델을 함수로 표현하면, 추론은 함수의 모양과 특징을 저장해 두고, 새로운 X 값이 주어지면 함수를 저장한 곳에서 불러와 연산을 진행하고 Y 값을 출력하는 것이다.
컴퓨터에서 저장과 불러오기를 담당하는 것은 메모리이다. 메모리에서 값을 임시 저장하고 프로세서에 전달한다. 따라서 대용량의 연산을 할 때 I/O를 담당하는 메모리의 대역폭이 중요하다. 아래 그림에서는 메모리를 창고 (왼쪽), 프로세서를 공장 (오른쪽)으로 표현한다. 창고와 공장 사이를 효율적으로 잇는 것이 중요함은 자명해 보인다.
최근 딥러닝 모델의 일종인 트랜스포머 모델이 급부상하며 메모리의 대역폭과 속도가 더더욱 중요해지고 있다.
현재 가장 많은 추론향 수요는 ChatGPT, 네이버 클로바와 같은 거대 언어 모델(LLM)에서 발생한다. 이 모델들은 모두 decoder-only 트랜스포머로, 인풋을 기반으로 단어(토큰)가 생성되면, 이를 인풋 끝단에 연결하고(append), 다시 모델을 돌려 다음 단어를 생성하는 과정을 반복하며 작동한다.
이 프로세스를 실행하기 위해서는 모델의 모든 파라미터를 매번 메모리에서 읽어올 수밖에 없다. 함수로 설명하면, X1를 넣어 Y1을 얻었는데, Y2를 얻기 위해 필요한 X2에 Y1이 포함된 구조이다. Y1000까지 얻기 위해서는 건너뛰기 없이 함수를 1000번 불러와야 할 것이고, 이는 매번 메모리를 엑세스한다는 의미이다.
그런 이유에서 트랜스포머를 구동시킬 때 가장 큰 병목은 메모리의 대역폭이다. 아래 figure에서 세모로 표시된, tensor contration은 행렬곱 연산으로, FLOPs (연산량)의 99%를 차지하지만, 런타임(작동 시간)의 60% 가량만 차지한다. 반대로, 메모리에서 값을 읽어와야 진행할 수 있는 정규화 (normalization)와 내적 (element-wise)은 연산량을 미미하게 차지하지만, 런타임의 40%나 차지한다.
연산을 빨리 해도, 느린 메모리 I/O 때문에 큰 지연이 발생하고 있다.
거기다 언어 모델의 크기는 나날이 커지고 있다. GPT-3는 175B의 파라미터로 구성되었고, GPT-4는 1.8T 파라미터로 추정되며, 약 10배가 커졌다. 물론 OpenAI의 Sam Altman이 더 이상 모델 사이즈가 중요하지 않다는 의미심장한 말을 남겼지만, 앞으로 등장할 언어 모델은 적어도 1T개의 파라미터를 가질 것으로 예상된다.
이가 언어 모델에만 적용되는 이야기는 아니다. 스탠포드 State of AI 2023 리포트를 살피면, 분야 전반에 걸쳐 파라미터 수가 로그 스케일로 커지고 있음을 확인할 수 있다.
1T 파라미터의 LLM을 기준으로 메모리 요구사항을 살펴보면, 1T 개의 FP16는 총 2TB의 용량을 가지기에, 구동에 엄청난 양의 메모리와 대역폭이 필요하다.
이를 해결하고자 HBM (High Bandwidth Memory, 고대역폭 DRAM)이 각광받고 있다. 기존 DDR 메모리보다 큰 대역폭을 지니고 있기에, 지금까지 설명한 문제를 해소할 수 있다.
물론 메모리만 많다고 해서 모든 문제가 해결되는 것은 아니다. HBM 용량과 성능이 비례하면 좋겠지만, 칩과 메모리 사이의 통신뿐 아니라 칩 내부에서도 효과적인 통신이 필요하다. 이가 하드웨어 설계 역량을 그대로 보여주는 것이고, 값비싼 메모리를 쓰지 않고서도 연산 시간을 효과적으로 줄일 수 있기에 중요하다.8
컴파일러를 통해 이런 병목을 해결하는 방법도 존재한다. 이는 아래 컴파일러 섹션에서 자세히 다룬다.
다시 돌아와서 몇 가지 특징을 살펴보자.
ION 코어 기반의 설계
앞서 언급한 ION을 컴퓨팅 단위로 활용한 설계이다.
ION을 여러 개 붙이며 생기는 성능 저하는 NoC(network on chip, 칩 내부의 코어간 소통)를 통하여 완화했다. NoC는 박성현 대표가 박사 학위를 받은 분야이다.9
고속 I/O
GDDR6 (not HBM), PCIe Gen5. 다른 폼팩터로 출시되지는 않았다. 이 설계에는 세미파이브의 SoC 플랫폼이 도움을 주었다.10
멀티 인스턴스
하나의 NPU를 여러 개로 나누어서 사용할 수 있다 (최대 16개로 쪼갤 수 있음).11
전성비
비전모델 (ResNet-50): 16 Inference/sec/Watt12
언어모델 (BERT-Large): >3 Inference/sec/Watt
성능
MLPerf v3.0, Inference - Edge (Single Stream | Multi Stream | Offline)
비전 모델 (ResNet-50): 0.23ms | 0.43ms | 36427.9 samples/s
언어 모델 (BERT-Large): 4.3ms | N/A | 233.04 samples/s
MLPerf는 인공지능 반도체의 성능을 객관적으로 평가하기 위해 전 세계 기업과 연구 기관이 함께 만든 벤치마크이다. 2023년 4월 공개된 v3.0 결과에서 ATOM이 좋은 성능을 기록하며, 언론의 주목을 받았다.
트랜스포머 모델인 BERT에서의 성능에 주목해 보자. Single Stream(좌측)에서 동사의 ATOM은 Qualcomm의 Cloud AI 100 PCIe을 크게 앞섰지만, NVIDIA의 L4에는 못 미치는 성능을 보여주었다 (낮을수록 좋은 숫자).
MLPerf 지표 (용어, 의미)에 대해서는 아래 competition 섹션에서 더 자세히 다룰 것이다. 아직까지는, NVIDIA IS KING.
rebel
2024년 출시될 칩으로, NVIDIA가 H100으로 장악하고 있는 250W급 AI 반도체 시장을 정조준하고 있다.
박성현 대표의 업데이트에 의하면, rebel에서 H100 이상의 메모리 대역폭을 확보하고, 더 크고 빠르게 흘러들어오는 데이터를 처리하기 위한 칩 내부 대역폭을 확보하기 위해 노력 중이라고 한다.
최근, 동사와 삼성전자가 협업하여 본 칩을 개발한다고 발표되었다: 삼성의 HBM3E 메모리와 4nm 공정이 쓰일 예정이다.
fe/be compiler
동사의 링크드인 소개는 “AI 반도체와 컴파일러를 설계하는 대한민국 스타트업입니다”이다. 그만큼, 동사에 대해 다룰 때 하드웨어만 다룬다면, 반쪽짜리 그림만 보는 것이다.
컴파일러는 하나의 개발 언어 (일반적으로 high-level, 인간이 쉽게 작성할 수 있음)를 다른 언어로 (일반적으로 low-level, 0과 1로 된 기계어) 번역하는 소프트웨어이다.
컴파일러가 없거나 버그투성이라면, 직접 ISA를 다루어야 하고 (커널 코딩), 개발에 필요한 노력과 시간이 기하급수적으로 늘어난다. 그렇기에 편리하게 이용할 수 있는 bug-free 컴파일러를 고객사에게 전달하는 것은 선택 아닌 필수이다.
딥러닝 컴파일러를 제작하는 것은 매우 복잡한 일이다 (위 figure 참고). 잠시 기술적인 이야기를 해보자.
컴파일러는 프런트엔드와 백엔드로 구성된다. 먼저 프런트엔드부터 살펴보자. 유저들이 다양한 라이브러리를 활용하여 딥러닝 모델을 제작하기에 (e.g. 텐서플로우, 파이토치 등) 이를 적절하게 그래프 IR (Graph Intermediate Representation, 그래프 형식의 중간 표현)으로 변환해야 한다. 여기서 IR 그래프를 적절히 최적화 시킨 후 컴파일러 백엔드로 넘긴다. 아래 언급할 연산자 융합 테크닉도 이 과정에 포함되어 있다.
컴파일러 백엔드에서는 HW에 특화된 최적화 및 스케줄링이 일어난다. 그 결과 연산자 IR (Operator Intermediate Representation, 연산자 형식의 중간 표현, 더 기계어에 가까워졌기에 Low-level IR이라 부르기도 함)이 탄생하고, 그를 기반으로 HW에 전달할 수 있는 코드가 생성된다.
요약하면:
모델 → 그래프 IR → 그래프 최적화 → HW 특화 최적화 및 스케줄링 → 연산자 IR → 컴파일 → 코드 → HW
버그 없는 컴파일러를 제공하는 것 다음으로 중요한 것은 바로 컴파일러의 성능이다. 컴파일러가 최적화를 엉망으로 한다면, 좋은 프로세서를 갖추었다고 해도 그 컴퓨팅 파워를 적절하게 활용할 수 없다. 또한, 컴파일러를 통해 메모리 대역폭 문제를 일부 해결할 수 있다.
별도의 조정이 없으면, 하나의 연산을 할 때마다 그 결과를 메모리에 보냈다가 돌려받아야 한다. 결과적으로 매번 병목에 시달리게 된다. 이를 해결하기 위해 여러 연산자를 하나로 합치는, 연산자 융합 (operator fusion)이라는 테크닉이 발전했다. 상단 그림에서 3개의 연산을 하나로 융합함으로써 3번의 왕복을 1번으로 줄인 것을 확인할 수 있다.
이렇게 연산자를 합치다 보니, 연산자의 숫자가 크게 불어났다 (아래는 연구자들이 가장 많이 사용하는 PyTorch 라이브러리의 연산자 구분).
이 과정에서 NVIDIA와 CUDA SW 스택은 디폴트로 쓰였다. 자연스레, NVIDIA GPU와 호환되게 커널 코드가 작성되었고, 이가 NVIDIA의 강력한 SW 해자의 근원지 중 하나이다.
간단하게 살펴보았지만, 컴파일러를 “잘” (특히 NVIDIA보다 더 잘) 만드는 건 어려워 보인다. 그렇기에 NPU 회사들은 NVIDIA의 완벽에 가까운 SW 스택에 경쟁하기 위해 협력하고 있다. 그 결과물이 Apache TVM이라는 오픈 소스 컴파일러이다. TVM은 오픈 소스 컴파일러 중 GPU에서 가장 높은 성능을 보여준다.13 그러나 NVIDIA의 CUDA 기반 컴파일러 NVCC에 비해 범용적인 use-case에서 좋은 성능을 보여주지 못한다.
백지에서 컴파일러를 개발하는 것은 불가능에 가깝기에, 동사는 TVM에 기반하여 자체 컴파일러를 개발하고 있다.
TVM과 동일하게, 다양한 ML 프레임워크와 호환되고, 앞단에 파이썬 플러그인으로 양자화와 그래프 수정을 제공한다. 이후 컴파일러를 거쳐, 런타임 드라이버로 전달되어 동사의 하드웨어로 전달된다. 클라우드 환경에 발맞추어 가상화 하드웨어 및 소프트웨어를 제공하는 것도 특징 중 하나이다.
RBLN SDK (컴파일러, 런타임, 드라이버)의 성능과 완성도를 평가하는 것은 외부자 입장에서 불가능하다. 그러나 이 도구들이 1) 추론의 성능과 2) 개발의 난이도를 크게 좌우하기에, 동사의 경쟁력을 결정하는 큰 요소가 될 것이다.
이에 발맞추어 동사에는 HW 엔지니어 못지않게 많은 SW 엔지니어가 재직 중이다. 링크드인 공개 프로필 중 ~50%가 SW 엔지니어이고, 부문 파트장은 Broadcom (글로벌 탑 팹리스 중 하나) 시니어 출신이다. 걱정되는 부분은 한국에 컴파일러 및 SDK 등의 SW를 개발해 본 인력이 많지 않다는 것이다. SW 엔지니어들이 학사 출신이거나, 타 부문에서 넘어온 경우가 식별되어, 국외 팹리스에 비해 약점이 있을 것으로 보인다. 동사는 이에 대응하고자 컴파일러 인재를 영입하기 위해 학계에 러브콜을 보내고 있다.
market
customer
ION은 앞서 언급한 것과 같이, 인공지능 퀀트 트레이딩을 하는 금융회사들이 타겟 고객층임이 명확하다.
ATOM은 데이터 센터를 타겟하는 제품으로 보인다. ATOM 제품 설명서의 일부를 발췌했다:
ATOM utilizes the silicon-proven neural core, ION, as a compute granule that scales up with perfect linearity for largescale inference operations required in edge computers and datacenters.
엣지 컴퓨터와 데이터 센터를 염두에 두고 제작하였다면, 둘 중 어떤 곳이 더 큰 고객이 될까? 이에 대해 답하기 위해서 앞서 다룬 메모리 문제로 돌아가 보자.
최근 수요가 폭발하고 있는 LLM의 경우, 파라미터 숫자 때문에 메모리가 적어도 수십 GB 필요하다 언급했다. 그러나 우리가 사용하는 랩탑만 해도, 많아야 메모리가 16GB이다. 핸드폰으로 내려가면, 4GB까지 메모리가 떨어지기 마련이다. 그 뜻은, 작은 엣지 디바이스에서 LLM을 돌리는 건 불가능하다는 뜻이다.
그보다 큰 문제는 엣지 디바이스의 타이트한 에너지 제약이다. 소비자들이 흔히 구입하는 엣지 디바이스 (e.g. 컴퓨터, 핸드폰, 스마트가전)는 가용 전력에 타이트한 한계가 있다. 아무리 ATOM의 전성비가 양호해도, 일반적인 엣지 디바이스에서 감당할 수 없다.
모바일 AP 제작사들이 이미 SoC로 NPU를 제작하고 있다는 사실도 상기할 필요가 있다. 우리 핸드폰 속에도 이미 작은 규모의 NPU가 존재한다 (애플 bionic A16에는 16코어, 17TOPs의 성능을 내는 NPU가 탑재되어 있다). 작은 인공지능 모델의 구동은 이미 모바일 AP 내에서 해결하고 있다. 이 시장에 동사가 뛰어드는 건 쉽지 않아 보인다.
위와 같은 이유로 동사가 집중해야 할 시장은 데이터 센터로 보인다.
엣지 디바이스에서 돌리기 어려운 큰 워크로드는 자연스럽게 클라우드, 즉 데이터 센터로 전해진다. OpenAI ChatGPT, 구글 Bard와 같은 파운데이션 모델 (foundation model)을 사용하는 엔드 유저가 폭발적으로 늘어나며, 데이터 센터 업체들은 AI 하드웨어 가속기 구매에 열을 올리고 있다.
데이터 센터 중에서도 큰 규모의 고객사를 타겟하는 것이 현실적으로 보인다. 그 이유는 동사의 칩은 기본적으로 ASIC, 즉 주문 제작 반도체라는 것이다. NVIDIA와 같은 범용성을 갖추며 동일 성능을 뽑아내는 것은 불가능하다. 그렇기에 고객사에 최대한 맞추어 칩과 SW를 구성해야 NVIDIA의 아성에 맞설 수 있다.
애플(Apple Silicon)과 테슬라(Dojo, FSD)를 보면, 기업의 상황에 알맞은 반도체를 설계하며 거대한 해자를 구축한다. 애플은 iOS, 테슬라는 테슬라 소프트웨어라는 자체 OS를 가지고 있기에 더 큰 효과를 얻을 수 있다.
데이터 센터용 칩의 경우, 각 데이터 센터가 서비스하는 모델에 특화될 것으로 보인다. 예로 Azure가 GPT용 추론 칩을 디자인한다면, 동사보다 우위를 가질 수밖에 없다. OpenAI와 Microsoft는 전략적 협력관계를 맺어 서로를 위해 SW와 HW를 조정하여 성능을 끌어올릴 수 있기 때문이다. 이가 바로 SW-HW codesign의 개념이다.
이런 커스터마이징 작업에는 시간과 인력이 대거 투입된다. 고객사에서 사용하는 AI 모델과 워크로드에 대한 이해도가 필요하고, 그에 맞추어 HW/SW를 수정하는 데 수개월은 필요하다. 시간이 지나면서 더 높은 성능의 HW로 교체할 소요도 존재한다. 즉, 작은 규모의 계약에 이런 서비스를 제공하는 것은 마진이 나오지 않는다.
그렇기에 가성비와 전성비를 무기 삼아 대규모 계약을 체결하고 커스텀 서비스를 제공해야 한다. 그뿐 아니라, KT와 동사의 관계와 같이 고객사-제공자 관계를 뛰어넘은 파트너십을 맺어야 할 것으로 보인다.
market size
가트너에 의하면, 2022년 AI 반도체 시장은 58조 규모이고, 2027년까지 110조 규모까지 커질 것으로 전망된다.
추론과 학습, 엣지와 데이터 센터에서 AI 반도체 시장은 어떨까?
맥킨지에서 공개한 자료에 의하면, 데이터 센터 시장이 엣지 시장보다 클 것이고, 추론이 학습보다 더 큰 시장이 될 것이다. 앞서 언급한 것과 같이 엣지에서 구동할 수 있는 AI 모델에 한계가 존재하고, 학습은 연구자 중심, 그에 비해 추론은 대중에게 열려있기에, 이런 추정은 자연스럽게 느껴진다.
그러나 AI는 이제 시작이고, ChatGPT와 같은 LLM은 아직 물리적 세계에 영향을 주지 못하고 있다. AI가 SW를 넘어 물리적 세계에 침투하기 시작하는 시점, 추론 시장은 2차 폭발기를 맞을 것이다.
다가오는 파도로는 자율주행과 로봇이 대표적이다. 자율주행은 10년 동안 연간 30% 이상의 성장률을 기록하며 $2T 이상의 시장이 될 것으로 추정되며, 로봇 시장 역시 $1T에 가까운 크기가 될 것이다. 두 파도의 연료는 AI가 될 것이며, 이를 구동하기 위해 필요한 추론향 AI 반도체에 폭발적 수요가 예상된다.
동사가 타겟하는 TAM은 글로벌 AI 추론 하드웨어 시장일 것이고, SAM은 그 중 데이터 센터에 탑재하는 칩, SOM은 KT와의 협업으로 공략하고 있는 국내 AI 추론 데이터 센터 시장으로 보인다.
business model
동사의 비즈니스 모델은 반도체를 데이터 센터나 금융기업에 판매하는 것이다.
ION의 계약 체결 소식은 없고, AI 하드웨어의 중요성이 급부상하며, 동사의 주 매출은 추론향 AI 하드웨어 가속기 (ATOM, 차후 REBEL)에서 발생할 것이다.
2023년에는 KT와 협업을 통해 실질적인 칩 공급을 시작했고, 빠르게 글로벌 시장에 뛰어들어 고객사 확장 및 스케일업을 추진할 계획이다.
동사의 GTM은 다음과 같다.
customizing
앞서 동사가 규모의 경제를 이루기 위해서 대형 고객에게 커스텀 칩을 제공해야 한다고 언급했다.
물론, NVIDIA도 손 놓고 있지 않다. 그들은 압도적인 SW / HW stack에 더하여 use-case에 알맞은 라이센스 SW를 번들링하여 판매하고 있다. 이는 오픈소스에 비해서 확실한 강점을 가지고 있으나, NVIDIA의 규모에서 모든 고객사에 완벽한 맞춤 서비스를 제공할 수 없다. 적은 수의 고객사를 지니고 있는 동사가 대기업에 비해 커스터마이징에 강점을 가져갈 수 있다.
모순은 고객과 좋은 관계를 맺고 커스터마이닝에 힘을 쏟는 것이 필수적 GTM 전략이지만, 장기적으로는 외주업체로 전락할 수 있다는 것이다. 이를 타파하기 위해서는 중용을 택할 필요가 있다. 큰 계약을 따내며 얻은 자본을 공격적 CAPEX 지출과 R&D 투자에 사용해 기술 해자를 쌓고, 오퍼레이션 역량은 고객사 만족에 집중하는 이중전략이 필요하다.
NVIDIA의 마진율은 66%로, 애플과 유사한 수준이다. 물론 R&D에 연간 $7B 이상 투자하며 1등 자리를 굳히고 있으나, 혁신보다는 수익에 집중하고 있는 단계에 있다. NVIDIA가 돈 잔치를 벌이는 동안, 단기적으로 적자를 보더라도 기술개발에 투자하여 fast follow, 나아가서는 혁신해야만 한다.
(real) performance
데이터 센터 업체들은 칩을 구입했을 때 자사에 얼마나 큰 효용을 제공해 줄 수 있는지에 대해서만 궁금하다. 즉, 벤치마크 성능보다 실제 상황에서 얼마나 효과적으로 쓰일 수 있는지가 관건이다.
여기서 포인트는, 데이터 센터 업체가 한 종류의 칩만 쓰지 않는다는 것이다. Google Cloud Platform도 자사 TPU와 NVIDIA GPU를 동시에 지원하고 있고, AWS도 마찬가지로 Inferentia와 NVIDIA 칩을 함께 제공한다. KT도 칩 전량을 동사의 것으로 교체한 것이 아니다. 이는 고객의 선택사항에 따라 배정되기도 하고, 내부적 효율을 위해 스위칭 되기도 한다.
동사의 경우 TCO에 민감한 추론향 칩을 만들기에, 충분한 성능과 편의성을 제공한다면, 비용을 줄이고자 하는 대형 고객사의 채택을 받을 수 있다. KT와 정부 NPU Farm에서 쌓은 레퍼런스로 대형 고객사를 설득하고, 커스터마이징을 통해 고객사 내의 파이를 늘려나가는 것이 동사의 계획이다.
이를 위해서 올해(2023년)는 아주 중요한 시기로 보인다. 현재 KT 서버에서 rollout이 진행되고 있고, 이 과정에서 도출된 실질적 데이터 (전략 효율, 성능, 가격 등) 기반으로 세일즈 피치가 진행될 것이다.
fast follower
국내 반도체 기업들은 fast follower 전략으로 폭발적인 성장을 이루었다. 내수와 기술 기반이 없는 상태에서 어떻게 메모리 반도체 1위의 자리까지 올랐을까? 그 대장정을 요약하면: 적은 마진을 기반으로 한 마켓 볼륨 확보, 이를 통한 빠른 노하우 축적 후 혁신이다.
더 좋은 개발자 환경 (SDK)을 제공하고, 브랜드를 강화하고, 규모의 경제를 이루기 위해서는 지금보다 훨씬 많은 계약을 따내야 한다. 해자가 없는 기업에게 가장 쉬운 방법은 가격을 낮추는 것이다: 특히 경쟁자가 폭리를 취하고 있다면.
지금은 상상하기 어렵지만, NVIDIA도 수차례 망할 뻔했다. 부도 위기에 처해 칩을 정식으로 테스트하지 못하고, SW로 시뮬레이션하여 생산했다. 시뮬레이션 기반 설계는 당시 최초로 시도된 기법이었다. 이 때문에 개발자들이 구현한 그래픽 기능 중 일부를 구동하지 못하는 상태로 칩을 출시했다.
젠슨 황 (NVIDIA 창업자)은 살아남기 위해 게임 회사들에 그래픽 기능 중 일부를 뺀 상태로 출시해달라 애원했다. 그들의 칩은 성능이 좋았기에, 많은 게임 회사가 고객을 만족시키기 위해 설득에 따랐다.
이후 NVIDIA는 긴 기간 동안 30% 가량의 마진율을 유지하며 낮은 수익을 올렸으나, 시장을 과점할 수 있었다. 변곡점은 기술 혁신에서 왔다. 그들은 programmable shader라는 개념을 발명하였고, 게임 개발자들에게 이를 활용하여 게임을 만들어 달라 설득했다. NVIDIA의 시장 지배력을 바탕으로, programmable shader는 업계 표준으로 자리 잡았다.
이로써 기존에, CPU에서 수행하던 좌표 변환과 조명 처리가 GPU로 분배되었고, 게임 그래픽의 성능은 전과 비교할 수 없을 정도로 발전했다.
동사가 AI 하드웨어 가속기의 후발주자인 만큼, 목숨을 내놓을 각오를 하고 전장에 뛰어들어야 할 것이다. 지금의 NPU 전쟁은 과거 GPU 전쟁을 보는 듯하기 때문이다. 결국에 승자는 5명 이하로 좁혀질 것이다. 리스크를 내걸지 않는 것이 더 큰 리스크이다: 필사즉생 필생즉사 (必死則生 幸生則死)
마지막 스탭은 C-level의 역량에 달려있다. 계약 규모가 크고, 고객사와의 신뢰가 중요한 만큼 C-level이 직접 딜을 진행할 것이다. 미국에서 오랜 기간 동안 커리어를 쌓아온 박성현 대표, 오진욱 CTO 그리고 글로벌 확장 경험이 있는 루닛 출신 김효은 CPO가 있기에 여타 국내 경영진보다 엣지가 있다고 생각한다.
traction
2020년 9월 창업 후 1달 만에 카카오벤처스가 리딩한 시드 펀딩에서 제품 없이 55억의 투자금을 받으며 화제가 되었다. 1년이 조금 더 지난 2021년 말, 첫 제품 ION을 TSMC 7nm로 테이프-아웃했다. 현재까지 QA를 진행하고 있다만, 아직 계약 건은 없다.
2022년 6월, ION를 기반으로 설계한 ATOM을 삼성파운드리 5nm EUV로 테이프-아웃했다. 이와 동시에 620억 규모의 시리즈A 펀딩을 받았고, 1달 후에 KT에게 300억의 전략적 투자를 받으며 데이터 센터 시장 공략의 파트너를 찾았다. 다음 해 2월, ATOM이 공식 출시되었다.
2023년 4월, MLPerf v3.0 벤치마크를 통해 ATOM의 성능이 공개되었다. 글로벌 경쟁력을 갖추고 있는 성능 지표를 보여줌으로써 동사에 대한 기대감이 증폭되었다.
5월에는 정부가 지원하는 ‘초격차 스타트업 1000+’에 선정되며, 정책 보증과 수출 지원 연계를 받게 되었다. 6월에는 대통령 주관의 반도체 국가전략 회의에 AI 반도체 기업을 대표하여 참석하며, 정부와 협력 관계를 키워가고 있다. 동사는 국산 AI 반도체를 이용하여 구축하는 K-클라우드 사업에도 참여하며, 총 8.9PFLOPs 크기의 서버를 구축할 예정이다.
동시에 KT와의 협력에도 속도가 붙고 있다. 6월, 국내 첫 클라우드 기반 NPU 인프라에 동사의 ATOM이 탑재되어 현재 서비스 중이다. 이로써 최초의 매출이 발생할 것으로 예상된다.
이는 향후 글로벌 세일즈에서 중요한 레퍼런스가 될 것이다. 대규모 데이터 센터에서 ATOM 칩이 1년가량 좋은 퍼포먼스를 냈다면, 구매자 입장에서 안정성과 성능에 대한 의구심이 줄어들 것이다.
24년에는 초거대 AI를 작동시키기 위한 칩 리벨을 삼성전자와 협업해 준비 중이며, KT와 협업을 통해 ATOM을 계량하여 ATOM+를 내놓을 예정이다.
competition
동사는 크게 세 그룹의 경쟁자와 맞붙는다: 1) 기존 팹리스 강자, 2) 데이터 센터 업체, 그리고 3) 스타트업이다.
1) traditional fabless firms
이 그룹에는 NVIDIA, AMD와 Qualcomm이 속한다. NVIDIA는 시장의 지배자이다: 학습과 추론, 모든 면에서 압도적인 성능과 편의성을 제공하고 있다. 이의 기반에는 15+년간 쌓아온 HW 디자인 노하우와 CUDA 환경을 기반으로 한 높은 개발자 경험(DX)이 있다.
제품 라인업의 경우, 데이터 센터에 들어가는 최고 성능 H100 (플레그십, +300W 급), A100 (구형)과 TCO에 집중한 L4 (75W 급)가 대표적이다. 그러나 AI 칩만 생각하면 오산이다. NVIDIA의 설계 역량과 Mellanox와의 M&A를 통하여 데이터 센터에 특화된 Grace CPU와 Bluefield DPU도 만들고 있다. 이에 SW 역량이 더해져 데이터 센터에 필요한 모든 것을 모아 하나의 “solution”으로 대형 엔터프라이즈에 판매하고 있다.
이에는 AI에 집중된 NVIDIA DGX 클라우드 플랫폼이 대표적이며, 타 엔터프라이즈 소프트웨어와 AI를 함께 구동할 수 있는 EGX와 슈퍼 컴퓨터 HGX 또한 라인업에 포함되어있다.
AMD의 경우, MI300 시리즈를 통하여 NVIDIA의 H100 / A100 시리즈를 정조준하고 있다. AMD는 CPU - GPU - memory를 통합 배치한 설계를 채택하여 성능을 끌어올렸다. 기존에는 SDK (드라이버, 컴파일러) 문제 때문에 칩의 성능과 관계없이 활용하기 어려웠으나, 올해 상반기 중 해결된 것으로 보인다. MosiacML에 따르면 MI250 칩(구형)은 모델을 학습시키는데 A100과 유사한 성능을 보여주었다고 한다.
최근 발표에 따르면, MI300 칩 (+500W 급)의 생산을 램프업하고 있다고 한다. 데이터 센터 CPU에서 인텔의 점유율을 유의미하게 깎아내고 있는 레드팀 (AMD)이기에, MI 시리즈를 통한 AI 반도체 도전은 더더욱 의미 있어 보인다.
NVIDIA와 AMD의 경쟁은 학습과 최고 성능 데이터 센터에 맞추어져있다면, Qualcomm은 이와 반대로 엣지컴퓨팅에 초점을 둔 고효율 칩을 만들고 있다. Qualcomm이 모바일 AP 강자이기에 이는 자연스러운 움직임으로 보이며, 동사의 ATOM 칩과 가장 유사한 포지셔닝의 칩이 Qualcomm의 AI 100 (75W 급)이다.
ATOM과 동일 선상에서 벤치마크 성능을 비교하면 어떨까? MLPerf v3.0 Inference: Edge, BERT(자연어 처리)에서 성능을 비교해 보자. NVIDIA는 L4 칩, Qualcomm은 AI 100 PCIe가 동급이다 (75W 급).
당연하게도 Single Stream 성능은 L4가 우위이지만, ATOM이 AI 100 PCIe 보다 좋은 성능을 보여주었다. Offline samples/s의 경우 동사의 칩이 가장 낮은 성능을 보여주었다. 여기까지는 좋은 성과로 보일 수 있다.
동사가 Inference: Datacenter 부문에 샘플을 제출하지 않았다는 점에 주시하자 (Edge 샘플이 유일하다). MLPerf 논문에는 각 테스트 시나리오에 관해 설명이 제공된다.
Single Stream: The single-stream scenario represents one inference-query stream with a query sample size of 1, reflecting the many client applications where responsiveness is critical. An example is offline voice transcription on Google’s Pixel 4 smartphone.
Server: The server scenario represents online applications where query arrival is random and latency is important. Almost every consumer-facing website is a good example, including services such as online translation from Baidu, Google, and Microsoft. For this scenario, queries have one sample each, in accordance with a Poisson distribution.
Offline: The offline scenario represents batch-processing applications where all data is immediately available and latency is unconstrained. An example is identifying the people and locations in a photo album.
동사는 데이터 센터에 칩을 납품하는 것을 목표로 하고 있기에 Inference: Edge, Single Stream에서의 성능보다 Inference: Datacenter, Server에서의 성능이 중요하다. 그러나 동사가 이 부문에 점수를 제출하지 않았기에 데이터 센터 환경에서의 경쟁력에 대해 의문이 남는다.
이렇듯, MLPerf만으로 칩과 칩의 성능을 완벽하게 비교할 수 없다. 테스트 환경에 따라 성능의 차이가 명확하기에, 특정 환경에서 NVIDIA의 레거시 칩을 이겼다고 “엔비디아를 제쳤다”라 말하는 자극적인 기사들에 눈살이 찌푸려지는 것이 사실이다. 타 스타트업은 v3.0 벤치마크에 업로드를 하지 않았기에 직접적인 비교는 불가능하다.
v3.1 벤치마크가 올해 9월 11일에 업로드 되었는데, 동사는 결과를 업로드 하지 않았다. 이번부터 LLM이라는 카테고리가 신설되어 GPT-J 모델에서의 추론 성능도 알 수 있게 되었다. 동사가 추후 MLPerf Server 카테고리, LLM 분야에서 좋은 성과를 얻는다면, 글로벌 경쟁력을 갖추고 있다고 확신할 수 있을 것이다. 그 전까지는: NVIDIA is KING.
2) datacenter firms
현재 데이터 센터 3사: 구글의 Google Cloud Platform, 아마존의 Amazon Web Services, 그리고 마이크로소프트의 Azure은 모두 자체적으로 AI 하드웨어 가속기를 개발 중에 있다.
대표적으로 구글의 TPU (Tensor Processing Unit)은 2013년부터 개발에 착수하여 10여년 넘게 업그레이드하였다. 최초에는 큰 성과를 얻지 못했으나 긴 시간 투자를 한 결과, 구글은 NVIDIA에서 독립적인 AI 컴퓨팅을 할 수 있는 능력을 갖추었다. 대표적으로, 구글의 초거대 AI, PaLM (540M param) 모델이 6144개의 TPUv4 (현재 v5가 최신) 칩을 결합해 학습되었다.
구글의 TPU는 외부에 판매하지 않고 있으나, 구글 클라우드를 통하여 임대해 사용할 수 있다. 구글은 이미 자체적인 시스템을 갖추고 있고, TPUv5 / TPUv5e 칩의 성능 또한 높기에 (MLPerf v3.1 기준, TPUv5e는 NVIDIA L4보다 좋은 Server LLM 퍼포먼스를 보여준다) 동사의 칩을 구매할 일은 없을 것이다.
아마존은 2015년 이스라엘의 AI 팹리스 스타트업, 안나푸르나 랩스를 약 4000억에 인수했다. 이후 Trainium이라는 학습용 칩과 Inferentia라는 추론용 칩을 개발해 왔다. 외부적으로 공개된 내용이 많지는 않으나, Inferentia v1은 4개의 코어와 8GB DRAM, 128TOPS (ATOM과 동일)의 컴퓨팅 파워가 탑재된 칩이다. Inferentia v2는 2개의 코어와 32GB의 HBM, 최대 190TFLOPS의 컴퓨팅 파워를 제공한다. 이는 AWS를 통해 EC2 inf1과 inf2 인스턴스로 고객사에 제공된다.
가장 베일에 싸여있는 것은 마이크로소프트의 Athena 칩이다. 23년 TSMC 5nm로 tape-out을 진행한 것으로 알려진 신상 칩이지만, 2019년부터 개발해 왔다고 한다. 곧 다가올 Ignite 컨퍼런스 (23년 11월)에서 이를 공개하고, 24년 Azure를 통해 고객에게 제공될 계획이라 발표되었다.
구글 TPU의 압도적 성능에 비해 아마존과 마이크로소프트 자체 AI 실리콘의 성능은 알기 힘들다. 구글과 아마존의 학습/추론 칩 분리 전략을 통해 장기적으로 AI 칩 시장이 고성능 고TCO, 저성능 저TCO 칩으로 분리될 것을 예상할 수 있겠다.
3) startups
눈여겨볼 경쟁자는 Sambanova, Tenstorrent, 그리고 Cerebras로 보인다.
sambanova
Sambanova는 가장 많은 펀딩을 받은 AI 팹리스 (over $1B funded) 이며, 기업가치 5조 이상의 평가를 받고 있다. CGRA 기반의 설계(Reconfigurable Data Flow Unit)를 통해 학습과 추론을 모두 담당할 수 있는 칩을 만들었으나, 이를 따로 판매하지 않고 클라우드 솔루션으로만 제공한다.
나아가서, 클라우드 유저들에게 SW suite를 제공함으로써 유저들이 쉽고 빠르게 모델을 학습하고 서빙할 수 있게 돕는다. 이런 방향성은 NVIDIA가 DGX와 함께 SW solution을 제공하는 것과 유사하다.
Sambanova는 칩을 외부에 판매하지 않기에, 별도의 MLPerf 벤치마크 없이 자체 서버에서의 성능만을 공개하고 있다. 현재까지는 연 300억 가량의 매출을 내고 있으나, 대형 고객사를 확보했다는 소식은 딱히 들리지 않고 있다.
tenstorrent
가장 흥미로운 접근을 택한 AI 팹리스 기업이다. 전설적인 반도체 설계자 짐 켈러가 이끄는 스타트업으로, 최근 삼성전자와 현대자동차에 1000억 펀딩을 받으며 $2B의 기업가치를 인정받았다.
RISC-V 라는 새로운 ISA를 기반으로, sparse한 연산이 많아질 것을 염두로 한 설계를 하고 있다. 확연히 타 AI 팹리스와는 다른 행보, 그리고 압도적인 팀을 갖추고 있어 앞으로의 행보가 기대된다. BM은 동사와 유사하나, 이들은 추론과 학습 둘 다 가능한 칩을 만들고 있다는 점에서 차이가 존재한다.
Tenstorrent 역시 대형 고객사와의 계약(매출 30억 이하)이나, MLPerf 벤치마크가 공개된 바 없어, 명확하게 성능을 파악하기 힘들다.
cerebras
거대한 웨이퍼에 대량의 on-chip SRAM (40GB)과 compute unit을 새김으로 초대형 반도체를 만들고 있는 회사이다. $4B에 가까운 valuation을 받고 있으며, AI뿐 아닌, scientific compute에 필요한 병렬 컴퓨팅을 제공하고 있다.
Jasper, GlaxoSmithKline, AstraZeneca 등의 고객사를 확보했다는 점(매출 약 500억)이 인상적이다. Hugging Face로 자사 칩에서 효율적으로 학습 가능한 GPT (Cerebras-GPT)를 공개하며 학습 효율을 과시하고 있다.
특별한 아키텍처를 기반으로 높은 효율을 보여주고 있으나, SRAM 기반의 설계 때문에 GPT-4 급의 모델을 경제적으로 학습할 수 있을지 의문이 존재한다.
이외에도 Graphcore, Groq, Mythic 등이 대량의 펀딩을 받았으나, 앞의 두 회사는 SRAM 기반의 설계에서 오는 문제점, 그리고 후자는 상용화에 난항을 겪고 있다.
한국에서의 경쟁사는 SKT의 spinoff 벤처인 사피온과 네이버 D2SF의 펀딩을 받으며 네이버 클라우드와 협업하는 퓨리오사이다. 양사 모두 500~1000억 펀딩을 받으며 높은 기업가치를 인정받았다.
양사 모두 MLPerf서 좋은 성능을 얻었다고 홍보하고 있으나, 동사와 마찬가지로 톺아보면 기대 이하이다. 퓨리오사는 21년 MLPerf에서 엔비디아를 눌렀다고 주장하고 있으나, 역시 서버 환경이 아닌 Edge: Single Stream 퍼포먼스를 비교한 것이다. 또한 트랜스포머가 아닌, CNN 기반의 모델에서 성능을 비교했기에, 현재 시장 환경에서 유의미한 세일즈 포인트가 될 수 없다.
사피온은 유일하게 Server 환경에서 성능을 업로드하였으나, 마찬가지로 CNN 기반 모델에서 성능만 업로드 하였다. 동사가 유일하게 트랜스포머 모델 성능을 업로드하였기에, 벤치마크 기준으로 상대적 엣지를 지닌다고 할 수 있다.
앞서 언급했듯이 벤치마크 성능만으로 기술력을 평가하기 어렵다. 오히려, 퓨리오사/사피온 양사가 동사에 비해 시장 진입이 느리다는 점이 핵심이다. 동사의 ATOM은 KT 데이터 센터에 탑재된 반면, 창업 7년 차를 맞은 퓨리오사는 아직도 자사 칩을 데이터 센터에 대량으로 공급하지 못했다 (협약 단계가 대부분). 사피온은 작년 (2022년) 스핀오프하였고, 올해 6월 NVIDIA 출신의 CTO를 영입했기에 앞으로가 궁금해진다.
valuation
동사는 총 1120억의 투자유치를 받으며, 3500억 이상의 기업가치를 인정받았다. 현재 (24년 하반기) 시리즈 B 투자 라운드를 진행하고 있다. 신성규 CFO에 의하면, 자본 조달을 통하여 24년 상/하반기에 각각 칩을 1개씩 출시할 계획이라고 한다. ATOM이 KT 데이터 센터에 납품되며, 첫 매출이 발생한 만큼, 얼마나 큰 라운드를 돌 수 있을지 기대감이 있다.
다른 AI 팹리스 스타트업을 살펴보자. 앞서 경쟁사에서 언급된 국외 회사들의 누적 투자, 추정된 기업가치, 그리고 (추정) 연 매출은 다음과 같다.
Sambanova: $1B funded (시리즈D, 2021, 7년차) / $5B valuation (2021) / $25.5M revenue (2021)
Graphcore: $767M funded (시리즈E, 2020, 8년차) / $2.8B valuation (2020) / $6.94M revenue (2021)
Cerebras: $720M funded (시리즈F, 2021, 9년차) / $4B valuation (2021) / $42M revenue (2021)
Groq: $367M funded (시리즈C-II, 2021, 7년차) / $1B valuation (2022) / $4.3M revenue (2021)
Tenstorrent: $334M funded (시리즈 C, 2023, 8년차) / $2B valuation (2023) / $2.7M revenue (2022)
Mythic: $165M funded (Late VC, 2023, 12년차) / $350M valuation (2023) / $4.2M revenue (2022)
국내 회사들의 현황은 다음과 같다.
리벨리온: 1120억 funded (시리즈A-II, 2022, 4년차) / 3500억 가치 (2022) / 매출 없음 (2022)
퓨리오사: 880억 funded (시리즈B, 2021, 7년차) / 8000억 가치 희망, 21년 라운드 때 가치 불명확 (2023) / 3억 매출 (2022)
사피온: 600억 funded (시리즈A, 2023, 2년차) / 5000억 가치 (2023) / 24.7억 매출 (2022)
기술 집약적인 사업인만큼, 매출이 높게 형성되지 않은 상태에서도 전반적인 밸류에이션이 높게 형성되어 있다. 23년 8월 사피온이 5000억 가치에 600억 라운드를 돈 것에 비하면, 동사의 기업가치가 크게 높게 느껴지지 않는 정도이다. Sambanova는 투자로만 1조 이상을 끌어모으며 5조 이상의 기업가치를 인정받고 있으나, 매출은 300억에 미치지 못하며, AI 팹리스가 성숙하기 위해 많은 돈과 시간이 필요함을 보여주고 있다.
AI 팹리스 스타트업들이 VC들과 춤추며 돈 잔치를 벌이고 있는 것처럼 보이는지 모르겠다. 그러나 현실은 냉혹하다. 앞서 어려움을 겪고 있다고 언급했던 Mythic와 Graphcore은 사실상의 사망선고를 받았다.
Mythic은 LUX, Softbank Asia, 그리고 Blackrock에서 약 2000억을 투자받으며 기대를 모았으나, 22년말 자금 부족에 시달리며 대량 해고를 진행했다. 23년, 초기 투자자들로부터 100억 가량의 수혈을 받았으나, 창업 12년차에 100억 매출을 올리지 못하며 고군분투하고 있다. 높은 확률로 파산할 것으로 보인다.
Graphcore은 초기 AI 팹리스 중 가장 많은 이목을 끌었다. Sequioa, 삼성, 그리고 Microsoft로부터 펀딩을 받으며 추후 Azure에 대량의 AI HW를 공급할 수 있을거란 기대감을 모았다. 그러나 Microsoft는 22년, Graphcore에게 칩을 공급받는 계약을 파기했다.
이에는 기대에 미치지 못하는 성능이 역할을 한 것으로 보인다: 21년 기준 그들의 IPU 칩은 최악의 성능을 보여주었고, 22년 발전하긴 했으나 NVIDIA H100에 크게 미치지 못했다. 결과적으로 Sequioa는 이들의 기업 가치를 0원으로 평가절하했다. 이들 역시 대량 해고를 진행했고, 앞으로 어떻게 생존할지 불투명하다.
동사가 국내 AI 팹리스 중에서 가장 설득력 있는 전략과 팀을 갖추고 있기에, 23년 하반기 투자 라운드를 도는데 큰 무리는 없어 보인다. 그러나 세계 최고의 투자자들이 선택한 당대 최고의 AI 팹리스 스타트업들조차 좋지 못한 결말을 맞고 있는 것이 현실이다. 매출을 기반으로 실력을 증명하고, 현금 흐름을 확보하여 외부 수혈에 독립적으로 성장할 수 있는 환경을 만들 필요가 있다.
key opportunities
best of Korea
박성현 대표가 말했듯 동사의 경쟁력은 한국의 반도체 생태계에 근본을 두고 있다. 삼성전자와 SK 하이닉스가 메모리와 낸드플래시 분야의 왕위에 오르고, 삼성 파운드리가 세계 2위 팹의 자리에 이르며, 한국의 반도체 생태계는 세계 탑 5에 안착했다: 미국, 일본, 중국, 대만, 한국을 제외하면 반도체의 설계 → 생산 → 후공정을 자체 진행할 수 있는 인프라를 갖추고 있는 나라는 없다.
IDM 전략이 쇠퇴하면서 삼성의 모바일 AP 분야가 약해지고, 그에 따라 팹리스 역량이 상대적으로 부족하지만, 한국이 반도체 강국으로 도약하는 과정에서 생긴 유산을 무시할 수 없다. 동사는 이런 환경의 가장 큰 도움을 받은 회사 중 하나라고 할 수 있다.
talent pool
동사가 한국 법인으로 시작한 가장 큰 이유는 인재 채용의 용이성으로 추정된다. 한국은 다음과 같은 3가지 특성을 동시에 지니고 있어 특별하다. 첫째, 인재의 수준이 높다: 탑클래스 반도체 기업과 이를 키워낸 기관이 있다. 둘째, 인재의 밀도가 높다. 한국의 지리적 특성 때문에 인재들이 좁은 패킷에 모여있다: 기업은 삼성전자, SK하이닉스, 그리고 학계는 서울대학교, POSTECH, KAIST (SPK).
마지막으로, 최고의 인재들에게 매력적으로 보이는, moonshot 프로젝트를 국내에서 찾기 힘들다. 엔비디아에 맞선다는 비전과 삼성전자의 바통을 받는다는 bold한 주장은 마음속의 불꽃을 피어오르게 할만하다.
물론, 이만으로 팹리스 산업에서 경쟁력이 있을 거라 확신하기 힘들다. 하드웨어 설계는 1명의 천재가 100명의 범인을 이기는 싸움이다. Tenstorrent의 CEO 짐 켈러가 대표적이다. 그는 애플 A 시리즈의 설계를 맡아 독자 실리콘 시대를 열었고, AMD Ryzen을 설계해 Intel에 맞서게 한 장본인이다. Tesla에서 FSD 설계를 맡았고, Intel을 거쳐 Tenstorrent의 대표이사를 맡고 있다.
시스템 반도체 불모지인 한국에서 이에 견줄만한 시니어를 찾기 어렵다. Fast follower를 넘어서 혁신하기 위해서는 설계의 방향성을 이끌어 줄 수 있는 스타 플레이어를 영입하여 그의 인간 자본을 흡수할 필요가 있다.
investment
동사는 국내 AI 팹리스 중 투자금을 가장 많이 유치(1120억)했다. 제품이 없는데 대표들만 보고 55억을 선뜻 투자한 카카오벤처스가 시작을 끊었다. 여기에 KT의 전략적 투자로 국내 탑 데이터 센터 업체와 파트너십을 체결할 수 있었다.
정부의 지원도 느리지만 꾸준히 진행되고 있다. NPU Farm 구축 사업자로 선정되었고, KT와 진행하는 초거대 AI 프로젝트에 대한 지원금도 받게 되었다. 이런 움직임 자체는 긍정적으로 보이나, 지원금의 액수(10억 원 내외)나 프로젝트의 타임라인(2030년)이 세계적인 기준에 미치지 못한다. 팹리스가 한국 반도체 산업에 비어있는 퍼즐 한 조각인 만큼, 정부에서 더 강력한 지원 드라이브를 걸어주었으면 한다.
domestic consumption
위와 같은 민/관 투자는 내수로 이어진다는 점에서 중요하다. KT는 동사의 ATOM칩의 첫 번째 고객이 되었다. AI 모델, NVIDIA의 칩, 모두 지속적으로 업데이트되고 있기에 ATOM 도입 이후에도 지속적 주문 물량이 있을 것이다. 예로 KT의 초거대 AI 모델인 믿음을 서비스하기 위해 ATOM의 업그레이드 버전인 ATOM+를 제작하고 있다. 이외에도 정부가 자체적으로 NPU Farm을 구축하며 칩의 수요자가 되었다.
반도체 산업은 필연히 사이클을 탄다. 예로, 2019년경 크립토 시장이 붕괴하며 채굴 수요가 줄어들자, NVIDIA조차 주가 폭락을 맞았다. AI 추론이 장기적으로 거대한 수요를 몰아올 것은 분명하나, 그 과정에서 업다운은 분명히 존재할 것이다. 다운사이클에서 내수가 받쳐주어야 회사가 살아남을 수 있다.
이와 더불어, KT / 정부와 협업하며 동사의 SW에 대한 대대적인 수정이 이루어지고 있을 것으로 예상된다. 개발자들이 동사의 칩 위에서 AI 모델을 구동시키는 것은 처음이기에, 많은 버그와 애로사항이 나올 수밖에 없다. 외부 고객사라면 계약을 파기했을 수도 있지만, KT와 정부는 단단한 수요처로, 동사가 자리를 잡을 때까지 도울 것이다.
구글 TPU의 경우에도 2013년 개발을 시작한 후, 5번을 넘는 세대교체를 통하여 개발자들의 니즈에 맞추는 과정을 거쳐, 구글의 강력한 자산으로 자리 잡았다. 개발자 경험(DX)을 끌어올리고 회사의 맥락에 알맞은 칩을 설계하는데 구글조차 많은 시간이 들었다. 쉽지 않겠지만, 동사는 NPU 시장의 latecomer인 만큼, 이보다 시간을 압축하여 DX를 끌어올려야 할 것이다.
ecosystem
반도체는 인류가 만들어 낸 모든 것 중 가장 복잡하다고 해도 무방하다. 설계와 제작 모두 담당하는 IDM (Integrated Device Manufacturer)이 맥을 추지 못하는 것도 다 1등이 되는 건 불가능하기 때문이다. 자연스럽게, 반도체 산업에는 수많은 이해관계자와 서플라이 체인이 하나의 생태계로 엮여있다.
한국의 반도체 생태계는 어떨까? 삼성파운드리는 세계 2위를 달리고 있고, TSMC에 더불어 세계에서 유일하게 선단공정에 돌입한 팹이다. 이에 더불어 세미파이브라는 디자인 하우스의 약진이 돋보인다. 제작 플랫폼을 제공하고, 검증된 IP (e.g. 메모리나 PCIe 관련 설계)를 제공함으로 반도체 설계의 난도와 시간을 줄여준다.
동사는 삼성파운드리—세미파이브와의 협업 관계를 구축하여 ATOM을 설계했다. 인상적인 점은 삼성파운드리가 먼저 5nm 공정을 동사에 제시하여 계약을 체결했다는 점이다. 파운드리도 유망 팹리스와 관계를 일찌감치 구축해야 미래 먹거리를 확보할 수 있기에 이런 전략을 펼친 것으로 보인다.
나아가서 차세대 칩 리벨도 삼성전자와 공동 개발할 예정이다. 삼성파운드리의 4nm 공정과 삼성의 HBM3E 메모리를 적용하여 설계한다. 파운드리와 메모리 모두 공급해 줄 수 있는 삼성이라는 파트너를 지닌 것은 동사에 큰 힘이 될 것이다. NVIDIA와 TSMC도 15년 이상 계약을 꾸준히 이어가며 서로 윈윈한 것처럼 동사와 삼성전자의 관계도 기대해 볼 만한다.
큰 그림으로 돌아와, 한국 시장의 특징을 하나 짚고 넘어가고자 한다. 모든 경우에 적용되는 것은 아니지만, 한국 시장이 지닌 양날의 검은 “테마”에 집중한다는 것이다. “핫”해보인다면, 핵심역량이 부족하더라도 뛰어들고, 개인과 기관의 투자가 몰린다. 한국은 기반 산업이 없었던 신생 국가이기에, 생존하기 위해 이런 성향이 생겼다고 생각된다. “따라쟁이”라고 폄하할수도 있겠지만, 이 본능은 한국을 GDP 10위권에 올려놓았다.
한국이 원래부터 반도체/배터리 잘하는 나라였는가? 한국이 원래부터 생물/제약 잘하던 나라였는가? 한국이 원래부터 콘텐츠 잘 만드는 나라였는가? 아니다. 광복을 기준으로 이야기하자면, 대한민국은 100년 전만 해도 없는 나라였다. 불모지에서 한강의 기적을 만들어 낸 건 우연이 아니다: 안되는 것도 어떻게든 되게 만드는 기업가 정신에서 나온 것이다.
동사는 이런 정신을 계승한 2020년대 판 도전이다: 한국 반도체 생태계, 한국 벤처 생태계의 성숙도를 시험하는 대장정이 될 것이다.
positioning
앞서 market에서 동사는 가성비와 전성비(TCO)를 기반으로 추론향 데이터 센터 칩을 판매해야 한다고 언급했다. 기술적인 관점에서 이를 더 깊게 파헤쳐 보자.
NVIDIA GPU는 최초엔 그래픽스를 위해서 설계된 칩이고, 현재에도 AI 추론이라는 테스크 만에 특화되었다고 보기에 어려움이 존재한다. 즉, 추론 외에도 AI 학습, 시뮬레이션 등의 테스크에도 적합한 GPGPU (General Purpose GPU) 이다.
반대로, 대부분의 초기 AI HW 가속기는 특정 테스크에만 특화했다: 행렬곱과 이미지 처리에 많이 쓰이는 convolution이 대표적이다. 그러나, 새로운 AI 모델이 연구되며 기존 모델의 경쟁력이 떨어졌고, 유연성의 중요도가 높아졌다. 이에 따라 CGRA라는 아키텍처가 부상하고, GPGPU에 가까운 유연성을 갖추게 되었으나, 반대로 TCO가 낮아지게 되었다.
동사의 타겟은 TCO (GPU 대비 5배 이상)와 유연성 (다양한 모델 구동 가능) 둘 다 갖출 수 있는 sweet spot이다.
위와 같은 포지셔닝을 추구하는 것은 중요한 기회가 될 수 있을 것이다. 고성능 분야에선 NVIDIA 진영의 약진이 예상된다. 플래그십 LLM의 구동은 그들에게 맡기는 것이 현실적이다.
그러나 연구자들이 플래그십 LLM (현재는 GPT-4)의 성능을 유지하면서 더 적은 파라미터를 사용하는 모델을 개발하고 있다는 것을 잊으면 안 된다. 대표적으로 sparse network (추론 시 모델의 일부만 가동하여 효율 높임)을 이용한 시도들이 나오고 있다. 장기적으로는, 작은 모델로도 높은 성능(SOTA는 아니겠지만)을 얻을 것이다. 이외에도 양자화 등으로 모델 크기를 줄이는 기법도 존재한다.
데이터 센터 업체 입장에서도 하이엔드 LLM보다, 합리적인 가격에 보급형 모델을 제공하는 것이 경제적이다. 따라서, 미래엔 보급형 LLM을 구동할 수 있는 유연성과 동시에 낮은 TCO를 갖춘 칩은 폭발적인 수요를 맞게 될 것이다.
모바일 AP 시장에서도 적합한 포지션을 통해 왕국을 만든 사례를 찾아볼 수 있다. 대만의 모바일 팹리스 MediaTek은 중저가 모바일 칩셋에 특화했다. 그들은 개발도상국에 납품되는 스마트폰 브랜드의 칩 설계를 지배하고 있다. 최초에는 Qualcomm에 한참 미치지 못하는 성능을 가지고 있었으나, 중저가 시장에서 높은 매출을 올리며 공격적인 M&A를 진행하며 몸집과 실력을 키워왔다.
2020년대에 이르러서는 Qualcomm을 모바일 AP 시장점유율에서 제쳤고, 칩셋의 성능을 비교했을 때도 큰 차이가 나지 않게 되었다.
AI 팹리스와 모바일 팹리스 시장의 차이점은 분명하나, MediaTek에서 배울 수 있는 점은 자신만의 확실한 마켓을 구축해야 생존할 수 있다는 것이다. NVIDIA를 성능에서 꺾지 못할 것이라면, TCO가 중요한 고객들을 장악해 시장 지배력을 높여야 할 것이다. 이를 기반으로 공격적 투자를 진행하여 NVIDIA에 견줄만한 실력을 갖춘다면? MediaTek이 보여준 것처럼, 불가능은 없다.
latecomer advantages
동사는 2020년 창업하였고, 덕에 ChatGPT와 LLM 상용화라는 거대한 파도를 창업 초기에 맞이했다. 타 기업들은 이에 대비하지 못했던 반면, 동사는 이를 레버리지 할 수 있는 위치에 있다.
not SRAM based
초창기 AI 칩 설계는 on-chip SRAM 기반인 경우가 많다 (e.g. Graphcore, Groq 등). SRAM은 속도가 빠르기에 DRAM 기반의 NVIDIA GPU에 비해 데이터 운반 속도를 높일 수 있다는 장점이 있다. 그러나 비싸기에 대량 (e.g. 80GB)으로 탑재했을 때는 가격 경쟁력을 갖출 수 없다.
과거에는 AI 모델의 크기가 작았기에, SRAM 기반의 설계를 활용했을 때 NVIDIA 칩에 비해 우위를 가져갈 수 있었다. 그러나 시간이 흐르며 SOTA AI 모델의 크기는 기하급수적으로 커졌고, SRAM만으로 이를 구동할 수 없는 지경에 이르렀다.
기반을 SRAM → DRAM으로 바꾸면, 기존의 설계와 SW를 변경해야 하기에, 큰 비효율이 발생한다. 동사는 시장에 진입할 때부터 DRAM 기반의 설계를 진행함으로써 이 리스크를 피했다.
focused on scalable architecture
앞서 언급한 것과 같이 AI 모델의 크기는 지속적으로 커지고 있다. GPT-4는 1T 이상의 파라미터를 가지고 있고, 차세대 LLM은 더욱 큰 모델을 요구할 가능성이 높다. 물론, 모델 크기가 어느 정도에서 멈출지 (더욱더 늘어날지, 혁신으로 인해 줄어들지) 아무도 알 수 없다.
이에 대비해 동사의 설계는 많은 코어로 구성되며, scalable하다. 하나의 compute concept를 기반으로 이를 여러 개 쌓으면 큰 모델을 탑재할 수 있는 칩이 나오고, 적게 쌓으면 작은 모델을 탑재할 수 있는 칩이 나온다.
어디서 모델 사이즈가 수렴할지 모르지만, 동사는 언제든지 그에 맞추어 칩을 설계할 수 있다.
designed to support language models
동사는 트랜스포머 기반의 언어 모델 대중화 이후에 창업했기에, 이를 염두에 두고 하드웨어를 설계할 수 있었다. 트랜스포머 모델이 언어뿐 아니라, 컴퓨터 비전 분야에서도 강세를 보이며 (e.g. ViT), 해당 모델의 구동 여부가 칩의 성패를 가르는 지경까지 왔다.
그러나 초창기 AI 팹리스 기업들은 구세대 모델인 CNN, RNN에 집중한 설계를 진행해 왔다. MLPerf 벤치마크에서도 이미지 분야의 성능만 공개하는 등 (e.g. 퓨리오사 Warboy), 트랜스포머 모델을 효과적으로 구동하는데 자신감이 없는 모습을 보여줬다.
동사는 앞으로 LLM까지 구동할 수 있는 칩을 설계하는 데 전력을 다하고 있다.
key risks
time is running out
ease of use
DX는 하드웨어 성능만큼이나 중요한 요소이다. 이론상 성능이 좋다고 해도 개발자들이 사용하기 꺼린다면, 애물단지로 전락할 수밖에 없다.
동사의 칩이 NVIDIA GPU에 비해 사용하기 불편하고, 성능 역시 부족한 것이 사실이다. 따라서 수요처의 개발자들은 동사의 칩이 유입되는 것에 반대할 가능성이 높다.
이를 해결하기 위해 SW 역량을 집중적으로 키워야 하는데, 앞서 짚은 것과 같이 동사에 SW 인력의 상당수가 경력 5년 미만이라는 점이 리스크로 보인다. 부족한 SW 역량을 키우기 위해 M&A를 진행하는 방향성도 생각해 봄 직하다.
KT 협력사 (이자 동사의 협력사) 중 AI 하드웨어를 서버에서 효율적으로 구동시키기 위한 인프라를 개발하는 Moreh(모레)라는 회사가 존재한다. 이들과 협력 관계를 넘어, 인수를 진행하는 방향도 고려해 볼 수 있을 것이다.
customers are competitors
동사의 가장 큰 리스크는 글로벌 데이터 센터 업체들이 자체 실리콘을 제작하는데 돌입했다는 것이다. 자본이 많이 소비됨에도 그들이 자체 실리콘에 도전하는 이유는 다음과 같다.
데이터 보안
외부 업체에 최신 AI 모델과 데이터를 공개하지 않아도 된다. AI 모델과 데이터가 기업의 AI 역량의 핵심적인 두 조각인 만큼, 이에 민감할 수밖에 없다. 특히 동사는 빅테크 입장에서 외국의 영세 스타트업이기에, 더욱 신뢰하기 어려울 것이다.
외부 업체 의존성 하락
빅테크는 현재 울며 겨자 먹기로 NVIDIA의 칩을 비싼 값에 구매하고 있다. 심지어 돈을 지불하더라도, 공급이 늦어져 치열한 경쟁에서 밀려나기도 한다.
반면, 구글은 자사 기술로 대형 TPU 클러스터를 구축했다. 이 덕에 높은 효율과 마진율을 유지하면서 LLM을 개발하고 사용자에게 제공하고 있다. 이 때문에 OpenAI와의 LLM 경쟁에서도 장기적인 우위를 가지게 될 것이라는 예측까지 나오고 있다.
이렇듯, 외부 업체에 의존하지 않았을 때의 업사이드를 구글이 몸소 증명하며, 타사도 이를 따라하는 듯하다.
(보다 완벽한) 커스터마이징
자사의 니즈에 완벽하게 커스터마이징한 HW와 SW를 설계할 수 있다. 애플이 이 분야의 대표주자로, 칩부터 OS까지 자체 개발하여, 높은 성능과 UX 두 마리 토끼를 잡았다. 구글의 경우도 단순히 TPU만 설계한 것이 아니라, 기반 인프라까지 완벽하게 커스텀으로 개발하여 효율을 높였다.
Part of Google’s advantage in infrastructure it that they have always designed TPU’s from a system-level perspective. This means the individual chip is important, but how it can be used together in a system in the real world is far more important.
Semianalysis: Google AI Infrastructure Supremacy: Systems Matter More Than Microarchitecture
칩 자체의 성능보다도, 실제로 사용될 때 칩이 함께 구동되는 시스템을 구축하는 것이 데이터 센터 업체 입장에서 가장 중요하다.
이를 외주로 맡기기보다는, 처음부터 자사에 맞춤으로 엔지니어링 하는 것이 현실적으로 보인다.
위와 같은 이유로 데이터 센터용 AI 칩의 영업 난이도는 극상이다. 여기에 더해 위 회사들의 CAPEX는 연간 $10B에 가깝다. 1000억 가량을 펀딩받은 초기 스타트업 정도는 그들에게 무섭지 않다. 만약에 정말 잘하는 팀이 있다면, 인수하면 될 일이다 (e.g. Intel Habanalabs M&A at $2B).
물론, 모든 빅테크가 자체 실리콘에 성공하지는 못할 것이다. 현재까지 자체 실리콘 시도는 많았으나 애플과 구글 (TPU 한정)을 제외하면 성공적인 케이스는 없다 (테슬라는 아직 본격적 도입 전, 삼성은 Exynos 성능이 떨어져 제외). 그만큼 어려운 업이고, 동사는 팹리스에 전념하는 만큼, 작은 확률을 뚫어내야만 한다.
DX의 중요성과 데이터 센터 업체가 자체 칩을 만들고 있다는 점 때문에, 동사에게 남은 시간이 많지 않다는 결론을 내릴 수 있다. 고객사(이자 경쟁자)들이 자체 칩 생태계를 구축하고 개발자들이 이에 익숙해지고 나면, 동사의 칩을 구매할 확률은 급격히 떨어진다. 생태계가 완벽하게 구축된 구글이 동사의 고객사가 될 수 없는 것처럼, 아마존과 마이크로소프트도 그 명단에서 사라질 수 있다.
마이크로소프트와 Graphcore의 계약이 파기된 이유엔 성능 문제도 있겠지만, 마이크로소프트가 자체 실리콘 개발을 통해 얻을 수 있는 이익이 더 크다고 판단한 것이 핵심으로 보인다. 큰 계약을 빠른 시일 내에 따내야 위 리스크를 해소할 수 있을 것이다.
이렇기에, 데이터 센터 업체가 아닌, AI foundation 모델을 만드는 기업들에게 직접적인 세일즈를 하는 방안도 고려해야 한다. Foundation 모델 개발자들은 클라우드 업체들과 협업하여 모델을 개발하고 서빙하고 있으나, 이 과정에서 그들의 마진이 낮아지는 것도 사실이다.
특히 추론의 경우, 지속적인 수요에 따라 서버 비용이 365일 부과되기에 부담감이 높다: OpenAI도 자체 AI 칩을 개발하는 것을 고려하고 있다고 할 정도이다. 메타는 이미 MTIA라는 칩을 자체 개발해 사용하고 있다. LLM을 만들고 서빙하는 것이 이들 사업의 핵심이기에, 규모의 경제를 구축하면서 지속적인 계약을 맺을 수 있을 것이라 기대된다.
no moats
7 powers 프레임워크로 동사를 분석해 보자. 앞서 설명한 내용이 다수기에 짧게 언급한다.
Scale Economies (규모의 경제)
동사는 현재 KT와 정부 NPU Farm에 납품하는 것 외에 체결한 계약이 없다. 개발 비용을 회수하기 위해서 칩의 생애주기 동안 최대한 많이 팔아야 한다. NVIDIA도 마켓 볼륨을 높임으로 GPU 춘추전국 시대에서 생존했다.
2. Network Economies (네트워크 경제)
NVIDIA는 CUDA 생태계 조성을 위해 개발자를 위한 컨퍼런스(GTC)를 매년 개최, 홍보와 지원을 지속하고 있다. 다음은 젠슨황 인터뷰의 일부로, NVIDIA가 어떻게 개발자 생태계를 구축했는지에 대해 설명한다. 생태계가 발전하면, 자연스럽게 다른 개발자들도 끌어들일 수 있다.
So we had to create a compiler team, we have to think about SDKs, we have to think about libraries, we had to reach out to developers and evangelize our architecture and help people realize the benefits of it, and if not, even come close to practically doing it ourselves by creating new libraries that make it easy for them to port their application onto our libraries and get to see the benefits of it. And even to the point of marketing, helping them market this version so that there’d be demand for this software that they do on our platform and on and on and on, to having a GTC so that we have developers conference. All of that stemmed out of this particular experience.
Counter-Positioning (카운터 포지셔닝)
동사가 유사하게 가지고 있는 power로 보인다. 그러나 같은 포지션을 노리는 경쟁사가 많기에 해자라고 보기엔 어렵다.
Switching Costs (전환 비용)
이는 동사에게 불리한 지점으로, NVIDIA 생태계에 익숙한 개발자들을 설득해야 한다.
Branding (브랜드)
역시 동사에게 불리한 지점이다. 데이터 센터 업체 입장에서 동사는 외국의 이름모를 스타트업일 뿐이다.
Cornered Resource (고유 자원)
국내 반도체 생태계에서 오는 자원을 활용할 수 있다는 점이 떠오른다.
Process Power (프로세스 파워)
명시적으로 보이는 프로세스 파워는 없다고 생각된다.
위와 같이, 아직 동사에게 wow 할만한 경쟁력은 없다. 창업 4년 차의 신생 팹리스에게 너무 가혹한 기준일 수도 있으나, 글로벌 무대에서 인정받기 위해서는 더 강력한 해자를 구축해야 한다.
ending thoughts
동사에 대해 공부하며, 반도체 기업을 세운다는 것이, 그리고 위대한 기업을 일구는 것이 얼마나 어려운지 체감할 수 있었다.
NVIDIA의 경우, 1990년대부터 강력한 해자를 쌓아온 회사이고, 수많은 혁신을 통해 살아남았다. 최초로 시뮬레이션 기반의 설계를 채택해 6개월 단위로 칩을 찍어내며 경쟁자들을 제쳤고, 그래픽 카드가 CPU에 흡수되지 않도록 programmable shader라는 개념을 발명하여 게임에 생명을 부여했다.
똑똑하게도 NVIDIA는 GPU라는 명칭을 최초로 사용했고, GeForce와 함께 이는 게이밍과 synonymous한 브랜드가 되었다. 나아가서 GPU를 환경에 관계없이 구동할 수 있게 만들기 위해 backwards compatable 한 드라이버를 최초로 개발하여 무료 공개하였다.
소비자뿐 아니라 개발자를 위해 SDK를 개발하였고, 이는 나아가 CUDA라는 유일무이한 프로그래밍 환경으로 발전했다. NVIDIA의 이야기를 모른다면, 게이밍 GPU 만들다가 운 좋게 잘 된 회사처럼 보일 수 있지만, NVIDIA는 GPU의 아버지, 병렬 연산의 아버지, 컴퓨팅 환경 개발의 아버지이다.
NVIDIA가 주어진 것에 만족하지 않고, 미래를 보고 한발 앞서 움직였기에 세상이 그들에게 찾아온 것이다. 젠슨 황은 이미 다음 페이지를 보고 있다.
삼성전자가 메모리 시장의 latecomer에서 글로벌 리더가 된 이야기도 전설적이다. 기반이 전혀 없는 상태에서 시작했으나, 공격적인 투자와 인재 영입을 통해 R&D 시간을 압축했다.
당시 1, 2위를 다투던 일본 기업들이 “트렌치” 구조를 선택하여 메모리를 쌓을 때 “스택” 구조를 채택하며 큰 베팅을 했다. “스택” 구조는 장기적으로 메모리 확장에 용이했고, “트렌치” 구조를 채택한 일본 기업들은 대부분 몰락했다.
반도체 불황에도 투자액을 늘리는 역발상을 통하여 사이클이 다시 올라왔을 때 손쉽게 생산을 램프업할 수 있었고, 1993년부터 30년 동안 메모리 반도체 점유율 세계 1위 자리를 지키고 있다.
처음과 반대로, NVIDIA는 스타트업이 아닌 거인이다. 동사에게 아직 명확한 해자는 없지만, 리스크를 지며 큰 배팅을 하기엔 가장 적합한 위치에 있음은 분명하다. 동사의 사명은 “Rebellions” 즉, 반란자이다. AI 컴퓨팅 시장에 반항을 일으킬 만한 무언가를 만들 수 있길 바란다.
한국에서 빅테크, Hard Startup도 크게 될 수 있다는 것을 보여주길. 리벨리온을 응원한다!
Written and edited by Doyeob Kim
Special thanks to Junseon Yun, Juhyun Cho, Deokhaeng Lee
More about Pinpoint: click!
이런 문제점을 인식하여 MIT 연구진이 inference 중에도 상황에 따라 다른 값을 내놓을 수 있는 Liquid Neural Network를 개발 중이다. 흥미로운 점은 이가 미분방정식 기반의 모델링을 따르며, 기울기 기반으로 제작되어 기존 뉴럴넷보다 훨씬 적은 연산을 요한다는 것이다. 이 패러다임이 커진다면 얼마나 큰 파급력이 있을지 아무도 알 수 없다.
당시 기준. 현재는 스레드가 기록을 깼다.
CUDA는 2000년대 중반부터 개발되었으며, 특별히 AI를 염두에 두고 시작된 것은 아니다. 그러나 AI의 포텐셜을 알아본 NVIDIA는 AlexNet 등장 때부터 꾸준히 AI에 특화한 CUDA 생태계를 구축해 왔다.
현재 동사에 재직하고 있는지 확인되지 않는다.
23년 9월 링크드인 공개 프로필 기준
와트당 연산량
여기서 Symbols/s는 2018년 발표된 DeepLOB 알고리즘을 벤치마크로 삼아 나온 결과.
해당 섹션 관련해서는 Semianalysis: How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking을 읽어보길 강력 추천한다.
위의 내용과 연결된다. 코어가 여러 개라면, 각 코어에게 할 일을 효율적으로 스케줄링해야 한다. 과거 CPU가 싱글코어, 듀얼코어, 쿼드코어로 커지는 과정이 있었는데, 이 때 박성현 대표가 PhD를 취득했고, 인텔에서 관련 설계를 진행했다. 구체적인 방법론은 알 수 없지만, 그 때의 경험을 살려 설계했을 것이다.
세미파이브 또한 아주 흥미로운 기업으로, 국내 팹리스 → 파운드리 생태계의 주축을 맡을 것으로 보인다. 한국에서 유망한 팹리스가 계속 나오는 이상, 기반 인프라가 될 수 있을 것이다: 과도한 긍정일 수 있지만, Elad Gil이 말하는 index company가 될 수도?
개발자들을 위한 예시: GPU는 한 개지만, nvidia-smi 하면 CUDA:0, 1… 15까지 나오도록 분할하는 것
와트당 1초에 몇 개의 추론을 할 수 있는지. 단순 와트당 연산량보다 현실적인 수치라고 할 수 있다.
물론 2020년 기준의 실험 결과라 현재는 다를 수도 있다. “TVM performs better on GPU across these compilers.”
너무잘봤습니다. 혹시 괜찮으시다면 오프라인으로 뵐수있을까요?
좋은 글 다시 한번 감사합니다.
항상 많은 응원보냅니다:)