⚡ Taalas, 프로그래밍 가능 GPU를 하드와이어드 AI 칩으로 대체 – 초당 17,000 토큰 달성






탈라스, 프로그래밍 가능한 GPU를 하드와이어드 AI 칩으로 대체하다


AI 기술 혁신

탈라스, 프로그래밍 가능한 GPU를 하드와이어드 AI 칩으로 대체하다

초당 17,000토큰 처리 가능한 범용 추론의 시대가 온다

인공지능 인프라의 세계에서 업계는 한 가지 가정 위에서 운영되어 왔다. 바로 유연성이 왕이라는 것이다. 매주 새로운 AI모델이 등장하고 다음 연구 돌파구를 위해 프로그램이 가능한 실리콘이 필요하다고 믿어왔다. 그러나 토론토 기반 스타트업 탈라스는 유연성이 바로 AI를 가로막는 장벽이라고 주장한다. AI를 플라스틱처럼 흔하고 저렴하게 만들려면 범용 컴퓨터에서 지능을 시뮬레이션하는 것을 멈추고 실리콘에 직접 주조해야 한다고 말한다.

문제의 핵심: 메모리 월과 GPU 세금

현재 대규모 언어모델을 운영하는 비용은 물리적 병목현상, 이른바 메모리 월에서 비롯된다. 전통적인 프로세서인 GPU는 명령어 집합 구조 기반으로 설계되어 연산과 메모리가 분리되어 있다. 라마-3 같은 모델에서 추론 패스를 실행할 때 칩은 대부분의 시간과 에너지를 고대역폭 메모리에서 연산 코어로 가중치를 전송하는 데 사용한다. 이 데이터 이동 세금은 최신 AI 데이터센터에서 전력 소비의 거의 90%를 차지한다.

탈라스의 해결책은 과감하다. 메모리 패치 주기를 완전히 없애는 것이다. 독자적인 자동화 설계 흐름을 활용하여 탈라스는 특정 모델의 연산 그래프를 칩의 물리적 레이아웃으로 직접 변환한다. HC1 칩에서 모델의 가중치와 아키텍처는 실리콘의 배선에 새겨져 있다.

하드코어 모델: 초당 17,000토큰

17,000
초당 토큰 처리 (HC1)
150
초당 토큰 처리 (H100)
1,000×
효율성 개선

이 직접 투 실리콘 접근법의 결과는 추론의 성능 한계를 다시 정의한다. 최신 공개 행사에서 탈라스는 HC1이 라마 3.1 8B 모델을 구동하는 모습을 시연했다. 최고 등급의 엔비디아 H100이 한 명의 사용자에게 초당 약 150토큰을 제공할 수 있는 반면, HC1은 엄청난 초당 16,000에서 17,000토큰을 처리한다.

📊 AI의 단위 경제학’

성능 측면에서 단일 HC1 칩은 특정 모델의 원시 처리량 측면에서 소규모 GPU 데이터센터를 능가할 수 있다. 효율성 측면에서 탈라스는 기존 칩 대비 효율성에서 1000배 개선을 주장한다. 전력 당 성능과 달러 당 성능 모두에서 극적인 향상이 가능하다.

인프라 측면에서 가중치가 하드와이어드되어 있어 외부 고대역폭 메모리나 복잡한 수냉식 시스템이 필요 없다. 표준 공기 냉각 랙에 250와트 카드 열 개를 넣을 수 있어 단일 서버 박스 내에서 전체 GPU 클러스터의 성능을 제공한다.

60일 장벽 돌파: 자동화 파운드리

AI 개발자에게 명확한 문제는 유연성이다. 오늘 모델을 칩에 하드와이어드하면 내일 더 좋은 모델이 등장했을 때 무슨 일이 발생할까? 역사적으로 ASIC 설계에는 2년이 걸리고 수천만 달러의 비용이 들었다.

탈라스는 자동화를 통해 이 문제를 해결했다. 모델 가중치를 가져와 약 일주일 만에 칩 설계를 생성하는 컴파일러와 유사한 파운드리 시스템을 구축했다. 실리콘의 상단 금속 마스크만 변경하는 간소화된 제조 워크플로에 집중하여 가중치에서 실리콘까지의 소요 시간을 단 2개월로 단축했다.

🔄 계절적 하드웨어 주기

기업은 봄에 프론티어 모델을 파인 튜닝하고 여름까지 수천 개의 전문화된 고효율 추론 칩을 배치할 수 있다.

시장 전환: 삽에서 도장으로

이 전환은 AI 하이프 사이클의 중대한 순간을 표시한다. GPU가 유연성 때문에 필수적인 연구 및 학습 단계에서 추론 비용이 유일한 지표가 되는 배포 및 추론 단계로 이동하고 있다.

탈라스가 성공한다면 AI 시장은 두 개의 명확한 계층으로 나눠질 것이다.

  • 범용 학습 분야 – 엔비디아와 AMD가 주도하며 새로운 아키텍처를 발견하고 학습하는 데 필요한 대규모 유연한 클러스터를 제공한다.
  • 전문 추론 분야 – 탈라스 같은 파운드리’가 주도하며 입증된 아키텍처를 가져와 스마트폰부터 산업용 센서에 이르기까지 저렴하고 범용적인 실리콘에 인쇄한다.

핵심 요약

🔷 하드와이어드 패러다임 전환

탈라스는 소프트웨어 정의 AI에서 하드웨어 정의 AI로 이동하고 있다. 특정 모델의 가중치와 아키텍처를 실리콘에 직접 굽어 넣는 방식으로 기존 명령어 집합 오버헤드를 효과적으로 제거하여 모델 자체가 프로세서가 된다.

🔷 메모리 월의 종말

기존 AI 하드웨어는 메모리와 연산 간의 데이터 이동에 에너지의 약 90%를 낭비한다. 탈라스의 HC1 칩은 모델 파라미터를 칩의 금속 레이어에 물리적으로 배선하여 고가의 고대역폭 메모리 필요성을 제거함으로써 메모리 월’을 없앤다.

🔷 1000배 효율성 도약

프로그래밍 가능성 세금을 제거함으로써 탈라스는 와트당 성능과 달러당 성능에서 1000배 개선을 주장한다. 실제로 이는 HC1이 라마 3.1 8B 모델에서 초당 17,000토큰에 도달할 수 있음을 의미하며, 표준 GPU 랙보다 훨씬 적은 전력을 사용하면서 크게 성능이 뛰어나다.

🔷 자동화 직접 투 실리콘 파운드리

모델 중복 문제를 해결하기 위해 탈라스는 독자적인 자동화 설계 흐름을 사용한다. 이는 커스텀 AI 칩 생성 시간을 수 년에서 단 몇 주로 단축하여 기업이 계절별로 파인 튜닝된 모델을 실리콘에 인쇄할 수 있게 한다.

🔷 상품화 AI의 미래

이 기술은 클라우드 우선에서 디바이스 네이티브 AI로의 전환을 나타낸다. 추론이 저렴한 하드와이어드 상품이 되면서 AI는 중앙 집중식 서버에서 벗어나 지연 시간이 없고 구독 비용이 없는 스마트폰부터 산업용 센서에 이르기까지 로컬 저전력 하드웨어로 이동할 것이다.

AI 추론의 새로운 시대, 하드와이어드의 시대가 열렸다


댓글 남기기