HBM 다음은 HBF: AI 시대, 낸드의 판이 바뀐다

TSV와 적층 기술이 만드는 ‘낸드의 진화’

Mar 22. 2026

한동안 반도체 시장의 중심은 ‘연산’이었습니다. 특히 HBM(고대역폭 메모리)은 AI 시대의 상징처럼 자리 잡았죠. 그래서, 얼마나 많은 데이터를 학습시키느냐, 얼마나 큰 모델을 만들 수 있느냐가 경쟁력이었습니다. 그러나, AI 산업의 무게중심이 빠르게 이동하고 있습니다. 이제는 얼마나 빠르게 답을 만들어내느냐, 즉 ‘추론(Inference)’ 단계의 성능이 훨씬 중요해지고 있습니다.

이 변화는 자연스럽게 새로운 병목을 드러냅니다. 연산 능력은 이미 충분히 강력해졌지만, 그 연산에 필요한 데이터를 얼마나 빠르게 공급할 수 있는가가 전체 성능을 좌우하기 시작한 것입니다. 추론 단계에서 핵심적으로 사용되는 구조는 두 가지입니다. 하나는 KV 캐시, 다른 하나는 RAG입니다. 이 둘은 공통적으로 하나의 특징을 가집니다. 이미 존재하는 데이터를 계속 불러와야 한다는 점입니다.

KV 캐시는 AI가 문장을 생성하는 과정에서 이전에 등장한 단어와 문맥을 기억하기 위해 사용하는 일종의 ‘작업용 메모’입니다. 다만 이 메모는 단순한 기록이 아니라, 트랜스포머 구조의 핵심인 어텐션(attention) 연산을 빠르게 처리하기 위한 기술적 장치입니다.

조금 풀어서 보면 이렇습니다. AI는 문장을 한 번에 완성하는 것이 아니라, 한 토큰(token)씩 순차적으로 만들어냅니다. 이때 새로운 단어를 생성할 때마다, 이전에 등장한 모든 단어들과의 관계를 계산해야 합니다. 이 과정에서 각 단어는 Key와 Value라는 벡터 형태로 변환되어 저장되는데, 이것이 바로 KV 캐시입니다. 이후 새로운 토큰이 생성될 때마다 이 캐시를 참조하여 문맥을 이해하고 다음 단어를 결정하게 됩니다.

문제는 이 구조가 매우 빠르게 커진다는 점입니다. 문장이 길어질수록 저장해야 할 Key-Value 쌍이 계속 누적되고, 여기에 수천, 수만 명의 사용자가 동시에 AI를 사용하면 각 사용자별 KV 캐시가 별도로 생성됩니다.

이 데이터를 모두 초고속 메모리인 HBM에 유지하면 가장 이상적이지만, 비용과 용량 측면에서 현실적으로 불가능에 가깝습니다. 그렇다고 속도가 느린 저장장치로 내리면, 매번 문맥을 다시 불러오는 과정에서 지연이 발생해 응답 속도가 떨어집니다. 결국 필요한 것은 단순한 저장 공간이 아니라, 빠르게 꺼내 쓸 수 있는 장기 기억입니다.

RAG는 이 요구를 더욱 극단적으로 만듭니다. AI는 더 이상 내부에 학습된 정보만으로 답하지 않고, 외부의 방대한 데이터베이스나 문서에서 필요한 정보를 실시간으로 찾아옵니다. 이 과정은 사실상 “검색 → 읽기 → 생성”의 반복입니다. 여기서 검색 속도가 조금만 느려져도 전체 응답 시간이 눈에 띄게 증가합니다다. 즉, AI의 성능은 모델 자체가 아니라 데이터를 가져오는 속도에 의해 제한되기 시작합니다.

이 지점에서 등장하는 개념이 HBF(High Bandwidth Flash) 입니다. HBF는 단순히 저장 용량을 늘리기 위한 기술이 아니라, HBM에 비해 훨씬 저렴하면서도, 기존 저장장치보다 훨씬 빠른 속도로 데이터를 주고받을 수 있도록 설계된 ‘고속 장기 기억’입니다.

모든 데이터를 비싼 HBM에 올려두는 대신, 지금 계산에 꼭 필요한 데이터는 HBM에 두고, 나머지는 HBF에 저장한 뒤 필요할 때 즉시 불러오는 방식으로 시스템이 재구성됩니다. 즉, 대역폭과 속도 중심의 메모리 구조로의 전환입니다.

삼성전자와 SK하이닉스가 eSSD(기업용 SSD) 시장에서 QLC 기술로 격돌하는 가운데, 차세대 게임 체인저로 부상한 HBF의 의미와 미래 가치를 살펴봅시다.

1. 왜 지금 HBF인가

그동안 낸드플래시(NAND)는 데이터를 오래, 많이 담아두는 '거대한 창고' 역할에 충실했습니다. 하지만 AI 모델이 거대화되면서 단순히 저장 용량만 큰 것은 의미가 없어졌습니다. CPU와 GPU가 데이터를 요청할 때, 창고에서 데이터를 꺼내오는 속도가 너무 느리면 전체 시스템에 병목 현상이 발생하기 때문입니다.

HBF는 이 '창고의 문'을 수십 개로 늘리는 기술입니다. D램을 수직으로 쌓아 속도를 극대화한 HBM처럼, 3D 낸드를 수직으로 쌓고 TSV(실리콘관통전극) 공법으로 연결하여 대역폭(데이터 전송 통로)을 획기적으로 넓히는 것이 핵심입니다. 즉, SSD의 대용량은 유지하면서도 데이터 전송 속도를 HBM 수준으로 끌어올리려는 시도입니다.

낸드플래시는 오랫동안 셀을 위로 쌓는 적층 기술을 중심으로 발전해왔다. 층수를 높일수록 저장 용량은 늘어났지만, 데이터를 외부로 내보내는 경로는 칩 하단의 제한된 접점에 의존하고 있었기 때문에 전송 속도에는 구조적인 한계가 존재했다. 결국 아무리 많이 저장하더라도, 꺼내오는 속도가 따라가지 못하는 병목 현상이 발생할 수밖에 없었다.
이러한 한계를 극복하기 위해 등장한 기술이 TSV다. TSV는 반도체 다이를 얇게 만든 뒤 내부를 관통하는 미세한 구멍을 형성하고, 이를 전도성 물질로 채워 상하층을 직접 연결하는 방식이다. 기존처럼 칩 외부를 따라 연결하는 것이 아니라, 칩 내부를 수직으로 관통해 연결하기 때문에 신호가 이동하는 거리가 크게 줄어들고 지연 시간도 획기적으로 감소한다. 동시에 칩 전반에 걸쳐 수많은 연결 지점을 확보할 수 있어, 한 번에 주고받을 수 있는 데이터 통로의 수 역시 크게 늘어난다.
이러한 구조 변화는 결국 대역폭의 확대로 이어진다. 대역폭은 한 번에 데이터를 주고받을 수 있는 통로의 수와 속도에 의해 결정되는데, TSV를 적용하면 입출력 단자의 수를 대폭 늘릴 수 있어 기존 낸드의 한계를 뛰어넘을 수 있다.
이를 기반으로 한 HBF는 대용량 저장이라는 낸드의 장점을 유지하면서도, 데이터 전송 속도를 크게 향상시켜 초고속 메모리에 가까운 성능을 구현하게 된다. 이 기술은 시스템 구조와 결합되면서 더욱 큰 효과를 발휘한다.
특히 HBF를 GPU와 동일한 인터포저 위에 배치하는 구조에서는, 기존처럼 PCIe와 같은 외부 인터페이스를 거치지 않고 메모리 간 직접 연결이 가능해진다. 여기에 더해 낸드 특유의 지연 시간을 보완하기 위한 버퍼 구조가 함께 적용되면, 실제 연산 장치가 체감하는 데이터 공급 속도는 더욱 빨라진다.
결국 TSV는 낸드플래시를 단순한 저장 장치를 넘어, 연산 과정에 직접 기여하는 고속 메모리로 변화시키는 핵심 기술이라고 할 수 있다. 수직으로 관통하는 다수의 연결 통로를 통해 데이터 병목이 해소되면서, AI가 요구하는 대규모 데이터를 보다 빠르고 효율적으로 처리할 수 있는 기반이 마련되는 것이다.

출처: Hybrid Architecture Using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM

위 그림은 SK 하이닉스의 H³(Hybrid HBM-HBF) 아키텍처입니다. 도면에는 네 가지 핵심 구성요소가 등장하며, 이를 왼쪽에서 오른쪽으로 따라가면 AI가 데이터를 처리하는 흐름을 이해할 수 있습니다.

먼저 HBF(High Bandwidth Flash) NAND 다이(초록색) 는 매우 큰 용량의 데이터를 저장하는 장치로서 ‘장기 기억’의 역할을 합니다. 기존 SSD보다 훨씬 빠른 속도로 동작하며, AI가 참조해야 하는 방대한 데이터, 예를 들어 KV 캐시와 같은 정보를 저장합니다.

그 옆에는 HBM(High Bandwidth Memory) DRAM 다이(파란색) 가 위치하는데, 이는 GPU가 즉시 계산에 활용할 데이터를 올려두는 ‘단기 기억’ 장치입니다. 속도는 가장 빠르지만 비용이 높고 용량이 제한적이기 때문에, 실제 연산에 필요한 데이터만 선택적으로 사용됩니다.

이 두 메모리 사이에서 메모리 컨트롤러(노란색) 는 데이터의 흐름을 관리하는 역할을 수행하며, 각 데이터가 어느 위치로 이동해야 하는지를 결정하는 일종의 ‘교통정리’ 기능을 담당합니다.마지막으로 CPU, GPU 또는 SoC 다이(분홍색) 는 실제 AI 연산을 수행하는 핵심 엔진으로서 전체 시스템의 중심 역할을 합니다.

이 구조의 핵심은 이들 구성요소가 하나의 인터포저 위에 함께 배치되어 있다는 점입니다. 기존에는 GPU와 HBM만 가까이 위치하고, SSD와 같은 플래시 저장장치는 물리적으로 떨어져 있어 PCIe와 같은 비교적 느린 인터페이스를 통해 연결되었습니다.

그러나 해당 설계에서는 인터포저라는 공통 기판 위에 모든 요소를 밀집 배치함으로써, GPU가 HBF에 저장된 대용량 데이터에도 매우 빠르게 접근할 수 있도록 합니다. 또한 HBM과 HBF가 서로 연결된 구조를 통해 데이터가 고속으로 이동할 수 있는 경로가 형성됩니다.

그리고, 과거에는 대규모 AI 모델을 처리하기 위해 많은 수의 GPU가 필요했지만, HBF와 같은 대용량 저장 장치를 GPU 가까이에 배치함으로써 더 적은 수의 GPU로도 동일한 작업을 수행할 수 있게 됩니다. 또한 데이터가 외부 저장장치에서 이동하는 동안 발생하던 대기 시간이 줄어들어 병목 현상이 완화되고, 이로 인해 전체적인 연산 효율이 향상될 뿐만 아니라, GPU 수 감소와 데이터 이동 거리 축소에 따라 에너지 효율 역시 개선됩니다.

결과적으로 이 구조는 고속이지만 비용이 높은 HBM과, 상대적으로 저렴하면서도 대용량을 제공하는 HBF를 GPU 인접 영역에 함께 배치하여 비용 대비 성능을 극대화하기 위한 설계라고 볼 수 있습니다. 특히 읽기 전용 데이터나 사전 계산된 정보를 HBF에 저장해두고 필요할 때마다 빠르게 불러오는 방식은, 향후 AI가 더욱 방대한 데이터를 실시간으로 처리하는 데 중요한 역할을 하게 될 것입니다.

2. SK하이닉스와 삼성의 '넥스트 스텝'

HBF 표준화의 선두주자 SK하이닉스는 솔리다임(구 인텔 낸드부문) 인수를 통해 확보한 QLC 기술력을 바탕으로, 낸드의 HBM 버전인 'HBF' 개발에 가장 공격적입니다. 최근 샌디스크와 컨소시엄을 구성해 글로벌 표준 선점에 나선 것은, HBM에서 거둔 성공 방정식을 낸드에서도 재현하겠다는 전략으로 풀이됩니다. 2027년 시장 진입을 목표로 속도를 내고 있습니다.

QLC는 낸드플래시에서 데이터를 저장하는 방식을 한 단계 더 촘촘하게 만든 기술이다. 기존에는 하나의 셀(Cell)에 1비트(SLC), 2비트(MLC), 3비트(TLC) 순으로 정보를 저장해왔는데, QLC는 여기에 한 단계 더 나아가 하나의 셀에 4비트를 저장한다.
이렇게 되면 같은 면적 안에 더 많은 데이터를 담을 수 있기 때문에, 자연스럽게 저장 용량은 크게 늘어나고 단위 용량당 가격은 낮아진다. 쉽게 말해, 같은 크기의 창고에 더 많은 물건을 쌓을 수 있게 되는 셈이다. 이 점 때문에 QLC는 특히 데이터센터나 기업용 SSD처럼 대용량 저장이 중요한 환경에서 빠르게 확산되고 있다.
다만 기술적으로는 그만큼 난이도가 높다. 하나의 셀에 더 많은 정보를 담을수록, 전압을 더 세밀하게 구분해야 하기 때문에 읽고 쓰는 속도가 느려지고, 데이터 정확도를 유지하기도 어려워진다. 또한 반복 사용에 따른 내구성(수명)도 상대적으로 낮아지는 문제가 있다.
이러한 한계를 보완하기 위해 컨트롤러 기술, 오류 보정(ECC), 캐싱 구조 등이 함께 발전해 왔고, 그 결과 QLC는 과거의 단점을 상당 부분 극복하며 실사용 가능한 수준으로 자리 잡았다.
결국 QLC는 속도와 안정성 일부를 희생하는 대신, 압도적인 용량과 가격 경쟁력을 확보한 기술로 볼 수 있다. 그래서 AI 시대처럼 데이터 양이 폭증하는 환경에서는, 고성능 메모리(HBM 등)와 함께 데이터를 대량으로 저장하고 공급하는 중요한 역할을 맡게 된다.

삼성전자는 지금 반도체 시장에서 두 가지 전략을 동시에 가져가고 있습니다. 한쪽에서는 이미 검증된 기술로 안정적인 돈을 벌고, 다른 한쪽에서는 차세대 기술로 미래 시장을 선점하려는 움직임입니다.

삼성은 9세대 V낸드 전환을 통해 더 많은 데이터를 더 효율적으로 생산할 수 있는 기반을 갖추고 있습니다. 9세대 V낸드는 업계 최소 크기의 셀을 290단 이상의 초고층으로 쌓아 올린 기술의 집약체입니다. 단순히 '많이 저장하는 것'을 넘어, HBF 아키텍처와 결합했을 때 AI가 요구하는 초대용량 데이터를 가장 효율적으로 공급할 수 있는 현존 최강의 '지식 창고'라고 정의할 수 있습니다.

여기에 TLC와 QLC 기반의 기업용 SSD(eSSD)를 활용해 당장의 수익을 안정적으로 확보하고 있습니다. 동시에 속도 경쟁에서도 밀리지 않기 위해 PCIe 6.0 기반의 초고속 인터페이스를 적용한 스토리지 기술을 준비하고 있습니다. 이는 데이터가 오가는 ‘도로’를 훨씬 넓히는 작업으로, AI 시대에 점점 중요해지는 데이터 처리 속도를 끌어올리기 위한 전략입니다. 특히 엔비디아와의 협력을 통해 이런 차세대 기술을 실제 데이터센터 환경에 빠르게 적용하려는 점이 특징입니다.

CXL은 쉽게 말해 ‘메모리를 확장하는 기술’입니다. 기존 서버에서는 메모리가 부족해지면 서버 자체를 추가로 늘려야 했습니다. 하지만 CXL을 활용하면, 메모리를 외부 장치처럼 붙여서 용량을 유연하게 늘릴 수 있습니다. 그래서 흔히 CXL을 ‘메모리 고속도로’라고 부릅니다. CPU, GPU, 메모리, 가속기 등이 하나의 통합된 통로를 통해 데이터를 공유하면서, 전체 시스템 자원을 훨씬 효율적으로 쓸 수 있게 됩니다.

예를 들어 대규모 AI 모델을 운영할 때, 모든 데이터를 GPU 주변에 둘 수는 없습니다. 이때 CXL은 부족한 메모리를 바깥에서 끌어와 연결해주면서 시스템 전체의 용량을 확장해줍니다. 속도는 HBM만큼 빠르지는 않지만, 대신 훨씬 큰 용량을 유연하게 확보할 수 있다는 장점이 있습니다.

반면 HBF는 접근 방식이 다릅니다. HBF는 메모리를 ‘확장’하는 것이 아니라, 저장장치 자체를 매우 빠르게 만들어 GPU 바로 옆에서 쓰게 하는 기술입니다. 기존에는 SSD가 멀리 떨어져 있어 데이터가 오가는 데 시간이 걸렸지만, HBF는 이를 GPU 근처에 배치하고 대역폭을 극단적으로 끌어올려 거의 메모리처럼 활용할 수 있도록 만듭니다. 즉, 장기 저장 데이터를 단순히 보관하는 것이 아니라, 연산에 직접 투입되는 ‘준(準)메모리’로 끌어올린 것입니다.

SK하이닉스는 HBM에서 확보한 기술적 우위를 바탕으로, 그 연장선상에 있는 HBF 개념을 비교적 적극적으로 밀고 있습니다. 즉, GPU 근처에서 ‘속도 중심’의 메모리 계층을 더 확장하려는 접근입니다.

반면 삼성전자는 CXL을 포함한 인터페이스와 시스템 확장 측면에서 더 빠르게 상용화를 추진하고 있습니다. 메모리를 외부로 확장하고 연결 구조를 바꾸는 방향에서 주도권을 잡으려는 전략입니다.

다만 중요한 점은, 두 회사 모두 한쪽만 하는 것이 아니나, SK하이닉스도 CXL을 개발하고 있고, 삼성전자 역시 HBF와 유사한 고대역폭 스토리지 방향을 준비하고 있습니다.

결국 경쟁은 초고속 연산을 담당하는 HBM과 이를 보조하는 HBF, 그리고 시스템 전체 용량을 확장하는 CXL을 얼마나 유기적으로 결합하느냐에 달려 있다고 생각됩니다.

[시사점]

과거에는 빠른 연산을 위한 메모리(D램) 영역과, 데이터를 저장하는 낸드(스토리지) 영역이 서로 다른 기술로 구분되었고, 특허 역시 각각 따로 관리되는 구조였습니다. 하지만 최근에는 이 경계가 점점 흐려지고 있습니다. HBF처럼 낸드를 메모리처럼 빠르게 활용하려는 기술이 등장하면서, 저장장치와 메모리를 따로 보는 것이 아니라 하나의 시스템으로 바뀌고 있기 때문입니다.

개별 부품이 아니라, 데이터가 어디에 저장되고, 어떤 경로로 이동하며, 어떤 순서로 사용되는지까지 포함한 ‘전체 구조’ 즉, 메모리와 스토리지를 아우르는 ‘메모리 계층 구조(Memory Hierarchy)’ 전체를 하나의 시스템으로 보고 특허를 확보하는 것이 중요해졌습니다.

특히 이런 변화는 기업 간 협상에서도 큰 의미를 가집니다. 예를 들어 한 기업이 D램 기술에 강점을 가지고 있고, 다른 기업이 낸드 기술에 강점을 가진 경우, 과거에는 서로 영역이 달라 협상 범위가 제한적이었습니다. 하지만 이제는 두 기술이 하나의 구조 안에서 함께 사용되기 때문에, 서로의 특허를 반드시 참고하거나 활용해야 하는 상황이 올 것입니다.

결국 HBF와 같은 기술은 단순한 성능 개선을 넘어, 기존의 특허 구분 자체를 무너뜨리는 변화이며, 향후 기업들이 서로 기술을 주고받는 크로스 라이선스 협상에서 매우 강력한 협상 카드로 작용할 가능성이 높습니다.

“전체 데이터 흐름을 누가 설계했느냐”가 특허 경쟁의 핵심이 되는 시대라고 볼 수 있습니다.

keyword

작가의 이전글로봇의 물결, 이제는 플랫폼 전쟁이다휴머노이드를 위한 LLM은 무엇이 다를까작가의 다음글