스타트업 환경에서는 빠른 속도와 민첩한 대응이 무엇보다 중요합니다. 최근 Google이 “Code Red”를 선언한 이유도 바로 이러한 맥락에서 이해할 수 있습니다. 특히 ChatGPT가 등장했을 때, 구글은 이 기술에 대응하기 위해 신속한 조치를 취했습니다. 이처럼 스타트업 세계에서는 느리게 움직일 여유가 없으며, 항상 빠르게 대응해야 경쟁에서 뒤처지지 않습니다.
Perplexity 역시 이러한 스타트업의 특성을 반영하여, 빠른 제품 개발과 지속적인 개선을 통해 사용자에게 최상의 경험을 제공하고자 합니다. Perplexity의 창립자인 Aravind Srinivas는 스타트업에서 속도의 중요성을 강조하며, 경쟁이 치열한 시장에서 빠르게 제품을 개선하고 새로운 기능을 추가하는 것이 생존의 열쇠라고 말합니다.
Perplexity는 A/B 테스트를 통해 제품의 성능을 지속적으로 평가하고 개선합니다. A/B 테스트를 통해 새로운 모델이 기존 모델보다 저렴하게 제공될 수 있는지, 품질이 저하되지 않았는지를 판단할 수 있는 것입니다. 이를 통해 Perplexity는 다양한 유형의 쿼리에 대해 모델의 성능을 평가하고, 사용자의 반응을 분석하여 제품을 개선하는 데 활용합니다. 예를 들어, 사용자들이 질문하는 쿼리가 “약혼 반지”에서 “암 치료법”까지, “책꽂이 아래 조명”에서 “경쟁 분석”까지 다양하기 때문에, 이러한 복잡한 쿼리에 대해 A/B 테스트를 통해 모델이 얼마나 잘 대응하는지 평가해야 합니다.
A/B 테스트를 실행하기 위해서는 충분한 통계 샘플이 필요하며, 이는 많은 사용자를 확보함으로써 가능해집니다. 인터뷰에서는 “A/B 테스트에서 통계 샘플을 얻는 것은 수백만 명의 사용자가 서비스를 이용하고 있기 때문에 훨씬 수월해졌습니다”라고 언급하며, 사용자 수가 많을수록 더 많은 데이터를 얻을 수 있음을 강조했습니다.
AI 모델 평가의 복잡성은 Perplexity가 직면한 중요한 도전 과제 중 하나입니다. 벤치마크 테스트에서 좋은 성적을 거두는 것은 중요한 성과이지만, 이는 실제 사용 환경에서의 성능을 보장하지는 않습니다. Perplexity는 이러한 한계를 인식하고, 다양한 벤치마크와 실제 사용자 경험을 모두 고려하여, 모델이 여러 상황에서도 일관된 성능을 발휘할 수 있도록 최적화하고 있습니다.
Perplexity는 다양한 AI 모델을 사용하여 질문 유형을 분석하고, 관련 정보를 수집하며, 이를 바탕으로 최적의 답변을 생성합니다. 이러한 과정에서 Perplexity는 벤치마크 최적화의 위험성을 인식하여 단일 벤치마크에 의존하지 않고, 여러 벤치마크를 동시에 추적하여, 사용자가 다양한 상황에서도 높은 품질의 답변을 받을 수 있도록 보장합니다. 이는 Perplexity가 단순히 벤치마크 성능을 높이는 데 그치지 않고, 실제 사용자가 경험하는 제품의 품질을 최우선으로 고려한다는 점에서 중요한 의미를 갖습니다.
Perplexity의 제품 개발 과정에서는 사용자가 실제로 원하는 것이 무엇인지 깊이 이해하고, 이를 반영하는 것이 가장 중요합니다. 이는 단일 벤치마크에 집착하기보다는, 사용자들이 제품을 다양한 방식으로 사용하더라도 항상 일정한 품질의 답변을 제공할 수 있도록 하는 것을 목표로 합니다. Perplexity는 기술적 벤치마크뿐만 아니라, 실제 제품이 시장에 출시되었을 때 사용자 유지율, 검색 횟수 등의 지표를 중요하게 고려하여 제품을 개선하고 있습니다.
“벤치마크는 MMLU와 같은 다양한 테스트 방식에서 모델이 얼마나 잘 작동하는지를 측정하는 것입니다. 자존심과 관련된 문제죠? 특히 오픈 소스로 트위터에 모델을 공개하면 사람들은 열광합니다. 그리고 '우리가 이 코드 벤치마크를 이겼어요'라고 말합니다… …사람들이 벤치마크를 깬 많은 성과를 주장하지만 실제로 채팅 제품 형태로 사용하면 잘 작동하지 않는 경우가 있습니다. 따라서 벤치마크에 맞는 데이터 세트를 만들어서 훈련하고 좋은 성능을 보여주기만 하면 벤치마크를 해킹하는 것은 매우 쉽습니다.
하지만 일반적으로 사용 가능한 채팅 제품의 마법 같은 점은 한 가지 벤치마크 테스트에서만 좋은 성적을 내기 위해 최적화하지 않으면서도 여러 가지 테스트에서 모두 좋은 성적을 보이는데 있습니다. 이러한 제품은 사용자가 다양한 방식으로 사용해도 잘 작동하므로, 더 믿을 만한 제품이 됩니다.
그래서 저는 하나의 벤치마크보다는 다섯 개에서 열 개의 벤치마크를 동시에 추적하는 것을 선호합니다. 기술적 벤치마크는 모델이 실험실 환경에서 어떻게 수행되는지를 보여주는 지표이지만, 제품이 시장에 나가게 되면 유지율이나 사용자당 검색 횟수 등도 고려해야 합니다. 다양한 모델을 대상으로 A/B 테스트를 많이 실행하고, 사람들이 어떻게 반응하는지, 사용자당 쿼리 수가 얼마나 증가했는지를 평가해야 합니다. 기존 모델과 새 모델이 있고, 새 모델이 기존 모델보다 비용이 적게 든다면, 전환할지 결정하기 위해 가장 중요한 것은 품질이 떨어지지 않았는지 여부입니다.”
- Aravind Srinivas
AI 산업에서 모델 최적화는 중요한 이슈입니다. 특히, 더 빠르고 저렴한 모델로 전환하는 과정은 많은 기업들이 직면하는 도전 과제입니다. 최근 OpenAI가 발표한 GPT-4 Turbo의 사례는 이러한 전환이 얼마나 복잡하고 어려운지 잘 보여줍니다. GPT-4 Turbo는 기존 GPT-4보다 저렴하고 빠르다고 발표되었지만, 많은 사용자들이 Reddit에서 불만을 토로하며 “이전에는 가능했던 작업을 제대로 수행하지 못한다”는 의견을 내놓았습니다. 이는 단순히 OpenAI의 평가 방식에 문제가 있다는 것을 의미하는 것이 아니라, 저렴한 모델로 전환하는 과정에서 예상치 못한 문제가 발생할 수 있음을 보여줍니다.
모델 최적화의 핵심은 다양한 쿼리를 샘플링하여 독립적인 평가자들에게 평가를 맡기는 것입니다. 특히, 사용자가 어떤 모델이 어느 답변을 제공했는지 구분하지 못한다면, 저렴하고 빠른 모델로 전환하는 것이 합리적입니다. 그러나 여기에는 주의해야 할 점이 있습니다. 저렴한 모델을 훈련할 때, 종종 성능이 저하되는 회귀 현상이 발생할 수 있습니다. 이러한 현상은 OpenAI와 같은 기업에서도 흔히 일어납니다. 이러한 회귀 현상이 발생하는 이유는 무엇일까요? 이는 모델이 더 저렴하고 빠르게 작동하도록 최적화되는 과정에서, 이전에 가능했던 작업을 제대로 수행하지 못하게 되는 경우가 있기 때문입니다. 이러한 문제는 단순히 모델의 성능을 평가하는 것만으로는 잡아낼 수 없습니다. 더 깊이 있는 평가와 비교가 필요합니다.
제품 관리 측면에서, 과거의 결정론적인 기술과 비교해보면, LLM(대형 언어 모델)과 같은 최신 AI 기술은 훨씬 더 복잡한 문제를 안고 있습니다. 과거의 기술은 매번 같은 결과를 제공하는 결정론적 특성을 가졌기 때문에, 파라미터를 쉽게 테스트할 수 있었습니다. 하지만 LLM은 상황에 따라 다르게 반응할 수 있으며, 이는 모델을 최적화하는 데 있어 큰 도전 과제가 됩니다.
결국, AI 모델 최적화는 단순한 성능 개선 이상의 문제를 포함하고 있습니다. 제품 관리자와 개발자들은 모델 전환 과정에서 발생할 수 있는 성능 저하와 그에 따른 사용자 경험의 변화를 면밀히 검토해야 합니다. 이는 단순히 모델이 빠르고 저렴해지는 것을 넘어, 사용자에게 일관된 품질의 서비스를 제공하는 데 있어 중요한 요소입니다. AI 기술이 계속 발전함에 따라, 이러한 최적화 과정은 더욱 중요해질 것입니다.
“AI 기술의 발전은 빠르고, 그 속도는 더욱 빨라지고 있습니다. 하지만 이 과정에서 새로운 모델이 더 저렴하고 빠르다고 해서 반드시 더 나은 것은 아니라는 점을 명심해야 합니다. 최근 OpenAI의 GPT-4 Turbo가 그러한 사례를 잘 보여주고 있습니다. 이 모델은 기존의 GPT-4보다 저렴하고 빠르다고 발표되었지만, 사용자들, 특히 Reddit 사용자들 사이에서는 “사실 더 나아지지 않았다”는 비판이 제기되었습니다. 이들은 GPT-4 Turbo가 이전에는 가능했던 작업을 제대로 수행하지 못한다며 실망을 표현했습니다.
이러한 문제는 단순히 OpenAI의 평가 방식에 문제가 있다는 것을 의미하는 것은 아닙니다. 오히려, AI 모델 평가의 복잡성을 잘 보여줍니다. 특히, 저렴하면서도 빠른 모델을 개발하는 과정에서 성능이 저하되는 “회귀” 현상이 발생할 수 있다는 점을 강조하고 있습니다. 이러한 회귀는 대기업에서도 흔히 발생하는 문제로, GPT-4 Turbo의 사례가 이를 잘 보여주고 있습니다.
그렇다면, 이러한 문제를 어떻게 해결할 수 있을까요? 한 가지 방법은 대표적인 쿼리를 사용해 독립적인 평가자들에게 모델을 평가하도록 하는 것입니다. 예를 들어, 사용자가 빠르고 저렴한 모델과 느리고 더 똑똑한 모델의 차이를 구별하지 못한다면, 그 모델로 전환하는 것이 합리적일 것입니다. 하지만 이런 최적화 과정은 매우 어렵습니다. 특히, 새로운 엔진이나 데이터베이스를 기반으로 구축된 AI 모델은 더욱 그렇습니다
과거에 결정론적인 기술을 바탕으로 제품을 만들던 때와 달리, LLM(대형 언어 모델)과 같은 최신 기술은 항상 예측 가능한 결과를 제공하지 않습니다. 이 때문에 새로운 AI 모델을 개발하고 이를 평가하는 과정은 이전보다 훨씬 더 복잡하고 어려워졌습니다.
결론적으로, AI 기술의 발전은 여전히 많은 도전과제를 안고 있으며, 그 중 하나는 바로 이러한 모델들의 성능을 정확히 평가하고 최적화하는 것입니다. 기술이 발전할수록, 그리고 경쟁이 치열해질수록, 이러한 평가와 최적화의 중요성은 더욱 커질 것입니다.”
- Aravind Srinivas
많은 기업들은 대형 언어 모델(LLM)을 활용한 제품에서 많은 도전을 만나게 됩니다. LLM의 결과물은 통계적인 특성을 가지며, 그 능력의 한계는 명확히 정의되지 않아 불확실한 경우가 많습니다. 이를 가리켜 ’울퉁불퉁한 능력의 경계(jagged frontier)’라고 표현되기도 합니다. 특히, 모델을 최적화하거나 재훈련하는 과정에서 전반적으로 모델의 성능이 향상될 수 있지만, 특정 영역에서는 오히려 성능이 저하될 가능성도 존재합니다.
이러한 도전 속에서도 Perplexity는 LLM을 성공적으로 활용한 제품을 구축해왔습니다. Perplexity는 LLM을 제품의 핵심 구성 요소로 활용하는 성공적인 기업중에 하나이며, 이 모델들이 가지는 불확실성을 극복하며 제품을 확장하고 있습니다. 이는 단순한 기술적 도전을 넘어서, 새로운 제품 엔지니어링의 규칙을 만들어 간다고 볼 수도 있습니다.
Amazon 창업자 Jeff Bezos는 “사용자는 신경 쓰지 않는다. 그리고 사용자는 항상 옳다”라고 했습니다. 이는 사용자가 제품의 문제를 어떻게 해결하느냐에 대해 관심이 없다는 의미로, 사용자는 그저 자신의 요구가 충족되기를 원합니다. 예를 들어, Amazon의 1일-2일 배송 서비스는 엄청난 비용을 소모하지만, 이 서비스를 포기하고 3일-5일로 늘리면 고객들은 불만을 가지고 다른 서비스로 이동할 것입니다. 마찬가지로, Perplexity나 다른 LLM 기반 제품이 비용 절감을 위해 덜 정확한 답변을 제공하거나, 신뢰성이 낮은 제품을 제공한다면, 사용자는 더 나은 조건을 제공하는 다른 제품으로 쉽게 이동할 것입니다.
LLM 제품 관리 측면에서 배포할 모델의 정확성이 중요하며, 사용자가 불만을 제기하는 경우 즉시 모델을 교체해야 합니다. LLM 기반 제품이 배포에 적합한지 여부는 그 모델이 더 정확한 답변을 제공하는지에 달려 있습니다. 사용자가 제품에 대해 불만을 제기하면, 즉시 다른 모델로 전환해야 합니다. Perplexity와 같은 소비자 검색 제품의 강점 중 하나는 창립자와 직원들이 직접 제품을 사용하여 그 품질을 평가할 수 있다는 점입니다. 이는 내부적으로 제품의 품질에 대한 확신을 가질 수 있게 해주며, 사용자 중심의 문화를 더욱 강화하는 데 기여합니다.
결국, LLM을 활용한 제품 개발은 단순한 기술적 성취를 넘어, 사용자 경험을 최우선으로 고려하는 철학이 필요합니다. 사용자는 제품의 내부 구조나 기술적 어려움에 관심이 없으며, 오직 자신이 원하는 결과를 얻는 것만을 중요하게 생각합니다. 따라서 제품 관리자는 사용자가 원하는 품질의 답변을 제공하기 위해 끊임없이 모델을 평가하고, 필요할 경우 즉각적으로 개선해야 합니다.
이러한 사용자 중심의 철학은 Perplexity와 같은 기업이 성공적으로 제품을 확장하고, 사용자에게 신뢰받는 제품을 제공하는 데 있어 중요한 역할을 하고 있습니다. LLM의 불확실성과 통계적 특성을 극복하면서도, 사용자의 요구를 만족시키는 것이 AI 기반 제품 개발의 핵심이라고 할 수 있습니다.
“모델이 배포에 적합하다는 것은 더 정확할 때 뿐입니다. 당신이 수행한 테스트와 대표적인 쿼리를 통해 확인된 것입니다. 사용자가 불만을 제기하면, 그 모델은 적합하지 않으며, 전환하거나 되돌려야 합니다. 이 분야, 즉 소비자 검색에서 일하는 장점은 우리가 모두 그 제품을 사용할 수 있다는 점입니다. 저도 사용할 수 있고, 공동 창업자들도 사용할 수 있으며, 직원들도 사용할 수 있습니다.”
- Aravind Srinivas
AI 모델, 특히 대형 언어 모델(LLM)의 발전은 최근 몇 년 동안 급격하게 이루어졌습니다. Perplexity와 같은 기업들이 LLM을 기반으로 제품을 개발하는 과정에서 직면한 도전과 성과는 이러한 변화를 잘 보여줍니다. 초기의 LLM 제품들은 많은 한계를 가지고 있었지만, 시간이 지남에 따라 모델의 성능이 크게 향상되면서 놀라운 결과를 만들어내고 있습니다.
지난해 Perplexity는 GPT-3.5 DaVinci 2를 기반으로 한 초기 제품을 프로토타입했습니다. 그러나 이 모델은 많은 환각(hallucination)을 일으켰습니다. 환각이란 그럴듯해 보이지만 실제로는 틀린 텍스트를 생성하는 것을 말합니다. 이는 주로 OpenAI 모델의 초기 버전이 사용되었기 때문이었습니다. 그러나 ChatGPT 출시 직전, OpenAI는 DaVinci 3로 업데이트했습니다. 이 단순한 모델 업데이트만으로도 Perplexity 제품은 즉각적으로 크게 개선되었습니다. 환각 현상이 크게 줄어들었고, 모델의 전반적인 성능이 대폭 향상되었습니다.
이후 GPT-3.5 Turbo 모델이 도입되면서 Perplexity는 더 빠르고 저렴하며 정확한 답변을 제공할 수 있게 되었습니다. 그리고 GPT-4가 등장하면서, 제품의 성능은 그야말로 획기적인 수준으로 발전했습니다. 비록 GPT-4는 더 비싸고 속도는 느리지만, 환각 현상은 100번 중 한 번 정도로 거의 무시할 수 있는 수준으로 줄어들었습니다. 이는 LLM 기반 제품의 발전 가능성을 더욱 확신하게 만드는 요소였습니다.
이러한 모델의 발전은 단순히 기술적인 개선뿐만 아니라, 기업의 전략적 결정을 뒷받침하는 중요한 요소로 작용했습니다. 오늘날의 GPT-4 모델은 가장 비싸고 정확도가 가장 낮은 상태일지 모르지만, 앞으로 몇 년 안에 비용은 10배 저렴해지고, 정확성은 더욱 향상될 것입니다. 이는 Perplexity와 같은 기업들이 미래에 대한 긍정적인 베팅을 할 수 있게 만드는 중요한 이유입니다. 현재의 문제에 너무 집중하기보다는, 이미 제품의 80%가 완성되었다는 사실에 주목해야 합니다. 남은 20%의 개선은 많은 노력이 필요하며, 이는 회사가 존재하는 이유이며, 장기적인 성공을 위해 필수적인 과정입니다.
"2022년 말에 Perplexity의 정답 엔진 제품을 본다면, “이건 멋지긴 하지만, 110개의 쿼리 중 하나가 잘못되었어. 이건 성공하지 못할 거야.“라고 생각할 것입니다. 하지만 이제는 “이 모델은 환각 문제를 거의 무시할 수 있을 정도로 해결해 주네.“라고 생각할 겁니다. 비싸긴 하지만, 이제 미래에 어떤 선택을 할 것인가가 중요해집니다. 오늘날 이 모델이 100번 중 한 번 환각을 일으킨다면, 앞으로 몇 년 안에 비용이 10배 저렴해질 것입니다. 지금은 가장 비싸고 정확도가 낮은 상태일 것입니다. 현재 GPT-4에 지불하는 비용으로, 앞으로는 더 신뢰성 있고, 정확하며, 간결한 답변을 제공하는 GPT-4.5나 GPT-5를 사용할 수 있을 것입니다.
현재 존재하는 문제에 너무 집중하지 마세요. 이미 이 제품의 80%는 완성되었습니다. 남은 20%를 완성하는 데는 많은 노력이 필요할 것입니다. 실제로 80%의 노력은 마지막 20%의 제품을 완성하는 데 들어갈 것입니다. 회사가 왜 존재하나요? 회사는 이러한 롱테일 문제(흔히 발생하지 않지만 여전히 중요한, 해결하기 까다로운 문제)를 해결하기 위해 존재합니다(회사의 주요 과제입니다).”
- Aravind Srinivas
Perplexity의 답변 품질은 지난 12개월 동안 기대 이상으로 개선되었습니다. 이는 모델의 지능이 크게 향상되었기 때문입니다. 제품이 출시되기 전, 투자자들과의 피드백 과정을 거치며 지속적으로 개선된 결과, 현재의 높은 품질에 도달하게 되었습니다. Perplexity의 초기 투자자 중 한 명인 Daniel Gross는 이 제품의 성장을 눈여겨봤으며, 그의 피드백은 제품 개발에 큰 도움이 되었습니다.
결국, Perplexity의 성공은 LLM 모델의 진화와 함께 이루어진 것입니다. 모델이 점점 더 똑똑해짐에 따라 제품도 꾸준히 개선되고 있으며, 이는 사용자들에게 더 나은 경험을 제공할 수 있는 원동력이 되고 있습니다. AI 기술의 발전 속도는 예측하기 어렵지만, Perplexity와 같은 기업들이 이러한 변화를 적극적으로 활용함으로써 더 나은 미래를 만들어가고 있습니다.
Perplexity의 검색 시스템에서 쿼리 처리와 관련해서 대규모 언어 모델(LLM)이 구조화되지 않은 쿼리를 처리하는 데 있어 중요한 역할을 하고 있습니다. LLM은 초기 검색에서 완벽하지 않은 결과를 얻더라도 의미 있는 정보를 찾아내는 능력을 가지고 있습니다. 전통적인 검색 시스템이 정확성과 재현율(precision and recall)을 동시에 고려하는 반면, LLM은 검색 결과가 완벽하지 않아도 유의미한 답변을 제공할 수 있습니다. 예를 들어, 구글에서 첫 번째나 두 번째 검색 결과가 사용자가 원하는 정보가 아닐 때, 일반적인 검색엔진은 이를 품질 문제로 볼 수 있습니다. 하지만 LLM은 결과 목록의 뒤쪽에 있는 정보라도 찾아내어 사용자가 원하는 답변을 제공할 수 있습니다. 이를 통해 Perplexity 같은 시스템은 검색 과정에서 자원을 어디에 집중할지 전략적으로 결정하게 됩니다.
Perplexity의 시스템은 다양한 모델을 유연하게 교체하여 사용할 수 있도록 설계되었습니다. 사용자는 GPT-4o, GPT-4o Turbo, Claude 3 Sonnet, Claude 3 Opus 또는 Llama 3 기반의 모델 중에서 선택할 수 있습니다. 특히 Perplexity가 직접 훈련한 “Sonar” 모델은 Llama 3을 기반으로 요약, 인용 참조, 문맥 유지, 장기 컨텍스트 지원 등에서 탁월한 성능을 보입니다. 이 모델은 대규모 데이터 세트에서 빠르고 정확한 결과를 도출하는 데 최적화되어 있습니다. Perplexity 팀은 특정 모델에 얽매이지 않고, 사용자가 원하는 최고의 답변을 제공하는 데 중점을 두고 있습니다. Perplexity가 사용하는 모델이 가장 강력한 모델인지 여부는 사용자에게 중요하지 않습니다. 사용자에게 중요한 것은 정확하고 유용한 답변을 얻는 것입니다. 따라서, Perplexity는 자사에서 호스팅한 모델이든, 다른 곳에서 가져와 파인튜닝한 모델이든, 가장 좋은 답변을 제공할 수 있는 모델을 사용하는 것이 중요합니다. 이처럼 Perplexity는 사용자 경험에 초점을 맞춘 전략을 강조하고 있습니다.
기술적으로 중요한 점은 Perplexity 팀이 단순히 다른 곳에서 제공된 모델을 사용하는 것이 아니라, 자사 제품에 맞게 커스터마이즈한다는 점입니다. 모델의 가중치를 소유하고 있느냐는 중요하지 않으며, 중요한 것은 Perplexity 제품이 어떤 모델과도 잘 작동할 수 있도록 설계된다는 것입니다. 모델마다 고유한 특성이 있더라도, 그 특성이 제품에 부정적인 영향을 미치지 않도록 설계하는 것이 중요합니다. 이를 통해 Perplexity는 다양한 모델과의 호환성을 높인 확장성 있는 플랫폼을 구축하고, 최상의 사용자 경험을 제공하려고 노력하고 있습니다.
시스템의 지연 시간을 줄이기 위해 Perplexity는 Google의 “tail latency” 개념을 도입했습니다. 이 개념은 Jeff Dean이 작성한 논문을 기반으로 하며, 몇 가지 쿼리를 테스트해보고 제품이 빠르다고 결론을 내리는 것만으로는 충분하지 않다는 것을 설명합니다. 시스템이 10%의 경우에 실패하고 많은 서버를 가지고 있을 때, 사용자가 알지 못하는 사이에 특정 쿼리가 더 자주 실패할 수 있습니다. 특히 쿼리 양이 급증할 때 사용자에게 부정적인 경험을 줄 수 있습니다. 그래서 시스템의 모든 구성 요소에서 tail latency를 추적하는 것이 중요하며, 검색 레이어든 LLM 레이어든 이 지표를 지속적으로 모니터링한다고 합니다.
Perplexity가 관련하는 지표 중에서 LLM의 처리량(Throughput)과 첫 번째 토큰 생성 시간(TTFT)이 가장 중요한 요소라고 합니다. TTFT는 스트리밍 속도를 결정하는 중요한 역할을 합니다. OpenAI나 Anthropic과 같은 외부 모델에 대해서는 그들의 인프라에 의존하지만, NVIDIA와 협력하여 자체적으로 서빙하는 Llama 기반 자체 모델에 대해서는 커널 수준에서 최적화를 통해 성능을 개선하고 있다고 설명했습니다. 이를 위해 TensorRT-LLM 프레임워크에서 협업하고, 필요에 따라 새로운 커널을 작성해 지연 시간을 최소화하면서 처리량을 높이는 최적화를 수행하고 있다고 말합니다.
사용자가 급증하면서 TTFT와 같은 운영 이슈 관련해서 Perplexity 창업자 Aravind Srinivas는 1천만 달러에서 2천만 달러를 투자해 GPU를 추가로 구매할지, 아니면 모델 제공업체에게 5백만에서 1천만 달러를 지불해 더 많은 컴퓨팅 용량을 확보할지와 같은 결정을 내려야 하며, 이는 스타트업 CEO의 중요한 의사결정 과정임을 강조했습니다.
또한, 그는 Perplexity가 클라우드 인프라를 기반으로 운영되고 있으며, 현재 자체 데이터 센터를 구축하는 것은 비효율적이라고 설명했습니다. 대신, Perplexity는 AWS와 같은 클라우드 제공자의 인프라를 활용하여 효율적인 확장성과 유연성을 유지하고 있습니다. AWS 인프라는 특히 엔지니어들이 이미 익숙한 환경을 제공해, 새로운 엔지니어가 빠르게 적응할 수 있게 함으로써 제품 개발 속도를 높이는 데 기여하고 있습니다.