AI 스틸츠: 7명이 수천억 원의 AI 연구소를 이기는 방법
파인튜닝에 수억을 태우지 마세요. 기반 모델 위에 올라서면 항상 한 발짝 앞서갑니다.
AI 제품을 만들 때 가장 흔한 접근은 파인튜닝입니다. 데이터를 수만 건 모으고, 최고의 모델 위에 학습시키고, 수억 원의 컴퓨팅 비용을 투입합니다. 결과는 나쁘지 않습니다. 기본 모델보다 확실히 좋아집니다.
문제는 3개월 뒤에 벌어집니다. 새로운 프론티어 모델이 나옵니다. 당신이 수억을 들여 파인튜닝한 모델보다 기본 성능이 더 좋습니다. 다시 할 건가요? 아니면 사업을 접을 건가요?
Poetic의 공동 창업자 Ian Fischer는 이 문제를 정확히 짚었습니다. 구글 딥마인드에서 10년을 보낸 AI 연구자가 7명의 팀으로 세계 최고의 AI 벤치마크를 깬 방법은 놀랍도록 단순한 발상의 전환이었습니다.
수억을 태운 파인튜닝이 3개월 만에 쓸모없어지는 이유
파인튜닝의 흐름은 이렇습니다. 특정 문제를 위한 데이터셋을 수만 건 모읍니다. 최고의 프론티어 모델 위에 학습시킵니다. 컴퓨팅 비용만 수억 원입니다. 몇 달의 시간도 필요합니다.
결과물은 기본 모델보다 좋습니다. 하지만 그때 새 모델이 나옵니다. GPT-5.2, Claude Opus 4.6, Gemini 3. 당신이 수억을 들여 파인튜닝한 것보다 기본 성능이 더 좋습니다.
다시 파인튜닝을 할 건가요? 또 수억을 태울 건가요? Ian은 말합니다. "많은 경우, 후자를 선택합니다. 사업을 접는 거죠."
스틸츠 전략: 기반 모델 위에 죽마를 씌우는 발상의 전환
Poetic이 제안하는 접근은 완전히 다릅니다. 기반 모델을 경쟁자로 보지 않습니다. 올라설 발판으로 봅니다.
"우리는 프론티어 모델을 경쟁자로 보지 않습니다. 그것은 우리가 올라서는 죽마입니다. 그 기초 레이어가 없으면 Poetic도 존재할 수 없습니다." — Ian Fischer
스틸츠(stilts)는 죽마라는 뜻입니다. 죽마를 신으면 키가 커집니다. 어떤 모델이든 그 위에 올라서면 항상 그 모델보다 한 발짝 앞서 있게 됩니다. 새 모델이 나와도 같은 죽마를 씌우면 됩니다. 다시 시작할 필요가 없습니다.
이들이 만드는 것은 '하네스(harness)'입니다. 코드, 프롬프트, 데이터, 추론 전략이 결합된 시스템으로, 하나 이상의 언어 모델 위에 올라가 성능을 끌어올립니다. 핵심은 이 하네스가 특정 모델에 종속되지 않는다는 점입니다.
45% vs 54%, 절반의 비용: 7명이 구글을 이긴 숫자
이론이 아닙니다. 숫자로 증명된 결과입니다.
ARC AGI V2 벤치마크. 구글의 Gemini 3 Deep Think가 45%를 달성하며 리더보드 1위에 올랐습니다. 문제당 약 70달러 이상의 비용이었습니다. 이틀 뒤, Poetic이 54%로 올라섰습니다. 비용은 문제당 32달러. 절반의 비용으로 9%포인트를 앞섰습니다.
Humanity's Last Exam. 2,500개의 PhD 수준 난이도 문제로 구성된 이 시험에서 Anthropic의 Claude Opus 4.6이 53.1%를 기록했습니다. 바로 다음 주, Poetic은 55%를 달성했습니다. 최적화 비용은 10만 달러 미만이었습니다.
이 모든 것을 7명의 연구 과학자와 엔지니어가 해냈습니다. 수천억 원을 투입하는 AI 연구소가 아닙니다. 7명입니다.
프롬프트 최적화는 5%입니다: 추론 전략이 95%를 만듭니다
많은 사람들이 프롬프트 엔지니어링에 집중합니다. 더 나은 프롬프트를 쓰면 더 나은 결과가 나올 거라 기대합니다. 맞습니다. 하지만 그것은 전체 개선의 극히 일부에 불과합니다.
Ian은 구글 딥마인드 시절의 연구를 공유했습니다. Gemini 1.5 Flash에 수동으로 프롬프트를 최적화하자 가장 어려운 문제에서 5%의 성능을 얻었습니다. 거기에 추론 전략을 추가하자 5%에서 95%로 뛰었습니다.
- 프롬프트 최적화: 0% → 5% (어느 정도의 개선)
- 추론 전략 추가: 5% → 95% (근본적인 변화)
추론 전략은 프롬프트가 아니라 코드로 작성됩니다. 문제를 어떤 순서로 분해하고, 어떤 단계에서 어떤 모델을 호출하고, 결과를 어떻게 검증하고 재시도하는지를 설계하는 것입니다. 이것이 단순한 프롬프트 튜닝과 하네스의 차이입니다.
쓴맛의 교훈 백신: 모델이 좋아질수록 당신도 좋아지는 구조
AI 분야에는 '쓴맛의 교훈(Bitter Lesson)'이라는 유명한 관찰이 있습니다. 더 많은 컴퓨팅 자원을 투입하는 방법이 항상 이긴다는 것입니다. 사람이 만든 규칙이나 도메인 지식은 결국 순수한 계산량에 밀립니다.
파인튜닝은 이 교훈에 취약합니다. 새로운 모델이 나오면 기존 작업이 무효화됩니다. 하지만 하네스 접근은 이 교훈에 대한 '백신'입니다.
모델이 좋아지면 하네스도 자동으로 좋아집니다. 아무것도 바꾸지 않아도 성능이 올라갑니다. 추가 최적화를 하면 더 올라갑니다.
인디 파운더에게 결정적인 시사점입니다. 기반 기술에 올라타되, 기반 기술에 종속되지 않는 구조를 만들어야 합니다.
인디 파운더를 위한 스틸츠: 직접 만들지 말고 위에 올라서세요
당신이 AI 제품을 만들고 있다면, Poetic처럼 수백만 달러를 쓸 필요는 없습니다. 하지만 스틸츠 사고방식은 즉시 적용할 수 있습니다.
- 기반 레이어를 직접 만들지 마세요. OpenAI, Anthropic, Google이 수천억을 들여 만든 모델을 활용하세요. 당신의 경쟁력은 모델 자체가 아니라 그 위의 시스템입니다.
- 모델에 종속되지 않는 아키텍처를 설계하세요. 특정 모델에 깊이 파인튜닝하면 그 모델에 묶입니다. 하네스를 만들면 모델을 교체할 수 있습니다.
- 추론 전략에 투자하세요. 같은 모델이라도 어떻게 호출하고, 어떤 순서로 사고하게 하느냐에 따라 성능이 20배 차이 납니다.
- 도메인 지식을 하네스에 녹이세요. 당신의 산업, 고객, 문제에 대한 깊은 이해가 범용 AI를 전문가로 바꿉니다. 이것이 7명이 수천 명을 이기는 비결입니다.
매일 AI의 경계를 밀어보세요
Ian의 마지막 조언은 놀랍도록 단순했습니다. "매일 AI로 뭔가를 해보세요. 한계가 어디인지 직접 확인하세요."
그는 구글 딥마인드에서 10년을 보낸 AI 연구자입니다. 그런 그도 지난 여름, 주말에 GPT로 아이폰 앱을 만들어봤습니다. 10년 만에 처음이었습니다. 놀랍도록 빠르고 쉬웠다고 합니다. 그리고 그건 8개월 전 이야기입니다. 지금은 더 빠르고 더 쉽습니다.
세상은 빠르게 변하고 있습니다. 7명이 수천억 원의 연구소를 이기는 시대입니다. 인디 파운더에게 이보다 좋은 시대는 없었습니다. 직접 만들지 말고 올라서세요. 죽마를 신으세요.
이 글은 Y Combinator의 영상 How A Team Of 7 Keeps Breaking AI Benchmark Records을 기반으로 작성되었습니다.