AI 토큰 비용 관리: API 호출 한 번이 당신의 마진을 갉아먹습니다
AI 제품의 진짜 손익은 화면이 아니라 청구서에서 갈립니다.
AI 래퍼 제품을 출시했습니다. 사용자가 늘기 시작합니다. 신이 납니다. 그런데 월말에 모델 API 청구서를 받고 얼굴이 굳습니다. 매출은 분명 늘었는데, 청구서가 더 빠르게 늘었습니다. 고객이 많아질수록 적자가 커지는, 가장 이상한 비즈니스가 탄생한 겁니다.
전통적인 SaaS는 사용자가 늘어도 한계비용이 거의 0이라 마진이 따라옵니다. 하지만 AI 제품은 다릅니다. 사용자가 버튼을 누를 때마다 실제 돈이 나갑니다. AI 시대의 인디 파운더에게 토큰 비용 관리는 선택이 아니라 생존입니다.
AI 제품에는 '원가(COGS)'가 부활했습니다
소프트웨어 비즈니스의 매력은 원가가 거의 없다는 점이었습니다. 한 번 만들면 1,000명에게 팔든 100만 명에게 팔든 추가 비용이 미미했죠. AI가 이 공식을 깼습니다.
이제 AI 제품에는 제조업처럼 명확한 '매출원가'가 존재합니다. 고객 한 명이 만드는 매출에서 그 고객이 일으킨 토큰 비용을 빼야 진짜 마진이 나옵니다. 이걸 모르면 유닛 이코노믹스 자체가 성립하지 않습니다. 가장 먼저 할 일은 단순합니다. "고객 한 명당 한 달에 토큰 비용이 얼마 나가는가?" 이 숫자를 모른다면, 당신은 눈을 감고 운전하는 중입니다.
AI 제품의 가격표는 모델 청구서를 본 뒤에 정해야 합니다. 그 반대가 아니라.
입력 토큰이 조용히 당신을 죽입니다
대부분은 모델이 생성하는 답변(출력 토큰)에만 신경 씁니다. 하지만 비용 폭탄은 보통 입력 쪽에서 터집니다. 매 호출마다 긴 시스템 프롬프트, 누적된 대화 기록, 통째로 욱여넣은 문서가 전부 입력 토큰으로 계산됩니다.
대화가 길어질수록, 매 턴마다 이전 대화 전체를 다시 보냅니다. 10번째 메시지는 1번째 메시지보다 몇 배 비쌉니다. 사용자에게는 똑같은 한 번의 클릭이지만, 당신에게는 점점 비싸지는 청구서입니다. 입력 토큰을 계측하지 않으면, 가장 충성도 높은 헤비 유저가 가장 큰 적자의 원인이 됩니다.
비용을 절반으로 줄이는 네 가지 레버
토큰 비용은 막연히 줄이는 게 아니라, 구조적인 레버를 당기는 겁니다. 효과가 큰 순서대로 정리하면 이렇습니다.
- 모델 라우팅 — 모든 요청에 최고가 모델을 쓰지 마세요. 간단한 분류·요약은 저렴한 소형 모델로, 복잡한 추론만 고성능 모델로 보냅니다. 작업 난이도에 따라 모델을 나누는 것만으로 비용이 수직 하락합니다.
- 프롬프트 캐싱 — 매번 똑같이 들어가는 시스템 프롬프트나 문서는 캐싱하면 같은 부분의 입력 비용이 크게 줄어듭니다. 반복되는 입력이 많은 제품일수록 효과가 큽니다.
- 컨텍스트 다이어트 — 문서 전체를 넣지 말고 관련 부분만 검색해 넣으세요(RAG). 대화 기록도 전부 보내지 말고 요약본으로 압축합니다.
- 출력 제한 — 최대 토큰 수를 명시하고, "간결하게"를 프롬프트에 박아 넣으세요. 장황한 답변은 비용이자 나쁜 UX입니다.
가격 모델이 비용을 따라가지 못하면 무너집니다
비용을 아무리 줄여도, 가격 구조가 비용 구조와 어긋나면 결국 깨집니다. 가장 위험한 조합이 '무제한 정액제 위에 헤비 유저'입니다. 월 1만 원 무제한 요금제를 쓰는 1%의 헤비 유저가 나머지 99%의 이익을 다 먹어버립니다.
그래서 AI 제품의 가격은 비용과 연동되어야 합니다. 사용량 기반 과금이나 크레딧 제도가 정액제보다 안전한 이유가 여기에 있습니다. 정액제를 유지하더라도 플랜별 사용 한도를 명확히 두고, 한도를 넘으면 추가 크레딧을 사게 하세요. 한국 고객은 '갑자기 청구되는 종량제'를 싫어하므로, 크레딧을 미리 충전하는 방식이 정서적으로 더 잘 맞습니다.
가장 싼 토큰은 호출하지 않은 토큰입니다
모든 문제를 거대 언어 모델로 풀 필요는 없습니다. 인디 파운더가 가장 자주 저지르는 실수가 'AI로 안 해도 될 일을 AI로 하는 것'입니다.
고정된 형식 변환, 단순 분류, 키워드 매칭 같은 일은 정규식이나 일반 코드로 충분합니다. 자주 나오는 질문은 답을 캐싱해두면 두 번째부터는 모델을 부를 필요가 없습니다. AI 호출 앞에 '이건 정말 AI여야 하나?'라는 관문을 하나 세우는 것만으로, 청구서의 상당 부분이 사라집니다. 가장 저렴한 최적화는 호출 자체를 없애는 것입니다.
비용 대시보드 없이 AI 사업을 하지 마세요
토큰 비용은 한 번 최적화하고 끝나는 게 아닙니다. 모델 가격은 계속 바뀌고, 사용자 행동도 변합니다. 그래서 매출 대시보드만큼이나 비용 대시보드가 중요합니다.
최소한 세 가지는 매일 봐야 합니다. 고객당 평균 토큰 비용, 기능별 비용 분포, 그리고 마진율입니다. 이 숫자가 보이기 시작하면 의사결정이 달라집니다. 어떤 기능을 죽일지, 어떤 모델로 갈아탈지, 가격을 언제 올릴지가 감이 아니라 숫자로 결정됩니다. AI 제품에서 비용을 보는 능력은, 코드를 짜는 능력만큼 중요한 생존 기술입니다.
오늘 당장 할 일은 하나입니다. 지난달 모델 청구서를 열고, 그것을 유료 고객 수로 나눠보세요. 그 한 숫자가 당신의 AI 비즈니스가 진짜 사업인지, 아니면 비싼 취미인지를 말해줄 겁니다.