YC AI 벤치마크

AI 지능의 실체: 진짜 지능은 새로운 것을 배우는 능력입니다

ARC Prize 재단이 말하는 지능의 정의, 그리고 벤치마크 숫자에 속지 않는 법

indiefounders

2026년 2월 18일

AI 모델이 나올 때마다 벤치마크 숫자가 쏟아집니다. MMLU 점수가 몇 퍼센트 올랐고, 수학 문제를 몇 개 더 풀었고, 코딩 성능이 초인적 수준에 도달했다는 발표입니다. 하지만 ARC Prize 재단의 Greg Kamradt는 질문합니다. 그 숫자들이 진짜 지능을 측정하고 있는 걸까요? Y Combinator 인터뷰에서 그가 밝힌 답은 인디 파운더가 AI 제품을 바라보는 관점을 근본적으로 바꿉니다.

SAT 만점은 지능이 아닙니다: 진짜 지능의 정의

ARC Prize 재단은 François Chollet의 2019년 논문 "On the Measure of Intelligence"에 기반한 매우 독자적인 지능 정의를 갖고 있습니다. 보통 지능이라고 하면 SAT에서 몇 점을 받았는지, 얼마나 어려운 수학 문제를 풀 수 있는지를 떠올립니다. 하지만 Chollet은 완전히 다른 정의를 제안했습니다. 지능은 새로운 것을 배우는 능력입니다.

AI가 체스에서 초인적이라는 것은 이미 알고 있습니다. 바둑에서도, 자율주행에서도 마찬가지입니다. 하지만 그 시스템들에게 다른 기술을 배우라고 하면 무너집니다. 이것이 핵심입니다. 한 분야에서 아무리 뛰어나도, 새로운 분야를 학습하는 능력이 없다면 그것은 진짜 지능이 아닙니다.

GPT-4는 4%밖에 못 풀었습니다: ARC 벤치마크가 드러낸 진실

Chollet은 정의만 제안한 것이 아닙니다. "새로운 것을 배우는 능력"을 직접 테스트하는 벤치마크도 함께 만들었습니다. ARC AGI 벤치마크입니다. 이 테스트의 특징은 일반인도 풀 수 있다는 점입니다. 회계사, 우버 운전기사, 누구나 풀 수 있는 문제들입니다.

그런데 2024년 기준, GPT-4 기본 모델의 정답률은 4%였습니다. 인간은 쉽게 풀지만 AI는 전혀 풀지 못하는 문제. 5년간 거의 발전이 없었습니다. 그러다 OpenAI의 o1이 등장하면서 21%로 뛰어올랐습니다. 이 급격한 도약은 추론(reasoning) 패러다임이 AI 발전에 결정적이라는 것을 ARC가 처음으로 포착한 사건이었습니다.

다른 벤치마크들은 점점 더 어려운 문제를 만듭니다. PhD++ 수준으로요. 하지만 ARC는 일반인이 풀 수 있는 문제인데 AI가 못 푸는 것을 테스트합니다. 거기에 아직 뭔가가 빠져있다는 뜻입니다.

벤치마크 숫자에 속지 마세요: 허영 지표의 함정

이제 OpenAI, xAI, Google, Anthropic 등 주요 기업들이 모델 출시 때 ARC AGI 점수를 함께 발표합니다. 좋은 신호이지만, Greg은 경계합니다. 큰 기업이 사용한다고 해서 미션이 완수된 것은 아닙니다.

특히 강화학습(RL) 환경을 만들어서 특정 벤치마크 점수를 끌어올리는 방식에 대해 그는 "두더지 잡기 게임"이라고 표현합니다. 특정 도메인에서 RL 환경을 구축하면 점수는 올라갑니다. 하지만 세상의 모든 과제에 대해 RL 환경을 만들 수는 없습니다. 인간은 환경 없이도 배웁니다.

인디 파운더에게 이것은 실질적인 경고입니다. AI 모델의 벤치마크 숫자를 보고 제품을 설계하면 안 됩니다. 그 숫자가 측정하는 것이 암기인지, 진짜 학습인지를 구분해야 합니다.

정확도만으로는 부족합니다: 효율성이 진짜 척도입니다

지능 측정에서 점점 중요해지는 요소가 있습니다. 단순히 문제를 맞히느냐가 아니라, 얼마나 적은 데이터로, 얼마나 적은 에너지로 새로운 기술을 습득하느냐입니다. Greg은 시간(wall clock)은 컴퓨팅 자원을 더 투입하면 줄일 수 있으므로 본질적이지 않다고 말합니다. 진짜 중요한 것은 두 가지입니다.

학습에 필요한 데이터 양. 인간이 몇 개의 예시만 보고 패턴을 파악하는데, AI는 수백만 개가 필요하다면 그것은 지능이 아닙니다.
실행에 필요한 에너지. 인간 뇌의 에너지 소비량은 이미 알려져 있습니다. AI가 같은 과제에 몇 배의 에너지를 쓰는지가 효율성의 척도입니다.

ARC AGI 3는 이를 측정하기 위해 턴 기반 비디오 게임 형태로 설계됩니다. 인간이 게임을 클리어하는 데 필요한 행동(action) 횟수와 AI의 행동 횟수를 비교합니다. 2016년 아타리 시절처럼 수백만 프레임을 무차별 대입하는 방식은 허용되지 않습니다.

ARC AGI 3는 설명서가 없습니다: 진짜 일반화의 테스트

2026년 출시 예정인 ARC AGI 3는 근본적으로 다릅니다. 기존 1, 2 버전이 정적 벤치마크였다면, 3는 상호작용형입니다. 약 150개의 비디오 게임 환경에서 행동하고, 피드백을 받고, 다시 행동하는 구조입니다.

가장 놀라운 부분은 이것입니다. 테스트를 받는 사람이나 AI에게 어떤 지시도 주어지지 않습니다. 영어도 없고, 기호도 없고, 심볼도 없습니다. 환경에 들어가서 몇 가지 행동을 해보고, 환경이 어떻게 반응하는지 관찰한 뒤, 궁극적인 목표가 무엇인지를 스스로 알아내야 합니다. 이것이야말로 현실 세계에서 인간이 하는 일입니다.

ARC를 풀어도 AGI는 아닙니다: 하지만 가장 강력한 증거입니다

만약 내일 어떤 팀이 ARC AGI에서 100%를 달성한다면 어떻게 될까요? Greg의 답은 명확합니다. Chollet은 처음부터 말해왔습니다. ARC AGI를 푸는 것은 AGI의 필요조건이지 충분조건이 아닙니다. ARC를 푸는 시스템이 곧 AGI는 아니지만, 일반화 능력에 대한 가장 권위 있는 증거가 됩니다.

그 팀이 내일 나타난다면, 우리는 대화를 나누고 싶습니다. 시스템을 분석하고, 아직 남아있는 실패 지점을 찾고, 진짜 AGI를 향해 세상을 안내하는 것이 우리의 역할입니다.

인디 파운더가 여기서 배울 것: 암기하는 AI 위에 제품을 쌓지 마세요

ARC Prize의 관점은 AI 제품을 만드는 인디 파운더에게 날카로운 통찰을 줍니다. 지금 AI가 잘하는 것은 대부분 패턴 매칭과 암기에 가깝습니다. 그 영역에서 제품을 만들면, 다음 모델이 나올 때 제품의 가치가 사라집니다. 모델이 그냥 해내기 때문입니다.

반대로, 새로운 상황에 적응하는 능력이 필요한 영역은 아직 AI가 약합니다. 사용자의 고유한 맥락을 이해하고, 본 적 없는 문제를 풀고, 적은 데이터로 새로운 패턴을 학습하는 영역입니다. 여기에 제품의 가치를 만드세요.

벤치마크 숫자가 올라갈 때마다 흥분하기보다, 그 숫자가 무엇을 측정하고 있는지를 물어보세요. 암기를 측정하는 벤치마크와 진짜 학습을 측정하는 벤치마크는 완전히 다른 이야기를 합니다. 그 차이를 아는 파운더만이 다음 모델이 나와도 살아남는 제품을 만들 수 있습니다.

이 글은 Y Combinator의 영상 How Intelligent Is AI, Really?을 기반으로 작성되었습니다.