2. 사업계획서 평가에 적용하면

AI가 사업계획서에 '합격 가능성 85%'라고 했을 때, 같은 점수를 받은 100건 중 실제로 약 85건이 합격해야 그 AI는 잘 캘리브레이션 된 것입니다. 차이가 클수록 AI가 자신감을 잘못 표현하고 있다는 신호입니다. AI 예측 합격 확률 | 실제 합격율 — 잘 보정된 경우 | 실제 합격율 — 과대 자신 || 50~60% | 약 55% | 20% || 60~70% | 약 65% | 30% || 70~80% | 약 75% | 45% || 80~90% | 약 85% | 60%

3. ECE — 캘리브레이션을 측정하는 지표

Expected Calibration Error(ECE)는 AI 예측 확률과 실제 결과의 차이를 평균낸 지표입니다. 0에 가까울수록 잘 보정된 AI이며, 학술 연구에서 표준 측정 방법으로 사용됩니다. 이는 머신러닝 분야의 공개된 일반 개념입니다. ECE < 0.1 — 잘 보정됨 (예측이 실제와 평균 10%p 이내 일치) / 0.1 ≤ ECE < 0.2 — 보정 필요 / ECE ≥ 0.2 — 과대 또는 과소 자신, 결과 해석 주의 ECE는 '평균값'이라 특정 점수 구간에서만 큰 오차가 있어도 평균이 작게 보일 수 있습니다. 구간별 캘리브레이션 그래프를 함께 봐야 정확한 진단이 됩니다.

4. 사용자가 알아야 할 한계

캘리브레이션은 학술 개념이지만 두 가지 한계가 있습니다. 첫째, 측정에는 충분한 검증 데이터가 필요합니다. 둘째, 시장·산업이 변하면 과거 캘리브레이션이 현재에도 유효한지 별도 검증이 필요합니다. 검증 데이터 — 최소 수십~수백 건의 '예측 vs 실제 결과' 짝이 필요 / 시점 의존성 — 작년 시장 기준의 캘리브레이션이 올해 그대로 유효하지 않음 / 산업 차이 — IT·바이오·D2C 등 산업별 캘리브레이션 별도 측정 권장

기술·학술2026-05-05 · 5분 읽기

AI가 '85점'이라 했을 때 신뢰해도 되는가 — 캘리브레이션 개념

AI가 사업계획서에 '85점'이라는 점수를 내면, 그 점수의 의미는 무엇일까요? '85점을 받은 사업계획서가 실제로 합격할 확률이 85%여야 한다'는 것이 직관적인 기대입니다. 학술적으로 이 일치도를 측정하는 개념이 '캘리브레이션(Calibration)'입니다. 이 글은 사용자 관점에서 캘리브레이션의 개념과 의미를 소개합니다.

Intro · 들어가며

#캘리브레이션이란 — 비유로 이해하기

기상청이 '내일 비 올 확률 80%'라고 예보했다고 가정합시다. 80%라고 예보한 100일 중 실제로 비가 80일 왔다면, 그 예보는 잘 캘리브레이션 된 것입니다. 만약 80%로 예보한 100일 중 실제로는 50일만 비가 왔다면, 그 예보는 '과대 자신(overconfident)'입니다.

TIP

캘리브레이션은 'AI가 자신 있게 말한 만큼 실제로 맞히는가'에 대한 측정입니다. 점수의 정확성이 아니라 '점수가 의미하는 확률의 정확성'을 봅니다.

#사업계획서 평가에 적용하면

AI가 사업계획서에 '합격 가능성 85%'라고 했을 때, 같은 점수를 받은 100건 중 실제로 약 85건이 합격해야 그 AI는 잘 캘리브레이션 된 것입니다. 차이가 클수록 AI가 자신감을 잘못 표현하고 있다는 신호입니다.

AI 예측 합격 확률	실제 합격율 — 잘 보정된 경우	실제 합격율 — 과대 자신
50~60%	약 55%	20%
60~70%	약 65%	30%
70~80%	약 75%	45%
80~90%	약 85%	60%

#ECE — 캘리브레이션을 측정하는 지표

Expected Calibration Error(ECE)는 AI 예측 확률과 실제 결과의 차이를 평균낸 지표입니다. 0에 가까울수록 잘 보정된 AI이며, 학술 연구에서 표준 측정 방법으로 사용됩니다. 이는 머신러닝 분야의 공개된 일반 개념입니다.

ECE < 0.1 — 잘 보정됨 (예측이 실제와 평균 10%p 이내 일치)
0.1 ≤ ECE < 0.2 — 보정 필요
ECE ≥ 0.2 — 과대 또는 과소 자신, 결과 해석 주의

주의

ECE는 '평균값'이라 특정 점수 구간에서만 큰 오차가 있어도 평균이 작게 보일 수 있습니다. 구간별 캘리브레이션 그래프를 함께 봐야 정확한 진단이 됩니다.

#사용자가 알아야 할 한계

캘리브레이션은 학술 개념이지만 두 가지 한계가 있습니다. 첫째, 측정에는 충분한 검증 데이터가 필요합니다. 둘째, 시장·산업이 변하면 과거 캘리브레이션이 현재에도 유효한지 별도 검증이 필요합니다.

검증 데이터 — 최소 수십~수백 건의 '예측 vs 실제 결과' 짝이 필요
시점 의존성 — 작년 시장 기준의 캘리브레이션이 올해 그대로 유효하지 않음
산업 차이 — IT·바이오·D2C 등 산업별 캘리브레이션 별도 측정 권장

Summary · 정리

#OpenSeed의 입장

OpenSeed는 'AI 심사 결과는 인간 심사위원·실제 결과와 함께 검증되어야 한다'는 원칙을 따릅니다. 사업계획서 검증 데이터(투자유치·지원사업 결과)를 누적해 AI 심사 결과의 일치율을 측정하고, 그 결과는 어드민 대시보드에서 투명하게 공개합니다.

CTA

OpenSeed AI 심사는 단건 5,000원입니다. 사용자 관점에서 점수의 의미와 함께 그 점수의 근거를 함께 제공합니다.

AI 점수의 의미, 근거와 함께

단건 5,000원으로 점수와 그 근거를 함께 받아보세요.

AI 심사 서비스 보기 →