AI가 '85점'이라 했을 때 신뢰해도 되는가 — 캘리브레이션 개념
AI가 사업계획서에 '85점'이라는 점수를 내면, 그 점수의 의미는 무엇일까요? '85점을 받은 사업계획서가 실제로 합격할 확률이 85%여야 한다'는 것이 직관적인 기대입니다. 학술적으로 이 일치도를 측정하는 개념이 '캘리브레이션(Calibration)'입니다. 이 글은 사용자 관점에서 캘리브레이션의 개념과 의미를 소개합니다.
#캘리브레이션이란 — 비유로 이해하기
기상청이 '내일 비 올 확률 80%'라고 예보했다고 가정합시다. 80%라고 예보한 100일 중 실제로 비가 80일 왔다면, 그 예보는 잘 캘리브레이션 된 것입니다. 만약 80%로 예보한 100일 중 실제로는 50일만 비가 왔다면, 그 예보는 '과대 자신(overconfident)'입니다.
#사업계획서 평가에 적용하면
AI가 사업계획서에 '합격 가능성 85%'라고 했을 때, 같은 점수를 받은 100건 중 실제로 약 85건이 합격해야 그 AI는 잘 캘리브레이션 된 것입니다. 차이가 클수록 AI가 자신감을 잘못 표현하고 있다는 신호입니다.
| AI 예측 합격 확률 | 실제 합격율 — 잘 보정된 경우 | 실제 합격율 — 과대 자신 |
|---|---|---|
| 50~60% | 약 55% | 20% |
| 60~70% | 약 65% | 30% |
| 70~80% | 약 75% | 45% |
| 80~90% | 약 85% | 60% |
#ECE — 캘리브레이션을 측정하는 지표
Expected Calibration Error(ECE)는 AI 예측 확률과 실제 결과의 차이를 평균낸 지표입니다. 0에 가까울수록 잘 보정된 AI이며, 학술 연구에서 표준 측정 방법으로 사용됩니다. 이는 머신러닝 분야의 공개된 일반 개념입니다.
- ECE < 0.1 — 잘 보정됨 (예측이 실제와 평균 10%p 이내 일치)
- 0.1 ≤ ECE < 0.2 — 보정 필요
- ECE ≥ 0.2 — 과대 또는 과소 자신, 결과 해석 주의
#사용자가 알아야 할 한계
캘리브레이션은 학술 개념이지만 두 가지 한계가 있습니다. 첫째, 측정에는 충분한 검증 데이터가 필요합니다. 둘째, 시장·산업이 변하면 과거 캘리브레이션이 현재에도 유효한지 별도 검증이 필요합니다.
- 검증 데이터 — 최소 수십~수백 건의 '예측 vs 실제 결과' 짝이 필요
- 시점 의존성 — 작년 시장 기준의 캘리브레이션이 올해 그대로 유효하지 않음
- 산업 차이 — IT·바이오·D2C 등 산업별 캘리브레이션 별도 측정 권장
#OpenSeed의 입장
OpenSeed는 'AI 심사 결과는 인간 심사위원·실제 결과와 함께 검증되어야 한다'는 원칙을 따릅니다. 사업계획서 검증 데이터(투자유치·지원사업 결과)를 누적해 AI 심사 결과의 일치율을 측정하고, 그 결과는 어드민 대시보드에서 투명하게 공개합니다.