AI가 '85점'이라 했을 때 신뢰해도 되는가 — 캘리브레이션 개념
AI가 사업계획서에 '85점'이라는 점수를 내면, 그 점수의 의미는 무엇일까요? '85점을 받은 사업계획서가 실제로 합격할 확률이 85%여야 한다'는 것이 직관적인 기대입니다. 학술적으로 이 일치도를 측정하는 개념이 '캘리브레이션(Calibration)'입니다. 이 글은 사용자 관점에서 캘리브레이션의 개념과 의미를 소개합니다.
AI가 사업계획서에 '85점'이라는 점수를 내면, 그 점수의 의미는 무엇일까요? '85점을 받은 사업계획서가 실제로 합격할 확률이 85%여야 한다'는 것이 직관적인 기대입니다. 학술적으로 이 일치도를 측정하는 개념이 '캘리브레이션(Calibration)'입니다. 이 글은 사용자 관점에서 캘리브레이션의 개념과 의미를 소개합니다.
기상청이 '내일 비 올 확률 80%'라고 예보했다고 가정합시다. 80%라고 예보한 100일 중 실제로 비가 80일 왔다면, 그 예보는 잘 캘리브레이션 된 것입니다. 만약 80%로 예보한 100일 중 실제로는 50일만 비가 왔다면, 그 예보는 '과대 자신(overconfident)'입니다.
AI가 사업계획서에 '합격 가능성 85%'라고 했을 때, 같은 점수를 받은 100건 중 실제로 약 85건이 합격해야 그 AI는 잘 캘리브레이션 된 것입니다. 차이가 클수록 AI가 자신감을 잘못 표현하고 있다는 신호입니다.
| AI 예측 합격 확률 | 실제 합격율 — 잘 보정된 경우 | 실제 합격율 — 과대 자신 |
|---|---|---|
| 50~60% | 약 55% | 20% |
| 60~70% | 약 65% | 30% |
| 70~80% | 약 75% | 45% |
| 80~90% | 약 85% | 60% |
Expected Calibration Error(ECE)는 AI 예측 확률과 실제 결과의 차이를 평균낸 지표입니다. 0에 가까울수록 잘 보정된 AI이며, 학술 연구에서 표준 측정 방법으로 사용됩니다. 이는 머신러닝 분야의 공개된 일반 개념입니다.
캘리브레이션은 학술 개념이지만 두 가지 한계가 있습니다. 첫째, 측정에는 충분한 검증 데이터가 필요합니다. 둘째, 시장·산업이 변하면 과거 캘리브레이션이 현재에도 유효한지 별도 검증이 필요합니다.
OpenSeed는 'AI 심사 결과는 인간 심사위원·실제 결과와 함께 검증되어야 한다'는 원칙을 따릅니다. 사업계획서 검증 데이터(투자유치·지원사업 결과)를 누적해 AI 심사 결과의 일치율을 측정하고, 그 결과는 어드민 대시보드에서 투명하게 공개합니다.