기술·학술

AI가 '85점'이라 했을 때 신뢰해도 되는가 — 캘리브레이션 개념

2026.05.05·5·OPENSEED

AI가 사업계획서에 '85점'이라는 점수를 내면, 그 점수의 의미는 무엇일까요? '85점을 받은 사업계획서가 실제로 합격할 확률이 85%여야 한다'는 것이 직관적인 기대입니다. 학술적으로 이 일치도를 측정하는 개념이 '캘리브레이션(Calibration)'입니다. 이 글은 사용자 관점에서 캘리브레이션의 개념과 의미를 소개합니다.

들어가며.

#캘리브레이션이란 — 비유로 이해하기

기상청이 '내일 비 올 확률 80%'라고 예보했다고 가정합시다. 80%라고 예보한 100일 중 실제로 비가 80일 왔다면, 그 예보는 잘 캘리브레이션 된 것입니다. 만약 80%로 예보한 100일 중 실제로는 50일만 비가 왔다면, 그 예보는 '과대 자신(overconfident)'입니다.

TIP
캘리브레이션은 'AI가 자신 있게 말한 만큼 실제로 맞히는가'에 대한 측정입니다. 점수의 정확성이 아니라 '점수가 의미하는 확률의 정확성'을 봅니다.
02

#사업계획서 평가에 적용하면

AI가 사업계획서에 '합격 가능성 85%'라고 했을 때, 같은 점수를 받은 100건 중 실제로 약 85건이 합격해야 그 AI는 잘 캘리브레이션 된 것입니다. 차이가 클수록 AI가 자신감을 잘못 표현하고 있다는 신호입니다.

AI 예측 합격 확률실제 합격율 — 잘 보정된 경우실제 합격율 — 과대 자신
50~60%약 55%20%
60~70%약 65%30%
70~80%약 75%45%
80~90%약 85%60%
03

#ECE — 캘리브레이션을 측정하는 지표

Expected Calibration Error(ECE)는 AI 예측 확률과 실제 결과의 차이를 평균낸 지표입니다. 0에 가까울수록 잘 보정된 AI이며, 학술 연구에서 표준 측정 방법으로 사용됩니다. 이는 머신러닝 분야의 공개된 일반 개념입니다.

  • ECE < 0.1 — 잘 보정됨 (예측이 실제와 평균 10%p 이내 일치)
  • 0.1 ≤ ECE < 0.2 — 보정 필요
  • ECE ≥ 0.2 — 과대 또는 과소 자신, 결과 해석 주의
주의
ECE는 '평균값'이라 특정 점수 구간에서만 큰 오차가 있어도 평균이 작게 보일 수 있습니다. 구간별 캘리브레이션 그래프를 함께 봐야 정확한 진단이 됩니다.
04

#사용자가 알아야 할 한계

캘리브레이션은 학술 개념이지만 두 가지 한계가 있습니다. 첫째, 측정에는 충분한 검증 데이터가 필요합니다. 둘째, 시장·산업이 변하면 과거 캘리브레이션이 현재에도 유효한지 별도 검증이 필요합니다.

  • 검증 데이터 — 최소 수십~수백 건의 '예측 vs 실제 결과' 짝이 필요
  • 시점 의존성 — 작년 시장 기준의 캘리브레이션이 올해 그대로 유효하지 않음
  • 산업 차이 — IT·바이오·D2C 등 산업별 캘리브레이션 별도 측정 권장
정리.

#OpenSeed의 입장

OpenSeed는 'AI 심사 결과는 인간 심사위원·실제 결과와 함께 검증되어야 한다'는 원칙을 따릅니다. 사업계획서 검증 데이터(투자유치·지원사업 결과)를 누적해 AI 심사 결과의 일치율을 측정하고, 그 결과는 어드민 대시보드에서 투명하게 공개합니다.

CTA
OpenSeed AI 심사는 단건 5,000원입니다. 사용자 관점에서 점수의 의미와 함께 그 점수의 근거를 함께 제공합니다.

AI 점수의 의미, 근거와 함께

단건 5,000원으로 점수와 그 근거를 함께 받아보세요.

🔒 베타 기간 무료 · 핵심 아이디어는 저장하지 않아요

OpenSeed AI 심사 시작 →

관련 AI 피드백 서비스.

AI 피드백
사업계획서 AI 추천
AI 피드백
예비창업패키지 점검
AI 피드백
초기창업패키지 점검
시리즈 · AI 심사 신뢰성 6부작3/6
← 이전같은 사업계획서, 같은 점수 — AI 심사 일관성의 가치다음 →왜 한 명이 아닌 21명이 보는가 — 분업 심사의 가치
RELATED · 같은 카테고리기술·학술
딥테크 사업계획서에서 TRL을 심사위원에게 설명하는 법2026.06.20 · 8AI 에이전트 심사란 무엇인가 — 챗봇에게 물어보는 것과 무엇이 다른가2026.06.01 · 8Anthropic이 IB를 자동화했다 — OpenSeed에는 왜 호재인가2026.05.06 · 7사업계획서 평가의 인간 편향 — Halo·Anchoring·Recency를 AI가 보완하는 지점2026.05.06 · 8AI 사업계획서 심사를 믿어도 되는가 — 사용자 체크리스트 4가지2026.05.05 · 6
← 디스커버리 목록으로