사업계획서 평가의 인간 편향 — Halo·Anchoring·Recency를 AI가 보완하는 지점
사업계획서 평가위원도 사람입니다. 첫 슬라이드의 인상이 후속 점수를 물들이고, 처음 본 큰 숫자가 비교의 기준점으로 굳고, 마지막 페이지의 한 줄이 점수표를 흔듭니다. 이건 평가위원의 자질 문제가 아니라 100년 가까이 누적된 인지심리학의 발견입니다. 이 글은 인간 평가에서 반복 검증된 4가지 인지 편향을 학술 근거와 함께 정리하고, AI 분업 심사가 어떤 지점을 완화하고 어떤 한계는 새로 떠안는지, 그리고 잘 설계된 인간 심사와 어떻게 협업해야 가장 강한 결과가 나오는지를 정리합니다.
#100년 된 발견 — 인간 평가는 일관되지 않다
1920년 Edward Thorndike는 항공사관 137명에 대한 지휘관의 평가 데이터를 분석했습니다. 신체·지능·인성 같은 독립적이어야 할 평가 항목들이 비정상적으로 높게 상관되어 있었습니다. 한 항목에 대한 좋은 인상이 다른 모든 항목으로 번지는 현상 — 이를 그는 '후광 효과(Halo Effect)'라고 명명했습니다.
Thorndike의 결론은 단순했습니다. '평가자는 한 사람을 독립된 여러 자질의 합으로 보지 못한다. 전반적으로 좋다 또는 나쁘다라는 인상이 모든 개별 판단을 물들인다.' 이 발견은 100년이 지난 지금도 채용·승진·심사 평가의 표준 교과서에 실립니다.
#사업계획서 평가에 등장하는 4가지 편향
Halo는 시작일 뿐입니다. 채용·평가·심사 일반에서 반복 검증된 인지 편향 중 사업계획서 평가에도 동일 메커니즘으로 적용될 가능성이 높은 것을 4가지로 추렸습니다. 사업계획서 평가에 한정된 대규모 실증 연구는 아직 적지만, 평가 대상이 사람·문서로 바뀌어도 평가자의 인지 시스템은 동일하다는 게 일반적 견해입니다.
| 편향 | 정의 | 사업계획서 평가 사례 |
|---|---|---|
| Halo Effect | 한 인상이 무관한 항목의 평가까지 물들임 | 팀 슬라이드의 인상이 좋으면 시장 분석·재무 추정도 후하게 채점 |
| Anchoring | 처음 본 숫자·사실이 후속 판단의 기준점이 됨 | TAM 5조를 먼저 본 뒤에는 SOM 100억이 작아 보임 |
| Recency Bias | 마지막에 본 정보가 과대 비중으로 반영 | 마지막 슬라이드의 카피 한 줄이 전체 점수를 흔듦 |
| Confirmation Bias | 초기 가설을 뒷받침하는 근거만 선택적으로 인용 | '한국 시장은 작다'고 가정한 위원은 그 증거만 본문에서 찾음 |
#학술적으로 측정된 편차의 크기
편향은 추상적 우려가 아닙니다. 실험적으로 반복 검증된 효과의 크기는 다음과 같습니다.
- Anchoring — Tversky & Kahneman(1974)의 고전 실험: 룰렛으로 무작위 숫자(10 또는 65)를 본 뒤 UN의 아프리카 국가 비율을 추정하게 했더니 10을 본 그룹은 중앙값 25%, 65를 본 그룹은 45%. 평가와 무관한 무작위 숫자가 20%p의 추정 차이를 만들어 냄
- Anchoring — 같은 논문: 8×7×6×5×4×3×2×1을 추정한 그룹은 중앙값 2,250, 1×2×3×4×5×6×7×8을 추정한 그룹은 512. 정답은 동일(40,320)인데 제시 순서만 다름
- VC 평가 — Gompers et al.(2020) JFE: 885명 VC를 대상으로 한 설문에서 투자 결정 1순위는 '팀'. 사업·기술·시장보다 팀을 더 중요하게 봄. 팀이 의사결정에서 가장 큰 가중치를 갖는다는 사실은 — 만약 평가가 영역별로 분리되지 않았다면 — 팀에 대한 첫인상이 다른 영역 평가까지 물들이는 후광 효과의 영향력도 같이 커진다는 뜻. (팀 가중치가 높다는 것 자체가 후광의 직접 증거는 아님)
#AI 분업 심사가 보완하는 지점
OpenSeed가 종합 평가자 한 명이 아닌 영역별 심사역으로 분업하는 이유 중 하나는 이 편향들의 작동 경로를 줄이기 위해서입니다. '구조적 차단'이라고는 하지 않습니다 — 분업이 편향을 0으로 만들지는 않습니다. 각 편향에 대해 어떤 방식으로 완화되는지 정리하면 다음과 같습니다.
| 편향 | AI 분업 심사의 완화 메커니즘 |
|---|---|
| Halo Effect | 각 심사역이 자기 영역에 대한 점수·근거만 별도로 출력. 팀 평가 점수가 좋다고 해서 그 점수 자체가 시장 심사역의 점수 산출에 직접 입력되지는 않음 — 영역 간 점수 전이를 차단(단, 같은 사업계획서 본문은 공유) |
| Anchoring | 심사역마다 평가 기준과 출력 영역을 분리. 다른 영역의 큰 숫자(예: TAM)가 본인 영역(예: SOM 검증) 점수의 직접 기준점이 되지 않음 |
| Recency Bias | AI는 평가 시간대·식사·피로 같은 인간적 변수에 영향받지 않음. 100번째 사업계획서든 1번째든 동일한 처리 |
| Confirmation Bias | 각 심사역이 독립적으로 작동. 한 심사역의 가설이 다른 심사역의 추론 방향에 직접 흘러들지 않음. 의견이 갈리면 사용자에게 충돌 신호로 표시 |
여기에 일관성 보장(같은 입력 = 같은 결과)이 더해집니다. 같은 사업계획서를 두 번 제출했을 때 결과 변동이 통제되면 사용자는 '이번엔 운이 안 좋았다'가 아니라 '이 영역을 수정하면 점수가 오른다'를 학습할 수 있습니다.
#AI도 자유롭지 않다 — 솔직한 한계
AI가 인간 편향에서 완전히 자유롭다고 주장하면 그건 또 다른 형태의 후광입니다. AI 분업 심사도 다음 한계를 안고 있습니다.
- 학습 데이터 편향 — 과거 합격 사업계획서에 특정 산업·지역·창업자 인구 통계가 과대 표현되어 있으면 AI도 그 편향을 학습
- Position Bias — 긴 컨텍스트에서 앞부분·끝부분의 정보가 중간보다 강하게 반영되는 현상이 LLM에서도 관찰됨(Lost in the Middle 등). 인간의 Recency가 약화될 뿐 0이 아님
- 공통 본문 입력 — 영역별 심사역도 같은 사업계획서 본문을 공유하기 때문에, 본문 안에서 한 영역에 강하게 어필하는 서술이 다른 영역 점수에까지 미세하게 영향을 줄 가능성이 남음
- 프롬프트 의존성 — 심사역에게 전달하는 지시문이 잘못 설계되면 AI도 특정 결론을 향해 추론을 끌고 갈 수 있음 (Confirmation의 변형)
- 검증 데이터 한계 — '실제 합격·실패'라는 정답 라벨 없이 AI 심사 결과만 봐서는 보정 정확도를 측정할 수 없음
#인간 심사도 설계하면 편향을 줄일 수 있다
공정한 비교를 위해 짚을 점이 있습니다. 인간 평가에서 편향이 발생한다고 해서, 모든 인간 심사가 그 편향에 그대로 노출된 채 운영되는 것은 아닙니다. 다음과 같은 설계는 인간 심사의 편향을 상당히 줄입니다.
| 인간 심사 설계 | 줄이는 편향 |
|---|---|
| 블라인드 리뷰 (창업자 정보 가림) | 후광·인구통계 편향 |
| 다중 심사위원 + 점수 평균 | 개별 위원 편차의 통계적 상쇄 |
| 루브릭·체크리스트 사전 정의 | 평가 기준의 사후 합리화 차단 |
| 평가 순서 랜덤화 | Recency·Anchoring 일부 완화 |
| 사전 점수 비공개·독립 채점 후 합의 | 심사위원 간 인상 전이 차단 |
따라서 비교는 '인간 vs AI'가 아니라 '구조화되지 않은 인간 단독 심사 vs 설계된 인간 심사 + AI 분업 심사'에 가깝습니다. 후자가 가장 강합니다.
#그래서 AI와 인간은 어떻게 협업해야 하는가
결론은 AI가 인간 평가위원을 대체한다는 것이 아닙니다. 두 시스템의 약점이 다르므로 함께 쓸 때 가장 신뢰도 높은 결과가 나옵니다.
- AI 분업 심사 → 1차 점검: 영역별 누락·약점·일관성 검증을 빠르게, 인간의 인지 피로·인상 전이 없이
- 인간 심사위원 → 최종 판정: 새로운 산업·창업자 진정성·사회적 가치 등 정성 판단. 단, 위에 정리한 편향 완화 설계와 함께
- 사용자 → 의사결정자: 두 결과의 차이를 자기 사업계획서의 추가 점검 영역으로 활용