2. 사업계획서 평가에 등장하는 4가지 편향

Halo는 시작일 뿐입니다. 채용·평가·심사 일반에서 반복 검증된 인지 편향 중 사업계획서 평가에도 동일 메커니즘으로 적용될 가능성이 높은 것을 4가지로 추렸습니다. 사업계획서 평가에 한정된 대규모 실증 연구는 아직 적지만, 평가 대상이 사람·문서로 바뀌어도 평가자의 인지 시스템은 동일하다는 게 일반적 견해입니다. 편향 | 정의 | 사업계획서 평가 사례 || Halo Effect | 한 인상이 무관한 항목의 평가까지 물들임 | 팀 슬라이드의 인상이 좋으면 시장 분석·재무 추정도 후하게 채점 || Anchoring | 처음 본 숫자·사실이 후속 판단의 기준점이 됨 | TAM 5조를 먼저 본 뒤에는 SOM 100억이 작아 보임 || Recency Bias | 마지막에 본 정보가 과대 비중으로 반영 | 마지막 슬라이드의 카피 한 줄이 전체 점수를 흔듦 || Confirmation Bias | 초기 가설을 뒷받침하는 근거만 선택적으로 인용 | '한국 시장은 작다'고 가정한 위원은 그 증거만 본문에서 찾음 이 4가지는 평가위원의 능력이나 성실성과 무관합니다. 인간의 인지 시스템이 정보를 처리하는 방식 자체에서 발생하는 구조적 오류이며, 다양한 영역에서 반복 관찰되어 왔습니다.

3. 학술적으로 측정된 편차의 크기

편향은 추상적 우려가 아닙니다. 실험적으로 반복 검증된 효과의 크기는 다음과 같습니다. Anchoring — Tversky & Kahneman(1974)의 고전 실험: 룰렛으로 무작위 숫자(10 또는 65)를 본 뒤 UN의 아프리카 국가 비율을 추정하게 했더니 10을 본 그룹은 중앙값 25%, 65를 본 그룹은 45%. 평가와 무관한 무작위 숫자가 20%p의 추정 차이를 만들어 냄 / Anchoring — 같은 논문: 8×7×6×5×4×3×2×1을 추정한 그룹은 중앙값 2,250, 1×2×3×4×5×6×7×8을 추정한 그룹은 512. 정답은 동일(40,320)인데 제시 순서만 다름 / VC 평가 — Gompers et al.(2020) JFE: 885명 VC를 대상으로 한 설문에서 투자 결정 1순위는 '팀'. 사업·기술·시장보다 팀을 더 중요하게 봄. 팀이 의사결정에서 가장 큰 가중치를 갖는다는 사실은 — 만약 평가가 영역별로 분리되지 않았다면 — 팀에 대한 첫인상이 다른 영역 평가까지 물들이는 후광 효과의 영향력도 같이 커진다는 뜻. (팀 가중치가 높다는 것 자체가 후광의 직접 증거는 아님) 출처 — Tversky, A. & Kahneman, D. (1974). "Judgment under Uncertainty: Heuristics and Biases." Science, 185(4157), 1124–1131. / Gompers, P., Gornall, W., Kaplan, S. N., & Strebulaev, I. A. (2020). "How do venture capitalists make decisions?" Journal of Financial Economics, 135(1), 169–190.

4. AI 분업 심사가 보완하는 지점

OpenSeed가 종합 평가자 한 명이 아닌 영역별 심사역으로 분업하는 이유 중 하나는 이 편향들의 작동 경로를 줄이기 위해서입니다. '구조적 차단'이라고는 하지 않습니다 — 분업이 편향을 0으로 만들지는 않습니다. 각 편향에 대해 어떤 방식으로 완화되는지 정리하면 다음과 같습니다. 편향 | AI 분업 심사의 완화 메커니즘 || Halo Effect | 각 심사역이 자기 영역에 대한 점수·근거만 별도로 출력. 팀 평가 점수가 좋다고 해서 그 점수 자체가 시장 심사역의 점수 산출에 직접 입력되지는 않음 — 영역 간 점수 전이를 차단(단, 같은 사업계획서 본문은 공유) || Anchoring | 심사역마다 평가 기준과 출력 영역을 분리. 다른 영역의 큰 숫자(예: TAM)가 본인 영역(예: SOM 검증) 점수의 직접 기준점이 되지 않음 || Recency Bias | AI는 평가 시간대·식사·피로 같은 인간적 변수에 영향받지 않음. 100번째 사업계획서든 1번째든 동일한 처리 || Confirmation Bias | 각 심사역이 독립적으로 작동. 한 심사역의 가설이 다른 심사역의 추론 방향에 직접 흘러들지 않음. 의견이 갈리면 사용자에게 충돌 신호로 표시 여기에 일관성 보장(같은 입력 = 같은 결과)이 더해집니다. 같은 사업계획서를 두 번 제출했을 때 결과 변동이 통제되면 사용자는 '이번엔 운이 안 좋았다'가 아니라 '이 영역을 수정하면 점수가 오른다'를 학습할 수 있습니다.

5. AI도 자유롭지 않다 — 솔직한 한계

AI가 인간 편향에서 완전히 자유롭다고 주장하면 그건 또 다른 형태의 후광입니다. AI 분업 심사도 다음 한계를 안고 있습니다. 학습 데이터 편향 — 과거 합격 사업계획서에 특정 산업·지역·창업자 인구 통계가 과대 표현되어 있으면 AI도 그 편향을 학습 / Position Bias — 긴 컨텍스트에서 앞부분·끝부분의 정보가 중간보다 강하게 반영되는 현상이 LLM에서도 관찰됨(Lost in the Middle 등). 인간의 Recency가 약화될 뿐 0이 아님 / 공통 본문 입력 — 영역별 심사역도 같은 사업계획서 본문을 공유하기 때문에, 본문 안에서 한 영역에 강하게 어필하는 서술이 다른 영역 점수에까지 미세하게 영향을 줄 가능성이 남음 / 프롬프트 의존성 — 심사역에게 전달하는 지시문이 잘못 설계되면 AI도 특정 결론을 향해 추론을 끌고 갈 수 있음 (Confirmation의 변형) / 검증 데이터 한계 — '실제 합격·실패'라는 정답 라벨 없이 AI 심사 결과만 봐서는 보정 정확도를 측정할 수 없음 'AI는 객관적이다'는 표현보다 '인간 평가자에게서 관찰되는 인지 편향 중 일부에 대해 구조적으로 더 강하다, 단 다른 형태의 편향은 새로 떠안는다'가 더 정직한 서술입니다.

6. 인간 심사도 설계하면 편향을 줄일 수 있다

공정한 비교를 위해 짚을 점이 있습니다. 인간 평가에서 편향이 발생한다고 해서, 모든 인간 심사가 그 편향에 그대로 노출된 채 운영되는 것은 아닙니다. 다음과 같은 설계는 인간 심사의 편향을 상당히 줄입니다. 인간 심사 설계 | 줄이는 편향 || 블라인드 리뷰 (창업자 정보 가림) | 후광·인구통계 편향 || 다중 심사위원 + 점수 평균 | 개별 위원 편차의 통계적 상쇄 || 루브릭·체크리스트 사전 정의 | 평가 기준의 사후 합리화 차단 || 평가 순서 랜덤화 | Recency·Anchoring 일부 완화 || 사전 점수 비공개·독립 채점 후 합의 | 심사위원 간 인상 전이 차단 따라서 비교는 '인간 vs AI'가 아니라 '구조화되지 않은 인간 단독 심사 vs 설계된 인간 심사 + AI 분업 심사'에 가깝습니다. 후자가 가장 강합니다.

7. 그래서 AI와 인간은 어떻게 협업해야 하는가

결론은 AI가 인간 평가위원을 대체한다는 것이 아닙니다. 두 시스템의 약점이 다르므로 함께 쓸 때 가장 신뢰도 높은 결과가 나옵니다. AI 분업 심사 → 1차 점검: 영역별 누락·약점·일관성 검증을 빠르게, 인간의 인지 피로·인상 전이 없이 / 인간 심사위원 → 최종 판정: 새로운 산업·창업자 진정성·사회적 가치 등 정성 판단. 단, 위에 정리한 편향 완화 설계와 함께 / 사용자 → 의사결정자: 두 결과의 차이를 자기 사업계획서의 추가 점검 영역으로 활용 OpenSeed는 사업 프로필에 따라 기본 7인 + 전문직 심사역을 더해 최대 14인이 같은 사업계획서를 영역별로 분업합니다. 인간 평가의 인지 편향 중 일부를 구조적으로 줄이는 1차 점검 도구로 단건 5,000원에 활용해 보세요.

기술·학술2026-05-06 · 8분 읽기

사업계획서 평가의 인간 편향 — Halo·Anchoring·Recency를 AI가 보완하는 지점

사업계획서 평가위원도 사람입니다. 첫 슬라이드의 인상이 후속 점수를 물들이고, 처음 본 큰 숫자가 비교의 기준점으로 굳고, 마지막 페이지의 한 줄이 점수표를 흔듭니다. 이건 평가위원의 자질 문제가 아니라 100년 가까이 누적된 인지심리학의 발견입니다. 이 글은 인간 평가에서 반복 검증된 4가지 인지 편향을 학술 근거와 함께 정리하고, AI 분업 심사가 어떤 지점을 완화하고 어떤 한계는 새로 떠안는지, 그리고 잘 설계된 인간 심사와 어떻게 협업해야 가장 강한 결과가 나오는지를 정리합니다.

Intro · 들어가며

#100년 된 발견 — 인간 평가는 일관되지 않다

1920년 Edward Thorndike는 항공사관 137명에 대한 지휘관의 평가 데이터를 분석했습니다. 신체·지능·인성 같은 독립적이어야 할 평가 항목들이 비정상적으로 높게 상관되어 있었습니다. 한 항목에 대한 좋은 인상이 다른 모든 항목으로 번지는 현상 — 이를 그는 '후광 효과(Halo Effect)'라고 명명했습니다.

Thorndike의 결론은 단순했습니다. '평가자는 한 사람을 독립된 여러 자질의 합으로 보지 못한다. 전반적으로 좋다 또는 나쁘다라는 인상이 모든 개별 판단을 물들인다.' 이 발견은 100년이 지난 지금도 채용·승진·심사 평가의 표준 교과서에 실립니다.

TIP

출처 — Thorndike, E. L. (1920). "A Constant Error in Psychological Ratings." Journal of Applied Psychology, 4(1), 25–29.

#사업계획서 평가에 등장하는 4가지 편향

Halo는 시작일 뿐입니다. 채용·평가·심사 일반에서 반복 검증된 인지 편향 중 사업계획서 평가에도 동일 메커니즘으로 적용될 가능성이 높은 것을 4가지로 추렸습니다. 사업계획서 평가에 한정된 대규모 실증 연구는 아직 적지만, 평가 대상이 사람·문서로 바뀌어도 평가자의 인지 시스템은 동일하다는 게 일반적 견해입니다.

편향	정의	사업계획서 평가 사례
Halo Effect	한 인상이 무관한 항목의 평가까지 물들임	팀 슬라이드의 인상이 좋으면 시장 분석·재무 추정도 후하게 채점
Anchoring	처음 본 숫자·사실이 후속 판단의 기준점이 됨	TAM 5조를 먼저 본 뒤에는 SOM 100억이 작아 보임
Recency Bias	마지막에 본 정보가 과대 비중으로 반영	마지막 슬라이드의 카피 한 줄이 전체 점수를 흔듦
Confirmation Bias	초기 가설을 뒷받침하는 근거만 선택적으로 인용	'한국 시장은 작다'고 가정한 위원은 그 증거만 본문에서 찾음

주의

이 4가지는 평가위원의 능력이나 성실성과 무관합니다. 인간의 인지 시스템이 정보를 처리하는 방식 자체에서 발생하는 구조적 오류이며, 다양한 영역에서 반복 관찰되어 왔습니다.

#학술적으로 측정된 편차의 크기

편향은 추상적 우려가 아닙니다. 실험적으로 반복 검증된 효과의 크기는 다음과 같습니다.

Anchoring — Tversky & Kahneman(1974)의 고전 실험: 룰렛으로 무작위 숫자(10 또는 65)를 본 뒤 UN의 아프리카 국가 비율을 추정하게 했더니 10을 본 그룹은 중앙값 25%, 65를 본 그룹은 45%. 평가와 무관한 무작위 숫자가 20%p의 추정 차이를 만들어 냄
Anchoring — 같은 논문: 8×7×6×5×4×3×2×1을 추정한 그룹은 중앙값 2,250, 1×2×3×4×5×6×7×8을 추정한 그룹은 512. 정답은 동일(40,320)인데 제시 순서만 다름
VC 평가 — Gompers et al.(2020) JFE: 885명 VC를 대상으로 한 설문에서 투자 결정 1순위는 '팀'. 사업·기술·시장보다 팀을 더 중요하게 봄. 팀이 의사결정에서 가장 큰 가중치를 갖는다는 사실은 — 만약 평가가 영역별로 분리되지 않았다면 — 팀에 대한 첫인상이 다른 영역 평가까지 물들이는 후광 효과의 영향력도 같이 커진다는 뜻. (팀 가중치가 높다는 것 자체가 후광의 직접 증거는 아님)

TIP

출처 — Tversky, A. & Kahneman, D. (1974). "Judgment under Uncertainty: Heuristics and Biases." Science, 185(4157), 1124–1131. / Gompers, P., Gornall, W., Kaplan, S. N., & Strebulaev, I. A. (2020). "How do venture capitalists make decisions?" Journal of Financial Economics, 135(1), 169–190.

#AI 분업 심사가 보완하는 지점

OpenSeed가 종합 평가자 한 명이 아닌 영역별 심사역으로 분업하는 이유 중 하나는 이 편향들의 작동 경로를 줄이기 위해서입니다. '구조적 차단'이라고는 하지 않습니다 — 분업이 편향을 0으로 만들지는 않습니다. 각 편향에 대해 어떤 방식으로 완화되는지 정리하면 다음과 같습니다.

편향	AI 분업 심사의 완화 메커니즘
Halo Effect	각 심사역이 자기 영역에 대한 점수·근거만 별도로 출력. 팀 평가 점수가 좋다고 해서 그 점수 자체가 시장 심사역의 점수 산출에 직접 입력되지는 않음 — 영역 간 점수 전이를 차단(단, 같은 사업계획서 본문은 공유)
Anchoring	심사역마다 평가 기준과 출력 영역을 분리. 다른 영역의 큰 숫자(예: TAM)가 본인 영역(예: SOM 검증) 점수의 직접 기준점이 되지 않음
Recency Bias	AI는 평가 시간대·식사·피로 같은 인간적 변수에 영향받지 않음. 100번째 사업계획서든 1번째든 동일한 처리
Confirmation Bias	각 심사역이 독립적으로 작동. 한 심사역의 가설이 다른 심사역의 추론 방향에 직접 흘러들지 않음. 의견이 갈리면 사용자에게 충돌 신호로 표시

여기에 일관성 보장(같은 입력 = 같은 결과)이 더해집니다. 같은 사업계획서를 두 번 제출했을 때 결과 변동이 통제되면 사용자는 '이번엔 운이 안 좋았다'가 아니라 '이 영역을 수정하면 점수가 오른다'를 학습할 수 있습니다.

#AI도 자유롭지 않다 — 솔직한 한계

AI가 인간 편향에서 완전히 자유롭다고 주장하면 그건 또 다른 형태의 후광입니다. AI 분업 심사도 다음 한계를 안고 있습니다.

학습 데이터 편향 — 과거 합격 사업계획서에 특정 산업·지역·창업자 인구 통계가 과대 표현되어 있으면 AI도 그 편향을 학습
Position Bias — 긴 컨텍스트에서 앞부분·끝부분의 정보가 중간보다 강하게 반영되는 현상이 LLM에서도 관찰됨(Lost in the Middle 등). 인간의 Recency가 약화될 뿐 0이 아님
공통 본문 입력 — 영역별 심사역도 같은 사업계획서 본문을 공유하기 때문에, 본문 안에서 한 영역에 강하게 어필하는 서술이 다른 영역 점수에까지 미세하게 영향을 줄 가능성이 남음
프롬프트 의존성 — 심사역에게 전달하는 지시문이 잘못 설계되면 AI도 특정 결론을 향해 추론을 끌고 갈 수 있음 (Confirmation의 변형)
검증 데이터 한계 — '실제 합격·실패'라는 정답 라벨 없이 AI 심사 결과만 봐서는 보정 정확도를 측정할 수 없음

주의

'AI는 객관적이다'는 표현보다 '인간 평가자에게서 관찰되는 인지 편향 중 일부에 대해 구조적으로 더 강하다, 단 다른 형태의 편향은 새로 떠안는다'가 더 정직한 서술입니다.

#인간 심사도 설계하면 편향을 줄일 수 있다

공정한 비교를 위해 짚을 점이 있습니다. 인간 평가에서 편향이 발생한다고 해서, 모든 인간 심사가 그 편향에 그대로 노출된 채 운영되는 것은 아닙니다. 다음과 같은 설계는 인간 심사의 편향을 상당히 줄입니다.

인간 심사 설계	줄이는 편향
블라인드 리뷰 (창업자 정보 가림)	후광·인구통계 편향
다중 심사위원 + 점수 평균	개별 위원 편차의 통계적 상쇄
루브릭·체크리스트 사전 정의	평가 기준의 사후 합리화 차단
평가 순서 랜덤화	Recency·Anchoring 일부 완화
사전 점수 비공개·독립 채점 후 합의	심사위원 간 인상 전이 차단

따라서 비교는 '인간 vs AI'가 아니라 '구조화되지 않은 인간 단독 심사 vs 설계된 인간 심사 + AI 분업 심사'에 가깝습니다. 후자가 가장 강합니다.

Summary · 정리

#그래서 AI와 인간은 어떻게 협업해야 하는가

결론은 AI가 인간 평가위원을 대체한다는 것이 아닙니다. 두 시스템의 약점이 다르므로 함께 쓸 때 가장 신뢰도 높은 결과가 나옵니다.

AI 분업 심사 → 1차 점검: 영역별 누락·약점·일관성 검증을 빠르게, 인간의 인지 피로·인상 전이 없이
인간 심사위원 → 최종 판정: 새로운 산업·창업자 진정성·사회적 가치 등 정성 판단. 단, 위에 정리한 편향 완화 설계와 함께
사용자 → 의사결정자: 두 결과의 차이를 자기 사업계획서의 추가 점검 영역으로 활용

CTA

OpenSeed는 사업 프로필에 따라 기본 7인 + 전문직 심사역을 더해 최대 14인이 같은 사업계획서를 영역별로 분업합니다. 인간 평가의 인지 편향 중 일부를 구조적으로 줄이는 1차 점검 도구로 단건 5,000원에 활용해 보세요.

인지 편향을 줄인 1차 심사

기본 7인 + 사업 프로필 따라 최대 14인의 영역별 심사역이 독립적으로 평가합니다. 단건 5,000원.

AI 심사 서비스 보기 →