들어가며.
# 단일 AI의 한계 — 왜 한 명의 심사관으로는 부족한가사업계획서 한 편에는 시장·기술·재무·팀·법률·세무 등 너무 많은 차원의 평가가 필요합니다. 한 명의 사람 심사위원도 모든 차원을 동시에 깊이 보지 못하기에, 실제 투자심사위원회는 시장 전문가·재무 전문가·기술 전문가가 분업해 평가하고 마지막에 종합합니다.
AI도 마찬가지입니다. 단일 LLM에 'A부터 Z까지 다 봐달라'고 하면, 어떤 항목은 깊이 보고 어떤 항목은 얕게 봅니다. 또 같은 문서를 다시 보여주면 강조점이 달라집니다. 이 일관성 부족이 AI 심사의 가장 큰 신뢰성 문제입니다.
02
# 분업 — 21명의 심사역이 동시에 본다OpenSeed는 한 명의 AI가 사업계획서 전체를 평가하지 않습니다. 각자 자기 분야만 깊이 보는 21명의 AI 심사역이 협업합니다.
OpenSeed 21인 심사 분업 구조
사업계획서 입력
(PDF · 템플릿 · 직접 입력)
↓
기본 심사역 7명
시장 분석가 CFO 제품 심사역 팀 평가자 리스크 분석가 정부지원사업 심사역 엑싯 전략가 ↓
IC 의장
(종합 판정 · 충돌 중재)
↓
최종 결과
점수 · 능력별 진단 · 처방
각 심사역은 자기 영역만 깊이 보고, IC 의장이 종합 판정 각 심사역에게는 자기 영역에서만 평가하라고 명시적으로 지시합니다. 시장 심사역에게 '재무는 다른 사람이 본다'고 알려주는 것입니다. 이 분업 덕분에 한 명이 모든 항목을 얕게 보는 대신, 각자 자기 영역을 깊이 봅니다.
TIP
이 다중 에이전트 구조는 단일 AI 대비 오류 증폭이 크게 낮다는 최근 LLM 평가 연구 결과와 일치합니다. OpenSeed는 가장 안정적인 토폴로지를 채택했습니다.
03
# 비평 선행 — 점수를 나중에 매긴다AI가 점수를 먼저 정하고 근거를 끼워 맞추는 현상을 'reward hacking'이라고 합니다. 점수 80점을 정해놓고 80점에 어울리는 칭찬을 만들어내는 것입니다. 이걸 막기 위해 OpenSeed는 한 가지 강제 규칙을 둡니다.
비평 선행(Critique-First) 원칙
권장 흐름
강점 · 약점 · 우려 비평을 먼저 작성
→
비평에서 점수가 자연스럽게 도출
금지 (역방향)
점수를 먼저 결정 (예: 80점)
→
그 점수에 어울리는 비평을 끼워 맞춤
비평이 점수를 만들도록 — 그 반대는 금지 이 단순한 규칙 하나가 AI의 채점 편향을 크게 줄입니다. '비평이 약하면 점수도 약하게, 비평이 강하면 점수도 강하게' 하는 자연스러운 인과 관계가 만들어집니다.
04
# 능력별 진단 — 단일 점수는 거짓말을 한다총점 75점이라는 결과는 실제로는 매우 불완전한 정보입니다. 시장성 90점·재무 50점인 경우와 시장성 75점·재무 75점인 경우가 같은 75점으로 표기되지만, 두 회사가 가장 먼저 해야 할 일은 완전히 다릅니다.
OpenSeed는 단일 총점 외에 5가지 핵심 능력을 분리해 진단합니다.
능력별 진단 — 예시 사업계획서
시장성 팀 역량 재무 건전성 실행력 리스크 관리 78 85 48 72 60 총점이 같아도 능력별 분포는 달라집니다. 어디부터 고칠지가 명확해집니다. 각 능력별로 점수, 사업계획서에서 직접 발췌한 근거 문구, 현재 상태와 목표 사이의 간극, 구체적 개선 처방이 함께 제공됩니다. 어느 능력이 약한지 알면 어디부터 고쳐야 할지가 명확해집니다.
05
# 불확실성 정량화 — '왜 모르는지'를 분리한다AI가 '신뢰도 70%'라고 말할 때, 그 30%의 불확실성은 어디서 왔을까요? 실제로는 세 가지 원인이 섞여 있습니다.
원인 의미 해결 방법 데이터 부족 사업계획서에 정보가 부족함 추가 자료 보완 에이전트 간 의견 분산 심사역들 사이 평가가 갈림 추가 검토 요청 본질적 불확실성 본래 예측 불가능한 영역 시나리오 다변화
원인을 분리하면 처방이 달라집니다. '데이터 부족'이면 사업계획서를 보완하면 됩니다. '에이전트 분산'이면 심사가 어려운 케이스라는 신호입니다. 이 분리가 AI 심사의 투명성을 만듭니다.
06
# 자기감사 — AI가 자신을 검증한다AI 채점 시스템은 시간이 지나면서 '과신' 상태에 빠질 수 있습니다. 즉, 실제로는 틀린 답인데도 강하게 확신하는 경향이 생깁니다. 이걸 막으려면 외부 검증이 필요합니다.
OpenSeed는 심사를 받은 스타트업의 실제 결과(투자 유치 여부·정부지원사업 합격 여부)를 추적해 AI 점수와 대조합니다. '85점 이상 받은 스타트업 중 실제 합격률은 얼마인가'를 실시간으로 측정합니다.
주의
이 캘리브레이션 감사는 AI 점수가 신뢰할 만한 수준에 머무르는지 검증하는 메커니즘입니다. 과신이 감지되면 심사 프롬프트를 재조정합니다.
07
# 핵심 리스크 진단 — 짚어내고 해소 경로까지어떤 문제는 다른 항목이 아무리 좋아도 먼저 분명히 짚어야 합니다. 법적 리스크가 있는 모델, 시장 근거가 약한 경우, 핵심 역할의 공백, 수익 모델의 부재가 그것입니다.
OpenSeed는 이런 핵심 리스크를 묻어두지 않고 결과 상단에 분명히 드러냅니다. 특히 법적 리스크는 '안 된다'에서 끝내지 않고 규제 샌드박스·인허가 절차 같은 해소 경로까지 함께 제시합니다. AI가 '좋은 점만 보고' 점수를 주는 일을 방지합니다.
정리.
# 다층 검증을 한 화면에서OpenSeed의 심사 결과는 단일 점수가 아니라 6가지 신뢰성 메커니즘이 동시에 작동한 결과입니다 — 분업, 비평 선행, 능력별 진단, 불확실성 정량화, 자기감사, 핵심 리스크 진단.
CTA
OpenSeed AI 심사를 직접 경험해 보세요. 21개 AI 에이전트가 협업해 사업계획서를 분석하고, 단순 점수가 아닌 능력별 진단·근거 발췌·개선 처방까지 제공합니다.
AI 심사의 신뢰성, 직접 확인하세요
21개 AI 에이전트의 다층 검증 결과를 받아보세요.
🔒 베타 기간 무료 · 핵심 아이디어는 저장하지 않아요
OpenSeed AI 심사 시작 →