지휘ㆍ통제ㆍ통신 체계와 같이 보안이 요구되고, 새로운 기술을 적용하여 새롭게 개발되어야 하는 무기체계의 업체선정은 정성적 평가인 제안서평가를 주로 적용하고 있다. 제안서평가의 주요 문제는 평가자의 주관적 성향에 따라 선호도가 달라 평가위원 구성과 점수 성향에 따라 우선순위가 달라지고, 기술능력평가의 변별력 저하 시 입찰 가격에 의해 업체가 선정된다는 것이다. 따라서 평가자의 주관적 성향을 보정함과 동시에 변별력을 높일 수 있는 방법이 필요하다. 일반적으로 적용되는 표준화 방법은 평균과 편차를 일치시키는 방법이나, 제안서평가와 같이 평가대상이 소규모이고, 평가대상별 수준이 유사한 경우 적용이 제한되었다. 이에 따라 제안서평가에 적용 가능한 새로운 표준화방법을 제시하였다. 이 방법은 평가자의 점수가 아니라 평가대상의 우선순위를 보정하는 방법으로 기존 표준화방법보다 성능이 우수하였고, 원점수를 최대한 반영함으로써 변별력을 높일 수가 있었으며 특히 평가대상수가 소규모인 경우에 더욱 성능이 우수하였다.
Proposal assessments for new weapon system development such as C4I system have been applying a qualitative assessment. The main problem of qualitative assessment is that the results vary depending on the evaluator's subjective preferences and priorities. Also, if there is no discrimination of technical skills degrade, the company will be selected by bid price regardless of technical power. In order to making a fairness, We need a method to compensate for the evaluator's subjectivity and to enhance discrimination. Previous standardization method is limited because targets of the proposal assessment are minority and have similar skill level. So, The new standardized evaluation methods applicable to the proposal was presented. This way is using the priority instead of the score and has better performance than existing methods as the target numbers are smaller.
방위력개선사업에서 무기체계 확보를 위해 업체를 선정하는 방법은 두 가지다. 무전기와 같이 기존에 운용중인 장비를 추가 확보하는 경우에는 생산능력 확인, 신용도평가 등 적격심사를 하고, 전술통신체계, 위성체계 등 현재 존재하지 않는 새로운 제품을 개발하는 경우에는 평가의 객관적 자료가 존재하지 않기 때문에 개발계획 등 업체 제안내용에 대한 적절성 및 타당성을 평가한다. 적격심사는 객관적 자료에 의해 평가 하는 정량적 평가에 해당되고, 제안서평가는 평가위원에 의한 주관적 평가로 진행되므로 정성적 평가에 해당되는 데 지휘ㆍ통제ㆍ통신 체계와 같이 고도의 보안이 요구되고, 새로운 기술을 적용하여 새롭게 개발되어야 하는 무기체계의 업체선정은 정성적 평가인 제안서평가를 주로 적용하고 있다[1].
국민의 세금이 사용되고, 사업규모가 수백 억 원에서 수천 억 원인 방위력개선사업에서 평가의 공정성과 투명성, 객관성은 그 어떤 평가보다 중요한데, 적격심사에서 발생하는 문제가 심사 자료의 신뢰성에 관한 것이라면 제안서평가에서 발생하는 문제는 평가위원의 편향성이다. 정성평가는 평가자의 주관적 성향에 따라 선호도가 다르고, 부여 점수 및 대상간의 점수 편차도 다르므로 평가위원의 구성현황과 성향에 따라 비교대상의 우선순위가 달라지기 때문이다. 정성적 평가의 이와 같은 문제를 최소화하기 위해 수능시험, 면접, 다면평가, 강의평가 등에서 점수 표준화 방법을 사용하고 있다[2,3]. 그러나 제안서평가 점수는 기술능력 점수와 가격 점수로 구성된다[4]. 가격 점수는 입찰가격에 의해 일률적인 점수격차를 유발하므로 만일 기술능력 점수의 표준화로 인해 점수 변별력이 줄어든다면 가격 점수로 업체를 선정하는 모양새가 되고, 이는 기술능력과 무관한 저가 업체를 선정하여 연구개발의 질적 저하를 유발하게 된다. 따라서 평가자의 주관적 성향을 보정하는 점수 표준화와 가격점수로 낙찰자 결정을 예방하기 위해 점수의 변별력을 동시에 고려해야 한다.
일반적으로 성능과 안정성이 우수하여 널리 사용되는 표준화 방법은 평균과 편차를 일치시키는 방법이나, 제안서평가는 평가대상이 2~5개로 작은 규모이고, 무기체계 개발 특성상 평가대상별 기술력이 유사한 특징이 있어 평균과 편차를 일치시키는 표준화 방법은 제안서평가에 적용이 제한됨을 확인하였다. 따라서 본 연구에서는 현재 사용 중인 표준화방법의 사례를 살펴보고, 제안서평가에 적용 가능한 점수 표준화 방법을 제시하고자 한다.
점수 표준화는 면접과 다면평가 등 평가자 성향에 따라 부여된 점수의 평균과 편차가 상이한 경우, 또는 수능과 공무원시험 등 선택 과목이 달라 비교 기준이 다른 경우 피 평가자의 우선순위를 결정하기 위해 사용된다. 평가자들은 주관적 성향에 따라 점수를 부여하기 때문에 점수를 후하게 주기도 하고, 점수를 낮게 주기도 하며 평가대상간의 점수 차이를 크게 주기도 하고, 차이를 거의 주지 않기도 한다. 평가자가 1명인 경우에 이와 같은 문제는 우선순위 결정에 아무런 영향을 주지않지만 면접 등 대부분 평가는 평가자를 수 명으로 구성하고, 또한 평가대상이 대규모일 경우에는 평가자 그룹을 여러 개로 나누고 각 그룹마다 서로 다른 평가자를 구성하기도 하며, 수능시험과 공무원 시험은 필수과목 외에 선택과목이 있고 응시자별 시험점수가 과목별로 상이하므로 전체 응시자를 대상으로 우선순위를 결정하기 위해 점수를 표준화하고 있다.
점수 표준화에 가장 일반적으로 쓰이는 방법은 개별 평가대상 점수의 평균과 편차를 일치시킨 후 우선순위를 결정하는 평균편차 일치법이다. 표 1에서 보면 그룹I과 그룹 II의 ① 원점수 우선순위는 B=C>A=F>E>D가 되나, 평균과 편차를 일치시킨 ② 조정점수의 우선순위는 E=F>B>C>A>D순이 된다. 즉 그룹 II의 평가자들이 점수에 인색한 성향을 보였기 때문에 이를 보정하기 위해 그룹 I과 그룹 II의 평균과 편차를 일치시킨 후 우선순위를 새롭게 정한 것이다. 이러한 평균편차 일치법은 면접, 수능시험, 다면평가, 인사고과 등 우선순위를 결정할 때 많이 활용되고 있으며 정부 역시 8급 및 9급 공개경쟁 채용시험에서의 평균50점, 편차 10점의 평균편차일치법을 사용하여 점수를 표준화한다고 공무원임용시험령에 명시하고 있다[5].
평균편차 일치법의 적용 예
평균과 편차를 일치시키는 방법 외에 최댓값과 최솟값을 제외한 나머지 점수의 평균을 이용하는 방법, 평가자의 점수에 순위를 부여하고 평균을 산정한 후 해당 순위에 해당하는 표준정규분포의 점수를 부여하는 방법, 평균값 대신 중앙값을 이용하는 방법, 점수의 구간값을 활용하는 방법, 사분위수를 이용하여 25%, 75%이상의 값은 제외하는 방법 등 표준화의 방법은 다양하게 연구되어 적용되고 있으며 정부다면평가에서도 평균편차 일치법, 평균일치방법, 최고/최저점수 배제법, 상/하위 10% 배제법, 평균값의 10~30%상한 배제법 등 각 부처별로 임의의 점수 표준화 방법을 적용하고 있다[6]. 이렇게 다양한 표준화방법 중 어느 방법을 적용해야 하는가를 제시하기 위해 박철용(2011)은 면접점수의 표준화방법 모의실험비교에서 Z점수 평균(평균편차일치법), 순위평균, 절사평균(최댓값, 최솟값 제외 방법) 방법 간 성능을 비교하였고[7], 민대기(2012)는 수능시험의 원점수 순위와 표준점수 순위 비교를 위해 STD(평균편차일치방법), RANGE, MAD(Median Absolute Deviation from Median, 중앙값), IQR(Interquatile Range, 사분위수) 방법 간 안정성을 비교하였다[8]. 이런 연구의 공통점은 성능과 안정성을 비교하기 위해 순위상관계수(Kendal's rank correlation coefficient, Pearson correlation coefficient)를 활용하였고, 비교실험결과 여러 표준화 방법 중 평균/편차 일치법의 성능 및 안정성이 가장 우수하다는 것이다.
그러나 여러 표준화 방법 중 성능과 안정성이 가장 우수한 평균편차일치법은 제안서평가의 점수표준화에 적용하는 것은 다음과 같은 문제점이 있다.
첫째, 평가자의 점수가 동일할 경우 계산자체가 불가능하다. 평균과 편차를 일치시키는 산식은 「전체평균+[(원점수-그룹평균)/그룹 표준편차]*전체표준편차」이다. 이때 평가자가 부여한 점수가 동일한 경우에 표준편차가 0이 되기 때문에 산식의 분모가 0이 되어 계산이 불가해 진다. 표 2의 예와 같이 평가자 3의 점수가 3점으로 동일할 때는 표준편차가 0이 되어 평가자 3의 표준화 점수는 계산이 불가하다.
[표 2.] 평가자의 점수가 동일할 때 점수표준화의 예
평가자의 점수가 동일할 때 점수표준화의 예
면접, 수능과 달리 제안서평가는 평가대상이 대부분 2~5개로 구성되며 평가대상별 기술수준이 유사한 특징이 있기 때문에 평가대상의 점수가 동일한 경우가 필연적으로 발생한다. 더구나 제안서평가 기술점수는 배점의 85%이상일 경우에 한해 협상대상으로 선정되기 때문에 기술력을 보유한 경우라면 평가점수는 배점의 85~100%수준에서 부여되기 때문에 평가점수의 동점확률은 높아지게 되고, 이러한 이유로 인해 평균/편차일치방법을 적용하는 것은 제한 될 수밖에 없다.
둘째, 평가대상이 2~3개 일 경우 표준화점수의 변별력이 떨어지는 경우가 발생한다. 표3에서 보는 바와 같이 원점수가 4,5,7,8,9점으로 구성되어 있는데 평가대상이 2개일 경우 모든 점수는 4.8점과 7.7점 2개로 표준화되어 평가대상 A와 B는 동점을 받게 된다.
평가대상이 2개일 때 점수표준화의 예
이러한 현상은 평균과 편차를 일치시킴으로써 발생하는 현상인데 평가대상이 3개 일 경우에도 평가자의 점수 중 2개가 동일하면 나머지 1개의 점수는 표준화시 동일해 진다. 표 4에서 보면 평가자 1의 점수 4, 5와 평가자 2의 점수 4, 5, 평가자 3의 점수 6, 9는 표준화시 모두 4.3과 7.1로 동일해진다.
평가대상이 3개일 때 점수표준화의 예
제안서평가는 기술점수와 가격점수로 구성되고, 기술점수는 평가자의 주관적 성향에 의해 결정되나, 가격점수는 정해진 산식에 의해 계산되는 것으로 입찰가격에 따라 점수격차는 일률적으로 발생한다. 따라서 위와 같이 기술점수의 변별력이 줄어든다면 평가대상간의 기술격차가 엄연히 존재함에도 불구하고 가격점수에 의해 우선순위가 결정되게 된다. 즉, 새로운 것을 개발하는 연구개발에서 기술수준이 중요함에도 불구하고 기술수준과 무관하게 낮은 가격으로 입찰한 업체를 우선 선정하게 되는 것이다. 따라서 평가자의 성향을 보정함과 동시에 평가대상간 변별력을 높이는 것이 필요하다. 결국 2~5개 업체를 평가하는 제안서평가에 평균 편차 일치법의 적용은 제한되며, 결국 평가자의 성향을 보정함과 동시에 변별력을 높일 수 있는 새로운 표준화 방법이 필요하다.
평균편차일치법이 평가자 점수를 기준으로 보정하는 것이라면 금번 연구에서 제시하는 방법은 평가대상을 기준으로 보정하는 방법이다. 평가대상이 부여받은 점수를 기준으로 보정이 가능한 이유는 평가자의 성향에 따라 평가자 점수의 평균과 편차가 상이한 경우에도 각 개인이 판단하는 평가대상별 상대적 우선순위는 평균, 편차와 무관하다. 즉 평가점수는 평가자의 주관적 성향에 따라 평균과 편차의 차이를 발생해도 평가대상간의 우선순위는 변하지 않기 때문이다. 즉 표 5에서 보면 평가자 1이 평가대상 A, B, C를 평가할 때 다른 평가자와 비교 시에 점수 평균과 편차가 차이난다해도 평가대상간의 우선순위를 C>B>A순으로 생각하는 것은 변함없기 때문이다.
[표 5.] 절차 1 : 원점수에서 보정 기준점수 산출
절차 1 : 원점수에서 보정 기준점수 산출
표 5는 ① 원점수에서 보정기준 점수인 ② 차이값을 산출해 낸 예이다. 평가자 1은 C>B>A순으로 우선순위를 생각하는데 A는 평균보다 1점 낮게 평가하고, 평가대상 C는 평균보다 1점을 높은 수준으로 평가한 것으로 본다. 반면 평가자 2는 평가자 1과 달리 A>B>C순으로 우선순위를 생각하며 평가대상 A가 2.3점 높은 수준이고, 평가대상 C는 2.7점 낮은 수준으로 평가하였다. 이와 같이 평가자의 점수를 개인별 평균에서 상대적 차이값으로 산출 할 경우 개인별 성향에 따른 평균차이는 표 5의 차이값 평균에서 보는 바와 같이 자동으로 보정이 되며, 상대적 차이값을 통해 평가자의 편차와 평가대상별 우선순위를 동시에 볼 수 있는 장점이 있다.
다음으로 차이값에 대한 보정을 하는데 평가 변별력을 높이기 위해 특이한 성향을 보이는 점수만을 보정한다. 표 6에서 보면 산출된 차이값을 평가대상 기준의 세로방향의 평균과 표준편차를 구한 뒤 편차 한계를 정하고, 차이값을 보정한 것이다. 평가대상별 「평균+표준편차」를 편차 상한 값, 「평균-표준편차」를 편차 하한 값으로 설정하고, 원래 차이값이 편차범위내에 위치하면 원래 값을 적용하고, 원래 차이값이 편차 상한 값을 초과시에는 편차 상한 값을 적용하며, 편차 하한 값 미만 시에는 편차 하한 값을 적용하여 보정한다. 표 6의 보정결과를 보면 평가자2가 평가대상 A를 평가한 2.3점과 평가자 3이 평가대상 B를 평가한 1.3점은 다른 평가자들에 비해 지나치게 높은 점수를 부여한 것으로 각각 상한편차인 2.0점과 1.2점으로 하향 조정되고, 평가자2가 평가대상 C를 평가한 것은 다른 평가자들보다 낮게 평가한 것으로 -2.7점에서 하한편차인 -2.4점으로 상향조정 되었음을 볼 수 있다.
[표 6.] 절차 2. 편차 한계 설정 및 차이값 보정
절차 2. 편차 한계 설정 및 차이값 보정
이 방법은 평가대상에 대한 평가자들의 우선순위 평균을 이용한 것으로 특정 평가자가 다른 평가자들의 평균적 시각에 비해 우선순위를 지나치게 상이하게 줄 경우(평균±표준편차) 이를 보정하는 것이다.
차이값의 보정을 마친 후 보정된 차이값은 표 4의 평가자별 평균점수와 합하여 표 7과 같은 표준화 점수를 최종 산출한다. 그리고 이렇게 얻어진 표준화 점수를 이용하여 평가대상별 점수를 산정하고 우선순위를 결정할 수 있다.
[표 7.] 절차 3. 보정된 차이값에서 표준점수 산출
절차 3. 보정된 차이값에서 표준점수 산출
이와 같은 표준화방법을 편의상 「우선순위 편차한계적용법」이라고 하겠다. 평균편차일치법이 평균과 편차를 일치시키기 위해 모든 원점수를 보정하나, 우선순위 편차한계적용법은 일정기준내의 원점수는 그대로 반영하고, 범위외의 점수만을 보정하는 것이 특징이다. 표 8을 보면 우선순위가 A>B=C순인 원점수를 표준화할 때 평균/편차 일치법은 모든 점수가 보정이 되어 A>B>C가 된 반면, 우선순위 편차한계법은 평가자 3이 부여한 2개의 점수만을 보정하여 A>B>C의 결과를 얻었다.
평균/편차일치법과 편차한계적용법 비교
이와 같이 평균/편차일치법과 우선순위 편차한계적용법은 보정효과가 유사하지만, 보정대상의 차이가 있음을 확인할 수 있다.
우선순위 편차한계적용방법의 성능을 확인하기 위해서 기존 표준화 방법 중 가장 성능과 안정성이 뛰어난 평균편차일치법과 비교를 수행하였다. 입력되는 점수는 표준정규분포와 균일분포 2가지를 적용하여 난수를 생성하였고, 평가자의 수와 평가대상은 무기체계 연구개발사업의 제안서평가 위원의 수와 입찰 참여수를 고려하여 평가자 10명, 평가대상은 2, 3, 5개로 구분하였다. 각 경우마다 100회의 반복실험을 하였고, 해당 결과는 SPSS를 이용하여 상관분석 하였고, 입력점수가 서열척도임을 감안하여 Kendal's tau rank correlation coefficient와 Pearson correlation coefficient를 동시에 산출하였다. 표 9는 평가 대상수에 따른 표준화방법별 상관분석결과이다. 전반적으로 평가 대상수에 관계없이 유의수준 0.01에서 우선순위 편차한계적용법의 상관계수가 평균/ 편차일치법보다 높고, 입력점수가 정규분포일 경우보다 균일분포일 때 상관계수가 더 높음을 확인할 수 있다. 또한 평가대상수가 적어질수록 우선순위 편차한계적용법의 상관계수가 평균/ 편차일치법보다 높다. 평균/ 편차 일치법의 평가대상이 5개에서 2개로 될 때 균일분포의 Kendall tau_b 상관계수가 0.905에서 0.6으로 급격히 떨어지는데 반해 우선순위 편차한계적용법은 0.942에서 0.860으로 낮아졌다. 이는 평가대상수가 대규모인 면접과 같은 경우에는 평균/편차일치법을 적용할 수 있으나, 평가대상수가 적어질수록 평균/편차일치법의 성능은 떨어지므로 제안서평가와 같이 평가대상수가 소규모인 경우에는 평균편차일치법보다 편차한계적용법의 성능이 더 우수함을 보여준다.
[표 9.] 평가 대상 수에 따른 표준화방법별 상관분석 결과
평가 대상 수에 따른 표준화방법별 상관분석 결과
위와 같이 기존의 표준화방법은 평가자를 기준으로 점수보정을 하였다면 우선순위 편차한계 적용법은 평가대상을 기준으로 우선순위의 차이값에 따라 특정점수만을 보정한다는 것에 의의가 있다. 편차한계 적용법은 평가대상수가 적을수록 평균편차일치법에 비해 우수한 성능을 발휘하고, 전체점수를 보정하는 것이 아니라 특정 점수만을 보정하여 평가자 원점수를 최대한 반영하기 때문에 소규모의 평가대상으로 구성되는 제안서평가에 적용시 평가의 공정성과 객관성, 변별력을 향상시킬 수 있을 것으로 기대된다.
본 연구는 제안서평가를 목적으로 하였기 때문에 소규모 평가대상을 단일 그룹으로 평가하는 것으로 하였다. 만약 평가대상이 복수 그룹으로 구성될 경우에는 각 그룹간 평균을 우선적으로 일치시킨 후 우선순위 편차한계적용법을 적용할 수 있을 것이며 본 연구에서 제시하지는 않았으나, 평균을 일치시킨 후 편차한계적용법을 적용할 경우에도 평균편차일치법에 비해 성능이 우수함을 확인할 수 있었다.
본 논문에서는 제안서평가와 같이 평가대상이 소규모이고, 평가대상별 수준이 유사한 경우 평가자의 주관적 성향을 보정함과 동시에 변별력을 높일 수 있는 점수표준화 방법을 제안하였다. 일반적으로 성능이 가장 우수한 평균편차일치법은 평가자의 점수가 동일할 경우에는 계산자체가 불가능하고, 평가대상이 2개 일 경우에는 점수의 변별력이 떨어지는 경우가 발생하기 때문에 평가대상의 수가 소규모이고, 수준이 유사한 제안서 평가에 적용은 제한된다. 이에 따라 제안서평가에 적용 가능한 새로운 표준화방법으로 우선순위 편차한계적용법을 제시하였는데 평균편차일치법이 평가자를 기준으로 보정하는 것이라면 편차한계적용법은 평가대상을 기준으로 보정하는 것이다. 이것은 비록 평가자의 평균과 편차가 서로 다르다고 해도 개인별 평균을 기준으로 평가대상을 바라보는 우선순위와 높낮이는 유사할 것이라고 가정한 것이다. 이 방법은 모든 점수를 보정하는 것이 아니라 극한값만을 보정하기 때문에 원점수를 최대한 반영한다는 장점이 있고, 평가대상별 높낮이를 상대적으로 고려하기 때문에 특정업체에 대해 편파적으로 부여되는 점수를 직접적으로 보정한다는 장점이 있다. 객관적인 성능을 입증하기 위해 기존 표준화방법중 성능이 가장 우수한 평균편차일치법과 상관계수를 비교하였다. 평가자 수는 10명으로 하고, 입력점수는 표준정규분포와 균일분포, 평가대상은 2, 3, 5개로 구분하여 각 경우마다 100회의 반복실험 후 SPSS를 이용하여 상관분석을 하였다. 실험결과 모든 경우에서 우선순위 편차한계적용법의 성능이 우수함을 확인할 수 있었다. 더구나 평가대상수가 적어질수록 평균/편차일치법의 성능이 떨어지고, 우선순위 편차한계적용법의 성능이 더욱 우수하였다. 이를 볼 때 평가대상수가 대규모인 면접과 같은 경우에는 평균/편차일치법을 적용할 수 있으나, 제안서평가와 같이 평가대상수가 소규모인 경우에는 평균편차일치법보다는 편차한계적용법을 적용하는 것이 유리하다는 것을 보여준다.
본 연구의 제안서평가는 단일그룹으로 구성되고, 가격점수와의 격차를 고려하여 점수 차이의 변별력이 중요하기 때문에 평균 일치를 생략한 편차한계적용법만을 제시하였다. 만약 평가대상이 복수 그룹이고, 점수차이의 변별력보다는 우선순위만을 결정하는 면접과 같은 경우는 각 그룹간 평균을 일치시킨 후 편차한계적용법을 적용하면 될 것이고, 이 경우에도 평균편차일치법보다 우수한 성능을 발휘함을 확인할 수 있었다.
위와 같이 편차한계적용법은 평가위원의 성향에 따른 편차와 특정평가대상에 대한 편파적인 점수보정이 가능하여 평가의 공정성과 객관성을 향상시킬 수 있고, 원점수를 최대한 반영하여 평가점수 변별력을 높임으로써 제안서평가에 적용시 기술수준에 따른 합리적인 우선순위 결정에 기여할 수 있을 것으로 기대한다.