본문 바로가기 주메뉴 바로가기

평가는 객관적일 수 없다_첫 번째 이야기

관리자 2023-03-31 조회수 721,056

 


현재 소위 ‘MZ세대’라고 통칭되는 세대에게 ‘공정성’은 이전보다 훨씬 더 민감한 주제가 되었다. 최근 모 HR플랫폼에서 MZ세대 2030 직장인을 대상으로 진행한 설문조사에 따르면, 회사에 가장 바라는 점 1위로 ‘공정한 성과/보상 제도’가 (47.1%) 뽑혔다(2021)1). ‘평가의 공정성’이 직무만족도 및 직무몰입에 가장 큰 영향을 주는 요소이며 ‘승진이나 보수의 공정성’보다 약 2.5배에서 약 4배까지도 영향을 준다는 연구결과도 있다(2021)​2). 대기업의 전형적인 성과중심체계 또한 ‘공정하지 못하다’는 이유로 직원들의 신뢰를 잃고 있다(2023)3). 그 과정에서 중간관리자의 주관적 판단이나 사내 정치가 녹아 든다고 믿기 때문이다. 그렇다면 왜 이번 세대는 유난히 ‘공정성’에 민감할까? 세대를 거듭할수록 가열되어온 경쟁과 평가속에서 ‘공정성’이 흔들리면 안되는 유일한 규칙으로 자리매김했기 때문이다(2021)4).


우리는 어떤 것에 대해 공정한지 판단할 때, 자신을 포함한 다수가 만족한다면 공정하다고 믿곤 한다. 즉, ‘공정성’이라는 단어는 직관적으로 ‘객관성’을 내포하고 있는 것이다. 그래서 우리는 본능적으로 객관적일수록 공정하다고 생각한다. 하지만 이는 매우 위험한 생각이다. 최근 사례를 들여다보자.


영국은 코로나 사태로 최근 몇 년간 대입시험을 진행하지 못했다. 갑작스러운 사태인 만큼 감독당국인 Office of Qualifications and Examinations Regulation(이하 ‘Ofqual’)이 가장 신경을 쓴 부분 또한 ‘졸업과 대학입학을 위한 학생들의 학업성취도평가의 공정성 확보’였다. 이들은 학생들에게 최대한 객관적인 성적표를 제공하기 위해 알고리즘 기반 성적 산출 시스템을 도입했다. 그리고 이는 학생과 학부모들의 거센 반발로 Ofqual 청장의 사임까지 야기하는 큰 사건을 초래했다.


해당 프로그램은 학생의 수준, 교사의 평가 등 여러 요소를 고려한 통계 기반 프로그램이었다. 먼저, 각 과목별 교사들이 학생 개개인의 예상 성적을 제출한다. 만일 해당 과목의 응시자 수가 적다면(<15), 이 성적은 그대로 반영된다. 가령 3명밖에 없는 비인기 과목이라면 교사의 결정이 절대적일 수밖에 없다는 것이다. 예를 들어 올해 미술 과목 수강생이 1명뿐이라고 하자. 해당 미술 교사는 당신의 중간고사 성적, 포트폴리오, 수강태도 등을 고려하여 당신에게 B를 부여한다. 이 성적은 실제 당신의 대입성적으로 남게 된다.


반대로, 응시자가 15명 이상인 경우에는 대상 학교의 과거 성적분포의 평균값이 반영된다. 예를 들어, 수학과목에서 매년 약 20%의 학생이 A등급을 받는 학교라면 올해에도 크게 다르지 않을 것이라고 가정하는 것이다. 그리고 그 후, 학생 별 과거 성적이 고려된다. 예를 들어 알고리즘이 해당 학교의 수학 과목에서 100명 중 20명만 A등급을 받을 수 있는 상황이라고 하자. 여기에서 교사가 총 25명의 학생이 A를 받을 자격이 있다고 판단한다면 이들의 중학교 수학성적 순서를 고려하여 B로 내려갈 5명의 학생이 결정되는 것이다. 


결과는 어땠을까? 알고리즘 기반 시스템으로 성적을 산출한 결과 학생의 약 40%가 교사의 예상점수 보다 낮은 점수를 받았다. 영국의 입시 시스템을 모르는 사람들 입장에서는 너무나 잘못된 결과라고 느낄 수 있겠다. 알고리즘이 10명 중 4명의 성적을 낮게 평가하여 대학 입시에 떨어지게 만들었다니 이게 말이나 되는 얘기인가? 


하지만 현실은 그렇지 않다. 실제로 영국에서는 매년 41% 정도의 응시자들이 교사들에 의해 고평가된 예상성적을 받아왔다(2016)5). 즉, 알고리즘이 도입되기 이전에도 10명 중 4명은 마지막 시험에서 교사들의 예상보다 1-2등급 낮게 시험결과를 받아왔다는 얘기이다. 


그렇다, 아이러니하게도 알고리즘은 꽤나 완벽하게 객관적이었다. 그렇다면 무엇이 문제였길래 Ofqual 청장이 자리에서 물러나기까지 해야 했을까? 그건 바로 그 평가를 받아들이는 대상자인 우리이다. 집단은 숫자로 평준화될 수 있지만 개개인은 평준화된 숫자에 맞는 사고를 가지고 있지 않기 때문이다.


어느 날 누군가가 완벽하게 객관적인 평가시스템을 만들어냈다고 주장한다고 하자. 필자는 이 시스템이 아무리 완벽해도 구성원 모두를 만족시킬 수는 없다고 단언한다. 이는 마치 어떠한 상황에서도 불호 따위 없는 아이스크림 맛을 개발했다고 외치는 것과 같기 때문이다. 안타깝게도 날이 추워도, 배가 아파도, 아이스크림 자체를 싫어해도, 어떠한 상황에서도 모두가 좋아하는 그런 아이스크림 맛은 존재할 수 없다. 


피평가자인 우리는 모두 평가에 대해 주관적이다. 실제로 평가철회와 청장사퇴에 대한 거리 시위의 주체 또한, 어쩌면 당연하게도, 불만족스러운 결과를 받은 학생들과 그들의 학부모들이었다. 만족스러운 결과를 받은 학생들(평균값에 해당하는 학생들)은 시위에 공감은 할지 언정 열정적인 모습은 보이지 않았다. 감히 예상컨대 이들은 해당 알고리즘이 어느정도 ‘공정했다’라고까지도 생각했을 것이다. 자신의 기준에 부합했기 때문이다. Ofqual의 패착은 학생 모두의 기준에 부합하는 알고리즘 설계를 하지 못했다는 것이다. 


기업 또한 객관적인 것이 무조건 공정한 것이 아니라는 점을 인지해야 한다. 평가 및 보상에 대해 수치와 평균을 최대한 활용하여 설계하였다고 해서 조직 구성원 모두가 그 평가를 수용한다고 생각하면 안 된다. 기업이 객관적인 시스템을 구축하는 것에만 몰두하게되면 Ofqual사태와 같은 결과를 초래할 수도 있다는 것을 명심하자. 


오늘은 영국 대입시험의 예를 들며 평가의 공정성과 객관성에 대해 얘기해 보았다. “‘객관적인 것이 공정한 것이다’라는 생각은 위험하다”는 메시지를 한 번 더 강조하며 칼럼 1부를 마무리 하겠다. 2부에서는 ‘그러면 기업은 공정한 평가에 대해 어떻게 접근해야 하는가?’라는 주제를 다룰 예정이다.

  

  

[출처]

1) 사람인_취업뉴스, 「MZ 세대 직장인 80% “노조 필요하다!”…공정한 성과 보상체계 만드는 역할 중요」, (2021.06.14) https://www.saramin.co.kr/zf_user/help/live/view?idx=108308&listType=news

2) 월간 인재경영_2022년 1월호, 제203호, 「공평보다 공정이다」, (2021.12.29) http://www.abouthr.co.kr/news/articleView.html?idxno=5104 

3) 한겨레, 「“그냥 난 곰이에요”… ‘삼성맨’의 자존감, 성과급에 무너졌다」, (2023.02.07) https://www.hani.co.kr/arti/society/labor/1078573.html 

4) DBR 동아비즈니스리뷰_322호(2021년 06월 Issue 1), 「SR2. MZ세대가 소환한 '성과급과 공정성'」 https://dbr.donga.com/article/view/1201/article_no/10063/ac/audio 

5) Dr Gill Wyness, 「Predicted grades: accuracy and impact」, UCL Institute of Education, December 2016 https://www.ucu.org.uk/media/8409/Predicted-grades-accuracy-and-impact-Dec-16/pdf/Predicted_grades_report_Dec2016.pdf 


PMI Group 칼럼 60 - 평가는 객관적일 수 없다_첫 번째 이야기 - 영국의 Ofqual 사태로 알아보는 평가에 대한 고찰 - 이 칼럼 내용의 일부 또는 전부는 작성자의 승인 없이 무단으로 도용하거나 복제할 수 없습니다.