문항반응이론을 활용한 한국어능력시험의 문항 양호도 분석 -한국어능력시험 제28회~제32회를 중심으로*-

  • cc icon
  • ABSTRACT

    Eun-a Chang. 2014. A study of analyzing the quality of items on the Test of Proficiency in Korean(TOPIK) using item response theory. Journal of Korean Language Education 25-4: 219-247. The purpose of this study is to analyze the quality of items on the 28th through 32nd Test of Proficiency in Korean(TOPIK) using item response theory. Item Response Theory is invariable and insusceptible to the subject and test tool, not of the classical Test Theory that has been generally used in analyzing the difficulty or discrimination of items. The study found that there existed test items that were at an extremely high level or low level of difficulty, and their distribution was not constant amongst different tests and levels. Even in terms of item discrimination, it was found that there existed test items with little or low level of discrimination. In addition, it was shown that the difficulty level in certain types of test items from intermediate-level listening and some free-response test items from intermediate-to-advanced level writing, was either too high or low, and their discrimination level was found to be low. Therefore, measures to raise the quality of those relevant items must be sought out, and a new check on the rubric for making and grading the test questions is deemed necessary especially for the free-response writing questions. TOPIK is scheduled to be reshuffled and implemented with the new system starting from the year 2014. Tests will be implemented six times on a yearly basis. With the increase in the number of tests annually, chances are high that securing the quality of test items will become even more difficult. To tackle this problem, a conversion from the existing method of making test items to the item bank method using item response theory is inevitable.

  • KEYWORD

    한국어능력시험 , 문항 분석 , 문항 양호도 분석 , 고전 검사 이론 , 문항반응이론 , 문항 난이도 , 문항 변별도

  • 1. 서론

    한국어능력시험은 준거지향 평가로서 피험자들이 정해진 준거 점수에 도달했는지 여부에 관심을 갖는 평가 체제이다. 여기에서의 준거란 피험자가 어떤 일을 수행할 수 있다고 일반 사람들이 확신하는 지식이나 기술 수준을 의미한다(APA, 1985). 준거지향 평가는 일종의 자격 고사로서 최소한의 성취 목표를 설정해 놓고 그것을 기준으로 숙달 집단과 미숙달 집단을 나누는 것으로, 한국어능력시험에도 합격과 불합격을 가르는 기준점수가 설정되어 있다. 2014년 제35회부터 시행되는 개편된 한국어능력시험에서도 등급별 판정 기준을 새로이 설정하여 적용하고 있다.1)

    그러나 이와 같이 등급별 판정 기준이 사전에 설정된다는 것은 회차별로 검사가 동등화 되어서 동일한 수준의 검사가 이루어진다는 가정 하에 적용이 가능한 것이다. 민병곤(2005)에서도 지적한 바와 같이 시험의 난이도는 해마다 다를 수 있고, 채점 결과로 제시되는 점수는 피험자의 절대적인 능력을 반영하는 것이 아니라는 문제는 여전히 존재하고 있다. 즉, 쉽게 출제된 시험과 어렵게 출제된 시험에서 받은 동일한 점수가 곧 피험자의 능력이 동일함을 의미하는 것은 아니라는 것이다. 이는 문항 난이도와 관련된 논의로서 한 문항의 쉽고 어려운 정도를 나타내는 난이도 분포가 시험마다 달라지고 그것이 당락에 영향을 미치게 된다면 문제가 아닐 수 없다. 또한 현재와 같이 매 시험마다 출제진이 새로이 구성되어 기존의 출제된 내용을 피하고 새로운 문항을 출제하여 시험이 치러지는 상황에서는 출제되는 문항이 능력이 높은 피험자와 낮은 피험자를 변별해 내는 정도를 나타내는 문항 변별도 측면에서 모두 양호한 문항인지에 대한 검토가 필요하다.

    문항이란 검사를 구성하는 가장 기본적인 단위이며, 문항의 질은 검사의 양호도에 영향을 미치는 요소 중의 하나이다. 따라서 검사를 구성하는 문항이 양호한 문항인지를 분석하는 문항 양호도 분석은 매우 필요한 작업이다. 문항의 질을 분석하는 방법에는 질적인 분석 방법과 양적인 분석 방법이 있으며, 이 중에서 양적인 접근 방법으로는 문항의 난이도와 변별도를 중심으로 분석하는 방법이 있다. 이와 같이 난이도와 변별도를 중심으로 한국어능력시험의 개별 문항 대한 양호도를 분석한 연구는 이미 한국어능력시험 개선 방안 연구(남명호 외, 1999)에서 이루어진 바 있다. 또한 김유정(2006)에서도 한국어능력시험의 난이도 분석을 통해 한국어능력시험의 현황을 파악하고 개선 방안을 제시하고 있다. 그러나 이 두 연구는 모두 검사 도구의 총점에 의해 문항을 분석하는 고전검사이론에 근거한 것으로서 이는 검사 도구나 검사 집단에 영향을 받는다는 단점을 지니고 있다. 이와 같이 검사 도구의 총점을 분석하여 진행되는 고전적 검사이론과는 달리 문항반응이론은 문항마다 불변하는 고유한 속성을 지니고 있다고 하여 그 속성을 나타내는 문항특성 곡선에 의해 문항을 분석하는 검사이론이다(Henning, 1987). 이는 피험자 집단의 특성이나 검사 도구의 특성에 따라 능력 추정이 변화되지 않는 불변성 개념을 지닌 이론으로서 연구 분야는 물론 실용 단계에서도 활발히 적용되고 있다(성태제, 2001).

    따라서 본고에서는 이러한 불변성 개념을 지닌 문항반응이론을 활용하여 제28회~제32회 한국어능력시험의 등급별, 영역별 문항 난이도와 변별도를 분석해 보고자 한다.2) 이를 통해 한국어능력시험의 각 회차별 난이도, 변별도가 바람직한 수준으로 유지되고 있는지 확인하고, 제35회차부터 체제 개편을 통해 새 체제로 실시되는 한국어능력시험이 좀 더 신뢰롭고 타당한 평가가 되기 위한 방안을 모색해 보고자 한다.

    1)제 35회 한국어능력시험부터 적용되는 등급별 판정 기준은 다음과 같다.   2)본고에서는 2014년 7월부터 시행되는 개편된 한국어능력시험의 체제에 맞추어 연구 범위를 초급의 듣기, 읽기, 중급과 고급의 듣기, 읽기, 쓰기 영역으로 제한하였다.

    2. 문항 분석

    문항이란 검사를 구성하는 가장 기본적인 단위로서 한 검사의 질은 그 검사를 구성하는 문항의 질에 달려 있다. 일반적으로 문항의 질이 낮으면 전체적인 검사의 양호도도 낮아지게 된다. 따라서 검사의 기본 단위인 문항이 본래의 기능을 제대로 수행하는지 확인하고 검토하는 작업인 문항 분석(item analysis)이 필요하다.

    일반적으로 문항을 분석하는 방법에는 문항이 검사의 목적에 부합되도록 제작되었는지를 질적으로 점검하는 방법과 피험자의 응답 결과를 검사 이론에 입각하여 양적으로 점검하는 방법이 있다. 문항을 양적으로 분석하는 검사 이론에는 고전 검사 이론(Classical Test Theory: CTT)과 문항반응이론(Item Response Theory: IRT)이 있다. 고전 검사 이론은 검사 도구의 총점에 의해 문항을 분석하는 이론으로 피험자가 전체 문항 중에 몇 문항을 맞혔는지를 분석한다. 고전검사이론에서 문항 난이도는 문항의 쉽고 어려운 정도를 나타내 주는 지수로서 전체 피험자 중 정답을 맞힌 피험자의 비율로 구한다. 문항 변별도는 잘하는 학생과 못하는 학생을 구분해 주는 정도를 나타내며 전체 피험자를 상위 집단과 하위 집단으로 분류한 후, 각 문항에 대해 이 두 집단이 어떻게 반응하는지를 분석한다. 고전검사이론은 이와 같이 산출 방법이 비교적 간단하나 검사 집단에 따라 같은 문항이라고 하더라도 난이도와 변별도가 달리 추정될 수 있으며 피험자의 능력 비교도 피험자 집단의 특성이나 검사의 특성에 따라 달라지므로 능력 추정의 정확성이 결여된다는 단점을 지닌다.

    이에 비해 문항반응이론은 각 문항은 불변의 고유한 속성을 지니고 있으며 그 속성을 나타내는 문항특성곡선에 의해 문항을 분석하는 이론이다. 문항 반응 이론에서 문항 난이도는 문항 특성 곡선의 위치로 분석되며, 문항 특성 곡선이 오른쪽에 위치할수록 어려운 문항이라고 분석된다. 문항 반응이론에서 문항 변별도는 문항 특성 곡선의 기울기에 의해 분석되며 기울기가 가파를수록 변별도가 높은 문항으로 분석된다. 문항 반응이론은 다음과 같은 점에서 장점을 지닌다(성태제, 2001).

    첫째, 문항반응이론은 피험자의 특성에 의해 문항 특성의 추정이 영향을 받지 않는다. 고전검사이론에서의 문항특성 추정은 피험자 집단의 특성에 의해 변화된다. 즉 같은 문항일지라도 능력 수준이 높은 피험자 집단의 응답 결과에 의해 문항을 분석하면 그 문항은 쉬운 문항으로 판명되고 능력 수준이 낮은 피험자 집단의 응답 결과에 의한 문항 난이도는 어려운 문항으로 판명이 될 것이다. 문항 변별도는 피험자 집단이 이질적일 때 높게 추정되고 동질적이면 낮게 추정되는 문제점이 있다. 반면에 문항반응이론에 의한 문항특성 추정은 피험자 집단의 특성에 따라 영향을 받지 않는다는 장점을 가지고 있다. 문항반응이론에 의하여 문항을 분석하면 능력이 높은 피험자 집단에서 검사가 실시되었든, 능력이 낮은 집단에서 검사가 실시되었든 추정된 문항 난이도, 문항 변별도는 같다.

    둘째, 피험자의 능력추정에서도 고전검사이론은 검사도구의 특성에 따라 능력추정이 변화되나 문항반응이론은 검사의 난이도에 따라 능력 추정이 영향을 받지 않는 불변성 개념을 지니고 있다. 고전검사이론에 의하면 개인의 고유한 능력 수준이 있음에도 불구하고 쉬운 검사 도구를 사용하면 피험자의 능력은 과대 추정되고, 어려운 검사 도구를 사용하면 피험자의 능력은 과소 추정되지만 문항반응이론은 검사도구의 특성이 피험자 능력 추정에 영향을 주지 않는다.

    이러한 장점을 지닌 문항반응이론은 고전검사이론보다 타당함에도 불구하고 수학적 난해성과 계산상의 복잡성으로 인해 최근에 와서야 실용적인 단계에서 활발히 적용되고 있으며, 교육⋅심리 측정 분야뿐만 아니라 TOEFL 등에서도 CBT의 주요한 이론적 근거가 되고 있는 등 언어 평가를 보다 효율적으로 실행하고 필요한 정보를 유용하게 뽑아 낼 수 있는 계기를 마련해 주었다(강승혜 외, 2006).

    3. 분석 자료 및 분석 방법

       3.1 분석 자료

    본 연구에서는 한국어능력시험 제28회~제32회 초⋅중⋅고급 데이터를 분석에 활용하였다. 한국어능력시험은 국립국제교육원에서 개발⋅시행하는 검사로써 매년 4회(국내 4회, 국외 2회) 시행되어 왔으며,3) 체제 개편이 되는 2014년 제35회 시험 이후부터는 시행 횟수가 더 늘어날 예정이다.4) 본 연구에서 최종 분석에 투입한 자료는 각 검사에서 결시, 부정행위 및 신분증 미지참자를 제외한 나머지 데이터를 선정하여 분석하였으며 구체적인 연구 자료에 대한 정보는 <표 1>과 같다.

    위의 자료를 통해 한국어능력시험의 응시자 분포가 중급>고급>초급의 순으로 많은 것을 볼 수 있다. 합격률 분석 자료를 보면, 모든 회차에서 초급의 합격률이 가장 높은 것으로 나타났다. 중급과 고급의 합격률은 회차에 따라 달리 나타났는데, 제28회와 제31회는 중급의 합격률이 높았고, 제29회, 제30회, 제32회는 고급의 합격률이 높은 것으로 나타났다. 또한 국내에서 시행된 시험과 국내⋅외에서 시행된 시험 간의 합격률을 비교해 볼 때, 31회 고급을 제외하고는 국내에서만 시행한 제29, 제31회의 합격률이 국내⋅외에서 시행한 제28회, 제30회, 제32회보다 높은 것을 볼 수 있다. 이는 국내에서 응시하는 학습자들이 일반적으로 한국어에 많이 노출 되고 비교적 집중적으로 한국어를 학습한 학습자들일 것이라는 데서 그 이유를 찾을 수 있을 것이다.

       3.2 분석 방법

    한국어능력시험의 문항모수추정을 위하여 PARSCALE 프로그램을 실행하였으며, 이를 통해 문항모수 추정 후 문항 변별도와 문항 난이도의 특성에 따라 문항을 분류하였다.5) 분류된 특성에 따라 검사 능력을 정확하게 측정하는 양호한 문항과 피험자의 한국어 능력을 측정하는데 수정 및 보완을 위하여 검토가 필요한 문항을 선별하여 보다 양질의 검사가 되기 위한 방향을 제시하고자 하였다. 문항 난이도와 문항 변별도 지수에 따른 언어적 표현은 다음과 같다(박도순, 2006).

    3)본 연구에서 사용된 제28회~제32회의 시험 중, 제28회, 제30회, 제32회는 국내⋅외에서 치러진 시험이고, 제29회와 제31회는 국내에서 시행된 시험이다.  4)2014년에는 총 5회 시행 예정이며, 2015년에는 총 6회 시행을 계획하고 있다.  5)기술통계분석은 SPSS21.0 프로그램을 활용하였다.

    4. 한국어능력시험의 문항 양호도 분석

       4.1 검사 영역에 따른 문항 모수 추정치

    문항반응이론을 활용하여 얻어진 회차별, 영역별, 급별 모수의 평균 점수를 분석해 보면 위와 같다.6) 각 시험의 변별도 평균은 제32회 고급의 쓰기를 제외하고 대체로 적절하거나 변별력이 높은 수준을 유지하고 있는 것을 알 수 있다. 그러나 난이도 평균의 경우는 매우 쉬운 수준부터 어려운 수준까지 다양하게 나타나고 있으며 특히 제28회 중급의 듣기, 읽기, 쓰기와 고급의 듣기, 읽기, 제29회 고급의 듣기, 읽기, 제30회 초급의 읽기, 그리고 제32회 중급의 읽기 쓰기와 고급의 읽기 영역에서 난이도 지수가 0.5 이상으로 어려운 것으로 나타났다. 그러나 여기에서 제시된 값은 변별도와 난이도의 평균이므로 전체적인 분포를 파악하는 데는 도움이 되나, 문항 양호도 분석에서 보다 중요한 개별 문항들의 난이도, 변별도에 대한 정보는 제공해 주지 않는다. 따라서 다음 장에서 문항 각각의 구체적인 문항 양호도 지수와 그 분포를 분석해 보고자 한다.

       4.2 문항 난이도에 의한 분석

    4.2.1 초급

    <표 6>에서 알 수 있는 바와 같이, 초급 듣기에서는 회차마다 문항 난이도 분포가 다르게 나타나고 있으며, 특히 제30회 시험의 경우 난이도가 어려운 문항이 16문항으로, 다른 회차에 비해 상대적으로 많은 것을 볼 수 있다.

    초급 읽기의 문항 난이도 분포도 회차별로 일정하지 않음을 알 수 있고, 특히 제30회 시험의 경우 난이도가 어려운 문항의 수가 18문항으로, 다른 회차에 비해 상대적으로 많은 것을 볼 수 있다.

    4.2.2 중급

    중급 듣기의 경우도 역시 초급과 마찬가지로 난이도 분포가 일정하지 않으며, 특히 제28회, 제29회 시험의 경우 어려운 문항의 수가 제28회는 24문항, 제29회는 21문항으로 다른 회차에 비해 많음을 알 수 있다.

    중급 읽기의 경우도 회차별로 난이도 분포에 차이가 많음을 알 수 있으며, 특히 제28회, 제29회, 제32회 시험은 난이도 지수 0.5이상의 어려운 문항의 수가 제28회는 29문항, 제29회는 17문항, 제32회는 19문항으로 다른 회차에 비해 많음을 알 수 있다.

    중급 쓰기의 경우도 역시 회차별로 난이도 분포에 차이가 많이 있음을 알 수 있다. 특히 제28회, 제32회 시험에서는 어려운 문항의 수가 제28회는 11문항, 제32회는 12문항으로 다른 회차에 비해 많음을 알 수 있다.

    4.2.3 고급

    고급 듣기의 경우에도 초, 중급과 동일하게 회차별 난이도 분포에 차이가 많이 있음을 알 수 있다. 특히 제28회는 어려운 문항의 수가 15문항으로 다른 회차에 비해 많음을 알 수 있으며 제29회의 경우는 다른 회차에 비해 상대적으로 쉬운 문항의 수가 많음(17문항)을 알 수 있다.

    고급 읽기의 회차별 난이도를 보면, 간수준 문항의 수는 회차마다 거의 크게 변동이 없으나 쉬운 문항의 수와 어려운 문항의 수가 차이를 보이고 있음을 알 수 있다. 제30회의 경우 난이도가 쉬운 문항의 수가 4개에 불과하고 어려운 문항은 17문항으로, 다른 회차에 비해 어렵게 출제된 것을 알 수 있다.

    고급 쓰기의 회차별 난이도를 보면, 제30회와 제31회는 난이도가 어려운 문항으로 분류된 사례가 보이지 않고 있으며, 상대적으로 제32회가 다른 회차에 비해 어렵게 출제된 것을 알 수 있다.

       4.3 문항 변별도에 의한 분석

    4.3.1 초급

    초급 듣기의 회차별 문항 변별도를 분석해 보면 변별력이 거의 없거나 낮은 문항들이 제28회와 제29회에 6문항으로 다른 회차에 비해 많은 것을 볼 수 있다. 초급 듣기에서 일관되게 변별력이 없는 문항 유형으로 분류된 문제는 다음과 같다.

    이는 한 음절, 또는 두 음절로 구성된 단어를 듣고 그것을 고르는 문제 유형으로 토픽이 처음 만들어진 1997년부터 34회까지 계속 출제된 문제 유형이다. 그러나 분석 결과에서 나타난 바와 같이 난이도는 매우 쉽고, 변별력도 없는 것으로 나타나고 있다. 이러한 유형의 문항은 초급 학습자의 수가 많고 한국어가 상대적으로 더 낯선 언어였던 시기에는 초급 학습자의 듣기 능력을 변별하는 데 유용하게 사용될 수 있었으나, 현재의 분석 결과로 본다면 더 이상 초급 학습자에게 적당한 문항 유형은 아니라고 판단되며, 실제로 이 문항 유형은 새로 개편된 35회 토픽에서부터는 출제되지 않는다.

    초급 읽기의 회차별 변별도 분석에서는 다른 회차에 비해 제31회 시험에 변별력이 낮은 문항이 상대적으로 많이 출제된 것을 볼 수 있으며, 읽기 문항 유형 중에 공통으로 변별력이 낮은 문항 유형은 없는 것으로 분석되었다.

    4.3.2 중급

    중급 듣기에서는 변별력이 낮은 문항들이 제29회 시험에서 10문항, 제31회 시험에서 8문항으로, 다른 회차에 비해 변별력이 낮은 문항들이 많이 출제되었음을 알 수 있다.

    <표 17>에서 알 수 있듯이, 중급 듣기의 경우 문제를 듣고 맞는 그림을 고르는 유형의 문제(1번, 2번)는 대부분의 회차에서 난이도가 매우 쉽고 변별력도 낮은 것을 알 수 있다. 이와 같이 매우 쉽고 변별도가 낮은 문항 유형은 양호한 문항이라고 할 수 없다. 따라서 추후에도 동일한 유형에서 이와 같은 결과가 계속적으로 나타난다면, 이러한 문항 유형의 계속 출제 여부를 검토해 볼 필요가 있을 것이다. 해당 유형의 문제와 양호도 분석 결과를 제시해 보면 다음과 같다.

    중급 읽기에서는 변별력이 낮은 문항들이 제29회 시험에서는 3문항, 제30회 시험에서는 4문항 출제되었으나 제28회, 제30회, 제32회 시험에서는 6~7문항이 출제된 것을 볼 수 있다. 이들 문항 중, 변별도가 낮고 난이도가 어려운 문항의 예를 들면 다음과 같다.

    이들 문항의 경우, 사소한 어휘의 조작으로 정답과 오답이 구분되게 되어, 피험자들의 혼동을 유발하며 이로 인해 난이도는 어렵고, 변별도도 낮아지는 것을 볼 수 있다.

    중급 쓰기에서는 변별력이 낮은 문항들이 제28회와 32회 시험에서 7문항 출제되었으며, 제29회, 제30회, 제31회 시험에서도 각각 5~6문항이 출제된 것을 알 수 있다.

    중급 쓰기의 경우 41번~45번은 주관식 문항 유형으로, 제시된 표현을 순서대로 알맞은 연결어미를 사용하여 한 문장으로 쓰는 유형(41번, 42번)7)과 글의 한 부분을 비워 놓고 전후 맥락을 파악하여 글의 흐름에 맞는 문장 쓰기 유형(43번, 44번), 그리고 작문 쓰기의 유형(45번)은 <표 20>에서 제시된 바와 같이, 대부분의 회차에서 난이도가 매우 어렵고, 변별도 또한 낮은 것을 볼 수 있다.

    해당 유형 문항의 예는 다음과 같다.

    4.3.3 고급

    고급 듣기의 경우에는 제31회에 변별도 지수가 0.35미만으로 변별력이 거의 없는 문항이 6문항이 출제된 것을 볼 수 있다. 또한 변별도가 0.35이상~0.65미만의 변별력이 낮은 문항이 제28회~제30회에 8~9문항이 출제되었으나 제32회는 13문항이 출제된 것을 볼 수 있다. 변별도가 낮은 듣기 문항의 예를 들어 보면 다음과 같다.

    위의 문항의 경우는 정답이 ‘② 구체적인 사례’로 되어 있으나, 이것을 명확히 남자기 제시한 의견의 근거로 보기에는 정답으로서의 긴밀성이 부족해 보인다. 이 문항과 동일한 유형의 다른 회차 시험에서 답지로 제시된 내용 중에서 하나를 고른다면 ‘전문가의 견해’ 또는 ‘관련 서적’ 정도가 더 적당한 답이라고 할 수 있을 것이다. 이러한 문제로 인해 이 문항은 난이도는 어렵고 변별도는 낮은 것으로 나타났다.

    이와는 반대로, 아래의 제28회 고급 듣기 11번 문항은 고급임에도 불구하고 여자의 생각이 짧은 대화 속에 너무 명확히 제시되어 난이도도 너무 쉽고 따라서 변별도도 낮은 것을 볼 수 있다.

    고급 읽기의 경우에는 변별력이 거의 없거나 낮은 문항이 제30회에 12문항이 출제되어 다른 회차에 비해 변별도가 낮은 것을 볼 수 있다. 변별력이 낮은 문항의 예를 들어 보면 다음과 같다.

    위의 문항은 주어진 네 개의 문장 중에 주제문에 해당하는 문장을 고르는 문항이다. 현재 정답은 ②번으로 되어 있으나 ④번의 경우도 주제문이 될 수 있고 실제 많은 피험자가 ④번을 정답으로 고른 것을 볼 수 있다. 이러한 이유로 위의 문항은 난이도가 어렵고 변별도도 낮은 것으로 분석되었다.

    이와 반대로 위의 문항은 역시 문장 안에서 주제문을 고르는 문항이나, 주제문이 ④번임이 너무 명백히 드러나서 난이도도 매우 쉽고, 이로 인해 변별도도 매우 낮은 것을 볼 수 있다. 따라서 이러한 주제문을 고르는 문장들을 고급의 수준에 맞으면서도 명확한 하나의 답을 고를 수 있도록 출제에서 좀 더 주의를 기울일 필요가 있을 것이다.

    고급 쓰기의 경우는, 제29회와 제32회는 변별력이 높은 문항이 없는 것으로 분석되었으며, 나머지 회차에서도 1~2개 정도로, 전체적으로 변별력이 매우 낮은 것을 볼 수 있다. 특히 제32회의 경우에는 변별력이 없거나 낮은 문항이 전체 14문항 중 10문항으로 70%이상을 차지함을 알 수 있다.

    또한 위의 <표 24>에서 보는 바와 같이, 고급 쓰기 주관식 영역의 경우에도 중급 쓰기와 동일하게, 제시된 표현을 순서대로 알맞은 연결어미를 사용하여 한 문장으로 쓰는 유형(41번)8), 글의 한 부분을 비워 놓고 전후 맥락을 파악하여 글의 흐름에 맞는 문장 쓰기 유형(42번, 43번), 그리고 작문 쓰기 유형(44번)이 대부분의 회차에서 난이도가 매우 어렵고, 변별도 또한 낮은 것을 볼 수 있다. 이 문항 유형의 예를 제시하면 다음과 같다.

    이와 같이 중급과 고급의 쓰기 주관식 유형에서 공통적으로 문항의 난이도가 어렵고, 변별도가 낮은 이유는 문항 자체의 문제일 수도 있겠으나, 보다 근본적으로는 채점 방식의 문제라고 볼 수도 있을 것이다. 주관식 문항은 채점 방식에 따라 점수 부여가 크게 달라지기 때문이다. 주관식 문항을 채점할 때 채점을 지나치게 분석적으로 할 경우, 대다수의 피험자가 낮은 점수를 받게 되는 경향이 있고, 그로 인해 능력이 높은 피험자와 그렇지 못한 피험자를 구분해 내는 정도를 나타내는 변별도 수치도 낮아지고, 난이도는 어려워질 수 있다. 따라서 쓰기 주관식 문항의 경우, 문항 내용에 대한 점검뿐만 아니라 채점 기준과 채점 방식에 등에 대한 면밀한 검토를 통해 문항의 양호도를 높일 수 있는 방안 모색이 필요하다.

    6)본 연구에서는 2014년부터 개편된 한국어능력시험의 체제에 맞추어, 초급은 듣기와 읽기, 중⋅고급은 듣기, 읽기, 쓰기 영역을 중심으로 분석하였다.  7)이 유형의 문제는 새로이 개편되는 제35회 한국어능력시험부터는 출제되지 않는다.  8)이 유형의 문제는 새로이 개편되는 제35회 한국어능력시험부터는 출제되지 않는다.

    5. 결론

    본 연구는 문항반응이론을 활용하여 제28회~제32회 한국어능력시험의 문항 양호도를 분석하는 것을 목표로 한다. 이는 기존의 난이도, 변별도 연구에서 사용하였던 고전검사 방법이 아닌, 피험자와 검사 도구의 영향을 받지 않는 불변성 개념을 지닌 문항반응이론을 활용했다는 점에서 의의가 있다.

    분석 결과, 회차별로 또는 등급별로 문항 난이도가 지나치게 어렵거나 쉬운 문항들이 존재하고, 난이도 분포도 일정하지 않은 것을 볼 수 있다. 또한 변별도 측면에서도 변별력이 거의 없거나 낮은 문항들이 포함되어 있음을 알 수 있었다. 변별력이 낮은 문항들을 중에는 난이도가 너무 쉽거나 어려운 문항이 포함되어 있고 이로 인해 변별력이 낮아짐을 알 수 있었다. 이러한 문항들은 양질의 문항이라고 볼 수 없다. 이와 같이 회차별로 문항 난이도가 일정하게 유지되지 못하고, 변별력이 없는 문항들이 포함되어 있다는 것은 한국어능력시험의 검사 양호도에 영향을 미치는 요인으로, 반드시 교정이 필요한 부분이다. 또한 제35회부터 시행되는 개편된 체제의 한국어능력시험은 중, 고급 통합형을 취하고 있다는 점을 고려할 때 한 종류의 시험 안에서 급별 변별이 중요하게 부각될 것이라는 점에서 이러한 문항 양호도 분석 결과는 더욱 중요한 의미를 지닌다고 하겠다.

    이러한 내용을 바탕으로 한국어능력시험의 개선 방안을 정리하면 다음과 같다.

    첫째, 문항반응이론을 활용한 한국어능력시험의 양호도 분석이 계속되어야 한다. 불변성의 개념을 지닌 문항반응이론을 활용한 문항 양호도 분석을 통해 영역별, 급수별로 양호한 문항이 출제되고 있는지 점검이 필요하며, 이러한 분석 결과가 한국어능력시험 출제에 반영될 수 있도록 해야 할 것이다.

    둘째, 이번 연구를 통해 중급 듣기와 중⋅고급 쓰기 주관식 영역의 특정 문항 유형에서 문항 난이도가 지나치게 쉽거나 어렵고, 변별도도 낮은 것을 확인할 수 있었다. 이러한 연구 결과를 향후 출제에 반영하여, 양호도가 낮은 문항 유형들에 대한 개선이 필요하다. 중급 듣기의 경우 문제를 듣고 맞는 그림을 고르는 유형의 문제는 난이도가 매우 쉽고 변별력도 낮은 것을 볼 수 있다. 이러한 양호도를 나타내는 문항 유형을 새로운 한국어능력시험의 출제 유형으로 계속 유지해야 하는지에 대한 검토가 필요하다. 만약 이러한 유형이 꼭 필요하다면 현재의 유형을 유지하면서 문항 양호도를 높일 수 있는 방안이 모색될 필요가 있다. 또한 중급과 고급의 쓰기 주관식 영역의 경우에도, 글의 한 부분을 비워 놓고 전후 맥락을 파악하여 글의 흐름에 맞는 문장 쓰기 유형과 작문 쓰기의 유형이 대부분의 회차에서 난이도가 매우 어렵고, 변별도 또한 낮은 것을 볼 수 있다. 이러한 원인을 문항 유형 자체에서 찾을 수도 있겠지만, 이것이 주관식 쓰기 문항이라는 특성을 고려해 본다면, 이는 채점과 관련된 문제일 수도 있을 것이다. 새로운 체제의 한국어능력시험은 직접 평가를 지향하여 쓰기 영역이 모두 주관식 쓰기로 출제되므로, 앞으로 출제뿐만 아니라 채점에 있어서도 기준의 새로운 점검이 필요하며 해당 유형의 문항 양호도를 높일 수 있는 방안이 모색되어야 할 것이다.

    셋째, 한국어능력시험은 매 시험마다 출제팀이 새로이 구성되어 정해진 기한 내에 집중적인 출제가 이루어지는 방식을 택하고 있다. 그러나 현재와 같은 이러한 출제 방식으로는 문항의 양호도 확보가 어려울 수밖에 없다. 지금까지 이러한 문제점을 개선하기 위해 여러 차례의 연구들이 이루어진 바가 있고, 이를 통해 평가 영역과 평가 등급의 조정이 이루어져 과거에 비해 출제 문항 수가 대폭 줄어든 것은 사실이다. 그럼에도 불구하고 본 연구에서 보는 바와 같이 문항 양호도 확보의 문제는 여전히 존재하고 있다. 또한 2014년부터 개편되어 시행되는 새로운 체제의 한국어능력시험은 시행 횟수가 연 6회가 될 예정이며, 이렇게 횟수가 늘어날 경우 매회 출제팀 구성에 따르는 어려움은 물론이고, 문항 양호도 확보와 유지도 더욱 어려워질 가능성이 높다. 이러한 문제를 개선하기 위해서는 기존과 같은 출제 방식에서 문제은행식 출제로의 전환이 필요하다. 이러한 논의는 한국교육과정평가원의 연구 보고(남명호 외, 2000)에서도 논의된 바가 있다. 한국어능력시험의 응시자가 해마다 증가하고 있고, 시험의 결과 활용도가 높아지고 있는 이 시점에서, 문항반응이론을 활용한 문제은행 시스템 도입을 통해 문항을 수정, 보완, 검증함으로써 문항 양호도를 극대화하고 한국어능력시험의 질을 제고하려는 노력이 필요할 것이다.

  • 1. (1985) Standards for Educational and psychological testing. google
  • 2. Henning G. (1987) A guide to language testing: Development, evaluation, research, Cambridge, google
  • 3. 강 승혜 (2006) 한국어 평가론. google
  • 4. 김 유정 (2006) 한국어능력시험의 난이도 분석 연구 [한국어교육] Vol.17 P.21-46 google
  • 5. 남 명호, 이 인제, 김 정숙, 박 정 (1999) ?한국어능력시험 개선 방안 연구? google
  • 6. 남 명호, 양 태식, 이 영숙, 원 효헌 (2000) ?한국어능력시험 등급 기준 조정 및 문제은행 구축 방안 연구? google
  • 7. 민 병곤 (2005) 한국어능력시험의 운영 현황 및 과제 [한국어교육] Vol.16 P.137-162 google
  • 8. 박 도순 (2006) ?교육평가? google
  • 9. 성 태제 (2001) ?문항반응이론의 이해와 적용? google
  • [<표 1>] 제28회∼제32회 한국어능력시험 응시자 수
    제28회∼제32회 한국어능력시험 응시자 수
  • [<표 2>] 제28∼제32회 한국어능력시험 합격자 수와 합격률
    제28∼제32회 한국어능력시험 합격자 수와 합격률
  • [<표 3>] 언어적 표현에 의한 문항 난이도 범위
    언어적 표현에 의한 문항 난이도 범위
  • [<표 4>] 언어적 표현에 의한 문항 변별도 범위
    언어적 표현에 의한 문항 변별도 범위
  • [<표 5>] 검사 영역에 따른 시행 회차별, 영역별, 급별 추정 모수에 대한 기술통계
    검사 영역에 따른 시행 회차별, 영역별, 급별 추정 모수에 대한 기술통계
  • [<표 6>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 듣기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 듣기)
  • [<표 7>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 읽기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 읽기)
  • [<표 8>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 듣기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 듣기)
  • [<표 9>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 읽기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 읽기)
  • [<표 10>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 쓰기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 쓰기)
  • [<표 11>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 듣기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 듣기)
  • [<표 12>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 읽기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 읽기)
  • [<표 13>] 문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 쓰기)
    문항 난이도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 쓰기)
  • [<표 14>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 듣기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 듣기)
  • [] 
  • [<표 15>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 읽기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(초급 읽기)
  • [<표 16>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 듣기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 듣기)
  • [<표 17>] 중급 듣기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
    중급 듣기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
  • [] 
  • [<표 18>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 읽기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 읽기)
  • [] 
  • [<표 19>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 쓰기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(중급 쓰기)
  • [<표 20>] 중급 쓰기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
    중급 쓰기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
  • [] 
  • [] 
  • [] 
  • [<표 21>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 듣기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 듣기)
  • [] 
  • [] 
  • [<표 22>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 읽기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 읽기)
  • [] 
  • [] 
  • [<표 23>] 문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 쓰기)
    문항 변별도 지수의 분류 기준에 따른 각 회차별 문항 수(고급 쓰기)
  • [<표 24>] 고급 쓰기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
    고급 쓰기 문항 중 문항 변별도 지수가 낮은 각 회차별 문항 유형
  • []