한국어 학습자의 발화에 대한 한국어 교사와 비교사 원어민 간의 평가 차이 연구<xref ref-type="fn" rid="fn001">*</xref>

OA학술지
Journal of Korean Language Education

한국어 학습자의 발화에 대한 한국어 교사와 비교사 원어민 간의 평가 차이 연구*

Publish: Journal of Korean Language Education Volume 25, Issue4, p163~188, Dec 2014

ABSTRACT

한국어 학습자의 발화에 대한 한국어 교사와 비교사 원어민 간의 평가 차이 연구*

Lee Hyang. 2014. An investigation of the differences between novice teachers, experienced teachers and non-teacher native speakers in evaluation of Korean language learners’ speech. Journal of Korean Language Education 25-4: 163-188. This study aim is to investigate the scoring patterns in speaking test evaluation amongst novice teachers, experienced teachers and non-teacher natives and to know to what extent they are different from each other. To this end, ten novice teachers, ten experienced teachers and ten non-teacher natives scored twenty examinee’s responses to a semi-direct speaking test consisting of three tasks using a six-point Likert scale for accuracy (segmental; suprasegmental), fluency(speech rate; pause), vocabulary, grammar, content, consistency/conjunction, comprehensibility, and intelligibility. The analysis of raters’ scores through a multi-facet Rasch measurement model showed distinctive variability between the rating patterns of three groups. Novice teachers scored the most strictly, while the non-teachers scored the most leniently. Furthermore the analysis displayed different rating patterns amongst the three groups on the scoring criteria, the task type and the leaners’ Korean language ability. Such findings are expected to contribute not only to a better understanding of the raters’ scoring processes and to the development of a more valid speaking assessment, but also getting more information which part of speech we have to focus on in teaching speaking. (George Mason University, Korea)

KEYWORD

말하기 평가 , 모국어 화자 , 말하기 , 다국면 라쉬 모형 , 편향성 , 채점 경향

본문

Collapse all

1. 연구의 목적 및 필요성

‘원어민 화자(native speaker)’라는 개념은 외국어 교육의 긴 역사에서 빠질 수 없는 중요한 개념으로 다루어져 왔다. 과거에 전통적 교수법이 유행하던 시절에는 ‘원어민 화자’와 같은 언어 능력(native-like)을 갖추는 것이 외국어 학습자가 궁극적으로 도달하여야 하는 이상적인 목표이자 표본(model)으로 간주되면서 언어 교육에 있어서 주요한 개념으로 취급되었으며, 1980년 이후 의사소통 접근법이 보편화되면서는 학습자가 교실 밖에서 궁극적으로 의사소통을 할 수 있어야 하는 대상이자 의사소통을 위한 노력(communication effort)을 들여야 하는 대담자로서 ‘원어민 화자’ 개념이 중요하게 다루어져 왔다. 또한 이러한 의사소통 대담자로서의 ‘원어민 화자’에 대한 관심은 교사가 아닌 교실 밖의 일반 모국어 화자가 외국인 학습자들의 발화를 어떻게 듣고 평가하는가에 대해 관심을 갖도록 만들었다(Walker, 2010; Bamgboss, 1998; Smith 외, 1985).

한국어 교육에서도 한국어 학습의 궁극적인 목표가 ‘한국어 원어민과의 원활한 의사소통’이라면 교육과 평가에 있어서 교사는 비교사 원어민 화자를 대신하는 역할을 해야 하며, 평가자 또한 외국인 학습자의 발화에 대하여 평가 환경 밖의 ‘비교사인 원어민(non-teacher native)’과 같은 평가를 할 수 있어야 할 것이다. 그러나 이를 위해서는 교사와 비교사 원어민 집단 간에 한국어 학습자의 발화에 대한 평가가 어떻게 다른지에 대한 객관적인 연구가 선행되어야 할 것이다. 특히, 말하기 평가의 경우 평가자의 평가 결과가 평가 상황 밖의 실제 생활에서의 비교사 원어민 화자의 평가 결과와 일치해야 그 평가가 타당성이 있다고 할 수 있을 것이다. 그러나 아직까지 한국어 교육에서는 비교사 한국인들이 한국어 학습자의 말하기를 어떻게 평가하고 있는지, 한국어 교사와는 어떤 차이가 있는지에 대한 연구를 찾아보기 힘들다.

그러므로 본 연구는 한국어 교사와 비교사 원어민 집단 간의 한국어 학습자의 발화에 대한 평가에 있어서의 차이를 알아보는 것을 그 목표로 한다. 또한 지금까지 다른 외국어 교육 관련 연구들에서 교사의 교육이나 평가 경험에 따라 말하기나 쓰기 평가에 있어서 차이가 있음이 지적되어 온 점을 고려하여(Cumming, 1990) 교사 그룹을 상대적으로 경험이 많은 교사와 경험이 적은 교사 그룹으로 나누고 이 두 교사 집단이 비교사 원어민 교사와 어떤 차이가 있는지도 함께 살펴보도록 할 것이다.

2. 선행 연구

   2.1 말하기 평가와 모국어 화자

<표 1>에서 보듯이 외국어 교육에서 ‘원어민 화자’라는 개념은 ‘모국어 화자’, ‘목표어 화자’ ‘원어민 화자’ 등과 같은 용어로 사용되며 말하기뿐만 아니라 모든 언어 영역에 있어서 교육 목표나 평가 기준을 정립하는 데 있어서 중요한 역할을 해왔다.

[<표 1>] 영어와 중국어, 한국어의 표준 등급 기준 기술의 예

영어와 중국어, 한국어의 표준 등급 기준 기술의 예

한국어의 국제통용 표준 교육과정의 등급별 내용 기준 기술을 살펴보면 ‘원어민 화자’ 개념이 곳곳에서 사용되고 있음을 확인할 수 있다. 또한 ‘원어민 화자’ 개념은 학습자의 언어 능력 판단 기준으로 뿐만이 아니라, 사회문화적 능력으로서 궁극적으로는 학습자가 이해하거나 갖추어야 하는 항목을 기술하기 위해서도 사용되고 있다.1)

위와 같이 언어 교육이나 평가의 목표나 기준을 설정하는 데 있어서 원어민 화자의 개념이 중요하게 다루어져 온 것은 궁극적으로 학습자들이 외국어를 배움으로써 상호작용하고 의사소통해야 하는 사람이 결국 언어 교사가 아니고 언어학이나 언어 교육에 대한 지식이 없거나 외국인과 접해 본 적이 거의 없는 순수한 원어민이기 때문일 것이다. 그러므로 교사나 평가자가 학습자의 언어 능력에 대하여 내리는 판단은 결국 모국어 화자의 판단과 일치해야 할 것이다.2) 몇몇 연구자들은 언어 평가에 있어서 원어민 화자와 같은 직관으로 평가하는 것의 중요성을 강조하며 평가자 교육이나 훈련과정이 오히려 이러한 원어민 화자의 직관과 멀어지게 만들 수 있음을 지적한 바 있다. Barnwell(1989)은 ACTFL OPI 채점자 훈련 과정이 오히려 특정한 채점자들의 관점과 능력을 훈련시킴으로써 모국어 화자의 직관과 멀어지게 만드는 것일 수 있다고 지적하였으며, Frith(1978), Shohamy(1983), Hanning(1993)도 언어 숙달도를 판단하는데 있어서 반드시 긴 기간의 훈련자 과정이 필요한 것은 아니라고 주장하였다. Nichols(1988) 또한 의사소통 효과를 평가하는 일이 몹시 힘든 훈련과 자격증 과정을 거쳐야 하는 어려운 과정이 아니고 이는 언어적·사회적 능력을 갖춘 성인이 가진 하나의 보통 능력이라고 하였다. 이와 같은 의견들은 언어 평가를 할 때 모국어 화자의 평가나 직관을 고려해야 한다는 것을 의미하는 것으로 볼 수 있다.

그러나 지금까지의 대부분의 외국어 평가들은 실제 원어민 화자가 이들 외국인 화자의 발화를 어떻게 평가하고 있는가에 대한 실증적 연구 결과를 기반으로 개발된 것이 아닌 이론적, 논리적, 경험적 증거를 바탕으로 개발된 것이 대부분이다. 이와 같은 문제는 평가의 타당성을 위협하는 중요한 요인이 될 수 있다. 이와 같은 이유로 Byrnes(1986)은 채점 등급에 익숙하지 않은 원어민 화자들이 학습자 언어를 어떻게 평가하는지에 대한 연구가 반드시 필요하다고 주장하였으며, Clark 외(1987) 또한 이미 평가에 익숙한 평가자가 아닌 교육 받은 원어민 화자의 채점 결과가 전문 평가자와 일치한다는 증거가 반드시 필요하다고 지적하였다.

그러나 한국어 교육의 경우 국제통용 교과과정이나 TOPIK 시험의 등급 기준에 모국어 화자의 개념이 곳곳에서 사용되고 있음에도 불구하고 아직까지 실제 모국어 화자가 외국인 화자의 발화를 어떻게 평가하는지에 대한 연구를 찾아보기 힘들다. 만약에 이에 대한 연구가 이루어지지 않는다면 이는 평가 결과로 나온 등급과 실제 원어민의 평가 사이의 간극을 만들고 이는 평가의 타당성을 의심하게 만드는 가장 중요한 요인이 될 것이다.

   2.2 비교사와 교사의 말하기 평가에 대한 연구

앞에서도 언급하였듯 말하기 평가의 평가 결과가 평가 상황 밖의 실제 상황에서의 평가와 얼마나 일치하는가 하는 것은 평가의 타당성 문제와 직결되는 문제이다. 이와 같은 이유로 지금까지 외국어 교육에서 말하기 평가와 관련한 연구들에서는 교사가 아닌 모국어 화자가 외국인 화자의 발화를 어떻게 평가하는 가와 관련한 연구들이 이루어져 왔다. 이들 연구들은 크게 원어민 화자에 초점을 맞춘 연구와 교사와 원어민 간의 평가 차이에 초점을 맞춘 연구로 나누어 볼 수 있다.

먼저 원어민 화자에 초점을 맞춘 연구들에서는 외국어 화자의 발화 중 어느 측면이 원어민 화자의 이해가능성이나 이해명료성에 영향을 미치는가에 대한 연구들을 다양한 방법으로 진행하였다. 이들 연구 결과에 의하면 외국인 화자의 말하기나 쓰기 상의 오류 중 아주 적은 부분만이 모국어 화자의 이해가능성에 영향을 미치며(Olsson, 1972; Guntermann, 1980; Chastain, 1980, 1981; Piazza, 1980), ‘어휘’나 ‘담화’에서의 오류가 원어민 화자에게 이해가능성을 낮추고 주요한 ‘거슬림(irritation)’3) 요인으로 작용하는 것으로 나타났다(Pizza, 1980; Ensz, 1982)4).

또한 다른 한 편으로는 언어 교사와 비교사 원어민 집단 간 외국어 학습자의 말하기 발화에 대한 평가에서의 차이를 살펴본 연구들이 진행되어 왔다. Galloway(1982)는 모국어 화자로서의 스페인어 교사, 비모국어 화자로서의 스페인어 교사 그리고 스페인어 원어민 화자 간의 외국인 학습자 발화에 대한 반응을 연구한 결과 비교사 원어민 그룹도 교사 그룹들과 마찬가지로 외국어 학습자의 의사소통 능력을 일관적으로 평가할 수 있는 것을 발견하였으며, 원어민 화자(native speaker)들은 학습자들의 발화 ‘내용’에 더 많은 코멘트를 하는 반면 비모국어 교사(non-native teacher)들은 ‘문법의 정확성’에 초점을 맞추어 코멘트를 하는 것으로 나타나, 전체적으로 모국어 화자들이 교사들 보다 ‘내용과 의미(message)’에 초점을 맞추어 전달 측면을 더 집중해서 듣는 것을 발견하였다. Barnwell(1989)은 언어 교사와 일반인 그룹의 ACTFL 채점 결과를 분석하였는데 그 결과 일반인 그룹이 언어 교사 그룹보다 더 엄격한 채점을 하는 것을 발견하였으며, Hadden(1991)은 영어 말하기 평가에서 영어 교사와 교사가 아닌 일반인 그룹 간에 어떤 차이가 있는지에 대한 연구를 실시한 결과 모든 영역 걸쳐서 교사 집단이 비교사 집단보다 엄격한 채점을 하나, ‘언어 능력’에 있어서만 교사가 일반인 보다 통계적으로 유의미할 만큼의 엄격한 채점을 하고, ‘이해 가능성, 사회 수용성, 몸짓 언어 영역’에 있어서는 통계적으로 유의미한 차이가 없는 것을 발견하였다.

또한 몇몇 연구들에서는 말하기 평가에 있어서 교사 간에도 교사의 언어적 배경(Carey 외, 2011)이나 교육 경험에 따라 차이가 있음을 지적하였다. Kim(2010)은 6명의 채점자를 채점자의 경험에 따라 Expert, Developing, Novice로 나누고 이들의 채점 경향을 살펴본 결과 이들 세 그룹 간의 엄격성이나 일관성은 큰 차이가 없는 것으로 나타났으나, 채점 척도를 해석하는데 있어서는 차이가 있음을 발견하였다. 한국어 교육에서도 최근 들어 이러한 채점자 특성에 의한 편향성에 대한 몇 안 되는 연구가 진행되었다. 이향(2013)에서는 한국어 말하기 평가 중 발음 영역에서의 채점자 특성(전공과 한국어 교육 경험)에 따른 채점 경향을 살펴보았는데, 그 연구 결과 국어학 전공자들이 다른 전공자들 보다 발음의 정확성에서 더욱 엄격한 채점을 하며, 5년 이하의 교육 경험을 가진 교사들이 5년 이상의 경험을 가진 교사들 보다 발음과 관련한 모든 영역에 있어서 더욱 엄격한 채점을 하는 것을 발견하였다. 그러나 이 연구는 발음 영역에 한정된 연구로 다른 말하기 영역으로 일반화시키기에는 힘들다. 강석한 외(2014)의 연구에서는 한국어 고급 학습자의 말하기 시험 채점에 있어서 전문가와 일반인 그룹 간에 어떤 차이가 있는가에 대한 연구를 실시하였다. 그 결과 전문가 집단과 일반인 집단 모두 0~5점 척도를 등간으로 사용하여 채점을 할 수 있으며, 전문가 그룹이 일반인 보다 더 엄격한 채점을 하는 것을 발견하였다. 또한 두 집단 간에 발음과 어휘 영역에 있어서 통계적으로 유의미하게 다른 채점 경향이 있고, 그림 설명 과제와 개방형 과제에 있어서 상당한 편향도가 있는 것을 발견하였다. 그러나 이 연구는 고급 화자를 대상으로 한 말하기 평가의 전반적인 채점에 대한 전문가와 비전문가 집단 간의 차이를 보여주었다는 데에 의의가 있으나, 이 연구는 고급 학습자의 발화만을 대상으로 하여 초급에서 고급에 이르는 모든 학습자들에게 일반화시킬 수 없다는 한계가 있다.

이처럼 한국어 교육에 있어서 한국인 모어 화자가 외국인 화자의 발화를 평가하는데 있어서 어떤 차이가 얼마나 있는지에 대한 연구는 아직 초보 단계라고 볼 수 있다. 그러므로 본 연구에서는 이와 같은 선행연구들을 바탕으로 비교사 한국인과 한국어 교사 간의 한국어 학습자 말하기 평가에 있어서의 차이를 살펴보고, 한국어 교육 경험 기간에 따른 교사들의 채점 경향이 비교사 원어민들과는 각각 어떤 차이가 있는지도 함께 살펴보도록 할 것이다.

1)예를 들어 국제통용 표준 교육과정의 등급별 총괄 목표 중급에서는 ‘한국인의 일상생활에 반영된 전통 문화를 이해하고, 나이, 성, 지위 등 특수한 상황에서 나타나는 문화적 특징 등을 이해할 수 있다. 한국 문화 속에 반영된 한국인의 가치관과 사고방식을 이해할 수 있으며 한국 문화와 자국의 문화를 비교하여 문화의 다양성과 특수성을 이해할 수 있다.’ 등과 같이 기술하고 있다. 2)물론 이는 평가의 목표가 무엇인가에 따라서 달라질 수 있으나 만약에 평가 목표가 ‘(원어민과의) 원활한 의사소통’이라면 평가 결과는 일반 원어민의 평가와 일치하거나 유사해야 할 것이다. 3)여기서의 거슬림(irritation)은 대담자와의 의사소통을 방해하는 형태들의 결과를 의미하는 것으로 일반적으로 높은 이해가능성은 낮은 거슬림을 의미한다. 하지만 거슬림은 오류에 대한 사회문화적인 시각을 포함하는 개념으로서 대담자가 갖는 오류에 대한 가중치를 의미하며 이는 사회문화적 요인, 성별, 교육 정도, 계급, 외국인에 대한 친숙도에 따라 달라질 수 있다. 4)Piazza(1980)는 프랑스 모국어 화자들이 프랑스어를 배우는 독일어권 화자들의 발화에서 이해가능성 보다 거슬림을 더 엄격하게 채점하는 것을 발견하였다. 또한 언어의 기능별 영역 중 어느 부분의 오류에 있어서 모국어 화자들이 더욱 거슬리게 느끼는가하는 연구로 Polizer(1978)에서는 음운 오류, 격어미(Case-ending) 오류, 동사 형태 오류, 성 혼돈(gender confusion), 어휘 순서 오류, 어휘 오류 6가지 오류 형태 중 어떤 오류가 더 심각하게 느끼는가에 대하여 146명의 십대 학생들의 반응을 실험한 결과 격어미 오류(28%), 음운 오류(36%), 성 혼돈(51%), 어휘 순서(54%), 동사 형태 오류(55%), 어휘 오류(77%)의 순으로 거슬림이 높아지는 것을 확인하였다. 이와 유사한 연구로 Ensz(1982)는 프랑스 모국어 화자에게 정말 발음이 가장 중요한가에 의문을 품고 이에 대한 실험을 진행하였다. 그 결과 전반적인 작은 발음에서의 오류는 다른 어휘나 문법에서의 오류보다 거슬림이 적은 것으로 나타났다.

3. 실험 설계와 분석 방법

   3.1 실험 설계

1) 실험 참가자

본 실험은 20명의 한국어 학습자의 말하기 평가 데이터에 대한 30명의 채점자들의 채점으로 이루어졌다. 이들 20명의 학습자들은 국내 한국 대학에서 교양 한국어를 수강하고 있는 초급에서 고급의 학생들 중에서 무작위 선정하였다. 평가 그룹은 한국어 교육 경험 5년 이상의 한국어 교사 12명, 한국어 교육 경험 5년 미만의 한국어 교사 8명5), 그리고 한국어 교사 경험이 없고 외국인과 접촉할 기회가 일 년에 3회 미만인 한국인 10명이 참여하였다.6)

2) 평가 과제

본 과제에서 사용된 과제는 다음 <표 2>와 같다.

[<표 2>] 평가과제

평가과제

3) 말하기 평가 데이터 수집 및 채점 과정

한국어 학습자들의 말하기 평가 데이터는 ‘Bringham Young University(1999, 2000)’에서 제작한 ‘Enhance Oral Testing Software window version 1.1’을 사용하여 제작한 컴퓨터 기반 말하기 평가를 사용하여 수집되었다. 20명의 학습자들에게 컴퓨터를 사용하여 주어진 과제를 수행하도록 하고 이들의 말하기 데이터를 컴퓨터에 녹음하였다.

30명의 평가자들은 개인 컴퓨터를 사용하여 녹음된 한국어 학습자들의 발화 데이터를 들으면서 주어진 평가표에 따라 채점을 하였다. 평가영역은 ‘이해가능성, 이해명료성, 어휘, 문법, 발음의 정확성, 내용, 일관성 및 논리성, 발화 속도’ 8개의 영역으로 이루어졌으며 모든 영역을 0점부터 5점의 리컬트 척도로 평가하도록 하였다. 또한 연구자는 30명의 평가자 모두에게 개별적으로 연구 목적과 채점 방식을 설명하였으며, 평가 기준 및 영역에 대한 충분한 이해를 했는지를 확인한 후 채점을 하도록 하였다.

   3.2 분석 방법

본고에서는 다국면 라쉬 모형을 활용하여 평가자들의 채점 특성을 분석하였다.7) 분석은 FACETS 프로그램을 사용하였으며, ‘학습자의 능력, 과제의 난이도, 채점자의 엄격성, 평가 영역의 어려움’ 4개 국면에서의 단면 정보에 나타난 로짓(logit) 수치를 바탕으로 각 국면별 상호작용/편향성 정보8)를 살펴보았다.

5)본고에서는 한국어 교육 경험 5년을 기준으로 경험이 많은 교사 그룹(이하 ‘Pro 그룹’), 경험이 적은 교사 그룹 (이하 ‘Ama 그룹’)로 나누어 비교하였다. 이와 같은 구별은 FACETS프로그램을 사용하여 그룹을 나누지 않고 20명 모두의 채점 경향을 대략적으로 살펴본 결과 5년 경험을 기점으로 채점 경향이 바뀌는 것이 비교적 뚜렷하게 나타나는 것을 확인하였고, 이를 바탕으로 5년을 기준으로 나누었다. 이에 대한 정확한 원인이나 정확한 기점은 보다 많은 채점자들을 추가하여 실험을 실시할 필요가 있으며 이에 대하여서는 후속 연구로 미루고자 한다. 6)본 실험은 이향(2013)에서 사용하였던 녹음 자료와 동일한 것을 사용하였다. 이향(2013)에서는 발음 영역에 한정하여 한국어 교사들의 교육 경험과 전공에 따른 채점 경향만을 살펴보았으나 본 연구에서는 이 연구를 확장하여 말하기 전체 영역에 대한 채점 경향을 살펴보았다. 또한 본 연구에는 10명의 비교사(Non 그룹)를 추가하여 실험하였다. 본 실험에 참가한 교사 집단의 보다 구체적인 정보(전공, 교육 경험)는 이향(2013)을 참고할 수 있다. 7)다국면 라쉬 모형은 문항 반응 이론 모형 중 하나로 일반화가능도 이론과 함께 채점자 특성에 대한 연구를 위하여 활발하게 사용되고 있는 통계 기법중 하나이다(Eckes, 2005; Lynch 외, 1998; Schaefer, 2008). 8)편향성/상호작용 정보란 로짓 수치로 나타난 채점자들의 채점에 있어서의 엄격성 정보를 이용한 채점자와 다른 국면들 간에 나타나는 체계적인 패턴을 의미한다(McNamara, 1996).

4. 실험 결과 및 분석

   4.1 모형 적합도와 채점자 적합도 분석

1) 모형 적합도 분석

먼저 본 실험을 위하여 30명 모두의 채점 데이터로 모형 적합도 분석을 한 결과 다음 <표 3>과 같이 평균 잔차가 .00, 표준잔차는 .00, 표준편차가 1.00로 나타나 다국면 라쉬모형 분석에 적합한 것으로 나타났다.

[<표 3>] 전체 30명의 채점자들에 대한 모형적합도 분석

전체 30명의 채점자들에 대한 모형적합도 분석

그러나 ‘과적합’하거나 ‘부적합’한 평가자를 제외시켜 실험 결과의 신뢰도를 높이기 위하여 각각의 채점자들의 채점 신뢰도를 살펴보았다. 만약 실험에 참여한 평가자들의 개개의 채점이 신뢰할 수 없으면 이들 채점자들의 채점 결과 또한 신뢰할 수 없고, 이는 채점 결과를 기반으로 하는 나머지 국면들에 대한 분석 정보 또한 신뢰할 수 없게 만들 수 있기 때문이다. 이를 위하여 본 실험에서는 교사 그룹(‘Pro’와 ‘Ama’) 그리고 비교사 그룹(‘Non’) 두 그룹으로 나누어 채점자 개개인에 대한 적합도 분석을 실시하였다. 그 결과 교사 그룹에서는 ‘부적합’하거나 ‘과적합’한 채점자가 없는 반면 비교사 그룹에서는 23번 채점자가 내적합 평균제곱이 1.63으로 ‘부적합’한 채점자9)로 나타나 상호작용/편향성 분석에서 제외하였다.

[<표 4>] ‘비교사 그룹’의 채점자 적합성 정보 출력 정보

‘비교사 그룹’의 채점자 적합성 정보 출력 정보

이와 같은 과정을 통하여 본 실험은 최종적으로 교사 그룹(Pro, Ama) 20명, 비교사 그룹(Non) 9명의 평결 결과를 바탕으로 상호작용/편향성 분석을 진행하게 되었다.

   4.2 교사와 비교사 그룹 간의 평가 차이 분석

1) 세 그룹 간 채점 적합도 분석

먼저 이들 세 그룹 간의 채점에 있어서의 엄격성 차이를 <표 5>의 적합도 분석표를 통하여 살펴보면 다음과 같다.

[<표 5>] 그룹별 채점 적합도 분석

그룹별 채점 적합도 분석

먼저 내적합도 제곱지수를 살펴보면 모두 ‘–0.5~1.5’ 사이의 값으로 나타나 각각의 그룹들이 그룹 내 일관성이 있는 것을 알 수 있다. 그러나 카이제곱 값이 58.4(d.f.=2, p=.00), 분리도 4.21, 신뢰도 .95로 나타나 채점자 집단 간에 통계적으로 유의미한 엄격성 차이가 존재한다는 것을 알 수 있다. 좀 더 구체적으로 살펴보면 5년 미만의 교육 경험을 가진 Ama 교사 그룹이 가장 엄격하게 채점(.11)을 하고, 다음으로 5년 이상의 교육 경험을 가진 Pro 교사 그룹(-.01)이 그 다음으로 엄격하게 채점을 하고, 마지막으로 비교사 원어민 그룹(-0.10)이 가장 관대한 채점을 하는 것을 확인할 수 있다.10)

2) 평가영역에 대한 평가 차이 분석

가. 그룹 별 평가영역 단면 출력 정보

그룹 별 평가영역 단면 출력 정보 결과는 <표 6>에서 보는 바와 같다.

[<표 6>] 그룹 별 평가영역 단면 출력 정보

그룹 별 평가영역 단면 출력 정보

<표 6>에서 보는 바와 같이 세 그룹이 평가영역에 따라 서로 다른 엄격성으로 채점을 하고 있는 것을 볼 수 있다. 먼저 비교사 Non 그룹은 이해가능성, 이해명료성, 내용, 어휘, 발화속도, 발음의 정확성, 문법, 일관성/논리 순으로 엄격하게 채점하는 것으로 나타났다. 한국어 교육 경험이 많은 Pro 그룹은 비교사 그룹과 비교하였을 때 ‘문법(.33)’을 ‘일관성/논리(.16)’보다 훨씬 더 엄격하게 채점하는 것을 제외하고는 두 그룹이 다른 평가 영역에 대하여서는 비슷한 엄격도 순으로 채점을 하는 것으로 나타났다. 그러나 Ama 그룹의 경우 이 두 그룹과 다르게 이해가능성, 어휘, 이해명료성, 내용, 발화속도, 문법, 일관성/논리, 발음의 정확성 순으로 엄격하게 채점하는 것으로 나타나 Non 그룹과 전혀 다른 엄격성 경향을 보이는 것으로 나타났다.

나. 그룹과 평가영역 간 상호작용/편향성 분석

[<그림 1>] 평가영역에 대한 평가 그룹 간 상호작용 분석 결과

위의 <그림 1>을 통하여 그룹 간 평가 영역에 대한 상호작용 분석 결과를 살펴보면 비교사 Non 그룹과 Pro 그룹 간에는 비록 절대적인 엄격성에서는 차이가 있으나, 각각의 영역에 대한 상대적인 엄격성에 있어서는 비슷한 패턴을 보이는 것을 확인할 수 있다. 그러나 Ama 그룹의 경우 다른 두 그룹과 상대적인 엄격성에 있어서 상이한 패턴을 보이는 것을 확인할 수 있다.

[<표 7>] 평가영역에 대한 평가 그룹 간 편향성 분석 결과

평가영역에 대한 평가 그룹 간 편향성 분석 결과

편향성 분석표를 살펴본 결과 Pro 그룹은 ‘이해명료성’ 영역에서만 Non 그룹보다 통계적으로 유의하게 엄격한 채점을 하는 것으로 나타났다. 그러나 Ama 그룹의 경우 ‘어휘’ 영역과 ‘일관성/논리성’ 영역에서는 Non 그룹 보다 통계적으로 유의미할 정도로 일관적으로 관대한 채점을 하는 것으로 나타났으며, ‘이해명료성’ 영역에서는 Non 그룹 보다 일관적으로 엄격한 채점을 하는 것으로 나타났다.

3) 평가과제에 대한 평가 차이 분석

가. 그룹 별 평가과제 단면 출력 정보

<표 8>의 그룹 별 평가과제 단면 출력 정보를 살펴본 결과 ‘서술하기, 묘사하기, 부탁하기’ 순으로 과제 난이도가 높아지는 것을 확인할 수 있었다. 다음으로 이와 같은 로짓 수치를 바탕으로 한 편향성 분석을 실시하였다.

[<표 8>] 그룹 별 평가과제 단면 출력 정보

그룹 별 평가과제 단면 출력 정보

나. 평가과제에 대한 그룹별 상호작용/편향성 분석

<그림 2> 평가과제와의 상호작용 패턴을 살펴본 결과 Pro와 Ama 두 교사 그룹은 엄격성에 있어서 유사한 패턴을 보이는 것을 볼 수 있다. 편향성 분석 결과에서도 교사 그룹 두(Pro, Ama) 간에는 과제에 대한 통계적으로 유의미한 편향성은 나타나지 않았다. 그러나 <그림 2>을 보면 Non 그룹은 ‘서술하기와 부탁하기’과제를 엄격하게 채점한 반면 두 교사 그룹은 ‘묘사하기’ 과제를 가장 엄격하게 채점하고 있는 것을 볼 수 데 <표 9>를 통하여 편향성을 살펴본 결과 이러한 차이가 통계적으로 유의미한 것으로 나타났다.

[<그림 2>] 평가과제에 대한 평가 그룹 간 상호작용 분석 결과

[<표 9>] 평가과제에 대한 평가 그룹 간 편향성 분석 결과

평가과제에 대한 평가 그룹 간 편향성 분석 결과

4) 수험자 능력에 대한 평가 차이 분석

가. 그룹 별 수험자 능력 단면 출력 정보

세 그룹 별로 수험자 능력에 대한 추정치를 살펴본 결과 세 그룹 간의 차이가 발견되었다. 이는 같은 수험자라고 할지라도 어떤 그룹의 채점자가 채점을 하는가에 따라서 수험자의 평가 결과가 달라질 수 있음을 의미한다. <표 10>을 보면 특히 수험자 10의 경우 Non 그룹에서는 -.34, Pro 그룹에서는 .73, Ama 그룹에서는 .55로 나타나 채점자 그룹에 따라 추정되는 능력차가 작지 않음을 확인할 수 있다. 그러나 전체적으로 볼 때 수험자 10을 제외하고는 Non 그룹에 의한 수험자 능력 평가 차이와 Pro의 평가 차이에 의한 수험자 능력 차이가 크지 않음을 볼 수 있다. 그러나 Ama 그룹의 경우 추정되는 수험자의 능력 차이가 다른 그룹과 적지 않음을 볼 수 있다.

[<표 10>] 그룹 별 수험자 능력 단면 출력 정보

그룹 별 수험자 능력 단면 출력 정보

나. 수험자 능력에 대한 그룹별 상호작용/편향성 분석

<그림 3>에서 보듯 수준이 상대적으로 높은 학습자 High 그룹에 대하여서는 Pro 그룹이 가장 관대하게 채점을 한 반면 Low 그룹에 대하여서는 Non 그룹이 가장 관대하게 채점을 한 것을 볼 수 있다.

[<그림 3>] 그룹별 수험자 능력에 대한 상호작용 분석 결과

구체적인 편향성을 살펴본 결과 언어 능력이 낮은 그룹(Low)과 높은 능력의 수험자(High) 모두에게서 Pro 그룹과 Non 그룹 간에 유의미한 편향성이 나타났다. 그러나 Ama 그룹의 경우 비교사 일반인 Non 그룹과 통계적으로 유의미한 편향성이 나타나지 않았다

[<표 11>] 수험자 능력에 대한 그룹 간 편향성 분석 결과

수험자 능력에 대한 그룹 간 편향성 분석 결과

그러나 <그림 4>를 통하여 그룹 내로 살펴보면 Non 그룹은 Low 그룹을 엄격하게 채점한 반면 Pro 그룹은 High 그룹을 Low 그룹 보다 엄격하게 평가하고, Ama 그룹은 두 그룹을 비슷한 엄격성으로 채점한 것을 볼 수 있다.

[<그림 4>] 그룹 별 수험자 능력에 대한 상호작용 분석 결과

이에 대한 편향성을 살펴본 결과 Pro 그룹과 Non 그룹의 이러한 수험자 능력에 대한 경향이 통계적으로 유의미한 것으로 나타났다.

[<표 12>] 그룹 별 수험자 능력에 대한 편향성 분석 결과

그룹 별 수험자 능력에 대한 편향성 분석 결과

9)만약 내적합도 제곱 평균값이 1.5 보다 클 경우 그 채점자는 부적합 채점자로 볼 수 있는데 이는 채점자 내 일관성이 결여되어 있음을 의미한다. 반대로 내적합도 제곱 평균값이 0.5보다 작을 경우 과적합 채점자로 이는 채점에 있어서의 변별력이 없고, 모든 척도를 고르게 사용하고 있지 못함을 의미한다. 10)이향(2013)에서도 한국어 말하기 평가에서의 발음 영역을 채점하는 데 있어서 상대적으로 교육 경험이 부족한 그룹(5년 이하)이 많은 교사 그룹(5년 이상) 보다 엄격하게 채점하는 것으로 나타났었다. 이향(2013)에서는 이와 같은 원인이 ‘외국인의 발화 친숙도’와 관련이 있을 것이라고 보고 상대적으로 경험이 부족한 교사의 이러한 엄격한 채점 경향이 비교사 일반인의 채점 경향과 유사할 수 있으므로 이를 위한 후속 연구의 필요성을 지적한 바 있다(232쪽). 그러나 본고의 연구 결과 오히려 비교사 일반인의 경우 경험이 많은 교사들보다도 더욱 관대한 채점을 하는 것으로 나타나 외국인 ‘발화에 대한 친숙성’과 관련이 없을 수 있음을 추측해 볼 수 있다.

5. 논의 및 결론

지금까지 본고에서는 외국인 학습자의 발화에 대한 비교사 일반인 그룹(Non), 5년 이상의 교사 경험을 가진 그룹(Pro), 5년 이하의 교사 경험을 가진 그룹(Ama) 그룹 간의 평가 차이를 다국면 라쉬 모형을 활용하여 살펴보았다.

그 결과 Ama 그룹이 가장 엄격한 채점을 하며 다음으로 Pro 그룹 그리고 비교사 Non 그룹이 가장 관대한 채점을 하는 것으로 나타났다. 또한 비교사 Non 그룹도 말하기 평가를 하는 데 있어서 채점자내 일관성을 갖춘 평가가 가능한 것으로 나타났다.

평가 영역에 따른 평가 경향을 살펴본 결과 비교사 Non 그룹과 Pro 교사 그룹 간에는 유사한 평가 경향을 보이나, Pro 교사 그룹은 ‘문법’ 영역을 가장 엄격하게 채점하는 반면, Non 그룹은 ‘일관성/논리성’ 영역을 가장 엄격하게 채점하는 것으로 나타났으며, ‘이해명료성’ 영역에서만 Non 보다 엄격한 채점을 하는 유의미한 편향성을 보이는 것으로 나타났다. 그러나 Ama 그룹의 경우에는 다른 두 ‘Non, Pro’ 그룹과 영역 별 평가 차이가 크고, 그룹 간, 영역 별 편향성도 상대적으로 많은 것으로 나타났다. 이와 같은 결과는 경험 많은 교사와 경험이 적은 교사 간에 쓰기 평가에 있어서 숙달도 차이 인식에 대한 차이를 연구한 Wolfe 외(1998)의 연구 결과와 유사한데, 그는 이와 같은 결과를 경험이 많은 평가자 일수록 전체 내용을 보고, 경험이 적은 평가자의 경우 부분을 보느라 전체를 보지 못하여 이와 같은 결과가 생긴다고 해석하였다. 본 실험의 결과도 Ama 채점자의 평가 결과가 모국어 화자의 평가 결과와 차이가 커진 것이 이와 같은 이유라고 볼 수 있을 것이다. 또한 이와 같은 결과를 볼 때 5년 이상의 교사 경험을 가진 경우 경험이 적은 교사들 보다는 모국어 화자와 비슷하게 평가를 할 수 있으나, 그럼에도 불구하고 ‘일관성/논리성’에 더욱 주의를 기울여 채점할 필요가 있음을 알 수 있으며, ‘이해명료성’ 영역을 채점하는데 있어서도 경험 많은 교사들이 모국어 화자보다 일관적으로 엄격하게 채점하고 있음을 유념할 필요가 있음을 알 수 있다.11) 또한 경험이 적은 교사의 경우 평가 영역에 있어서 모국어 화자의 평가와 차이가 많이 있으므로, 반드시 평가자 훈련이 필요함을 알 수 있다. 이는 앞서 선행연구에서 말하기 평가자 훈련이 모국어 화자의 직관과 멀어지도록 할 수 있음을 염려했던 것(Barnwell, 1989; Frith, 1978; Shohamy, 1983, Hanning, 1993; Nichols, 1988)과는 달리 오히려 경험이 적은 교사일 경우 평가자 훈련을 거침으로써 보다 모국어 화자의 평가 결과와 가까워질 수 있도록 하는 과정이 필요함을 보여주는 것이다.

그룹 별 평가 과제에 대한 평가 차이를 살펴본 결과 두 교사 그룹과 비교사 그룹 사이의 편향성이 큰 것으로 나타났다. 본 실험에서 사용된 ‘서술하기, 부탁하기 과제’의 경우 두 교사 그룹이 비교사 그룹 보다 일관적으로 관대하게 채점하는 반면, ‘그림보고 묘사하기 과제’의 경우 두 교사 그룹이 비교사 그룹 보다 일관적으로 엄격하게 채점하는 것으로 나타났다. 이는 ‘서술하기 과제’와 ‘부탁하기 과제’의 경우 상대적으로 실제 생활 상황과 유사하고, 이와 같은 경우 ‘문법’이나 ‘어휘’ 보다 ‘일관성/논리성’과 같은 능력이 더욱 중요하여 비교사들이 교사들 보다 더욱 엄격하게 채점하고, ‘그림보고 묘사하기 과제’의 경우 ‘문법’이나 ‘어휘’에 상대적으로 더욱 초점을 맞춘 과제이므로 교사들이 더 엄격한 채점을 하는 것으로 나타난 것으로 볼 수 있다. 이는 평가 과제의 특성에 따라 평가 영역 별로 ‘채점자들의 엄격성’ 혹은 ‘과제 난이도’가 달라질 수 있음을 의미하는 것이므로 평가 목적에 따라 평가 과제의 유형의 선택에 유의할 필요가 있고, 평가 과제에 따라 평가 영역이나 배점을 달리해야 할 필요가 있을 수 있음을 보여주는 것이다.

마지막으로 그룹 별로 수험자 능력에 따른 평가 차이를 살펴본 결과 Pro 교사와 Non 그룹의 경우 수험자 능력에 대한 평가 결과에 있어서의 차이가 크지 않음을 알 수 있었으나, 수험자 능력이 상대적으로 낮은 경우는 경험 많은 교사가 비교사 보다 엄격하게 채점하고, 상대적인 언어 능력이 높은 그룹의 경우는 비교사가 경험이 많은 교사 보다 엄격하게 채점하는 것으로 나타났다. 이는 경험 많은 교사가 비교사 보다는 일반적으로는 더 엄격하게 평가를 하지만, 경험 많은 교사가 좋게 평가를 할 경우라도 학습자의 언어 능력이 ‘어느 수준 이하’일 경우 일반인 화자들이 교사들 보다 더 못하는 것으로 받아들일 수 있다는 것을 의미한다. 또한 경험이 많은 교사의 경우 언어 능력 수준이 높은 수험자들을 그렇지 않은 수험자 보다 엄격하게 채점하며, 일반인인 경우 언어 수준이 높은 수험자들에게 반대의 경우 보다 관대하게 채점하는 것으로 나타났다. 이는 또한 학습자 수준이 ‘어느 수준 이상’이 될 경우 일반인 화자들은 ‘잘한다’고 판단하는 것을 의미하는 것으로 볼 수 있다. 이와 같은 결과는 Ludwig(1982)의 해석처럼 교사 그룹은 일반인들과는 달리 학습자의 발화의 ‘의미’에 초점을 맞추는 것이 아니라 ‘무엇을 학습해야 하는 가’에 의식적으로 초점을 두기 때문에 수준이 낮은 학습자들이 ‘의미’를 명확하게 전달하지 못하였다고 하더라도 ‘배워야 하는 어휘나 문법’을 사용하였다면 좋은 점수를 주어 ‘상대적으로 관대하게 평가’를 하고, 수준이 높은 학습자의 경우 ‘의미’가 전달되었다고 하더라도 ‘배워야 하는 문법이나 어휘’를 충분히 사용하지 않았다면 ‘상대적으로 엄격’하게 평가를 하는 경향을 보이는 것으로 해석할 수 있을 것이다.

위와 같은 연구 결과는 보다 타당한 말하기 평가를 개발하기 위한 기초 자료로서 사용될 수 있을 뿐만이 아니라 말하기 교육을 하는데 있어서 어디에 초점을 맞추어야 하는지를 결정하는 데에 도움을 줄 수 있을 것이라고 기대한다. 그러나 본 연구는 모국인 화자로 대학교를 졸업한 20대 중반의 원어민만을 대상으로 하여, 본 연구의 결과로 사회, 문화, 지역, 교육의 정도가 다른 한국인들까지 이와 유사한 평가를 한다고 일반화시킬 수 없을 것이다. 그러므로 앞으로 보다 다양한 사회문화적⋅언어적 배경을 가진 학습자들의 발화를 대상으로 한 한국어 원어민 화자의 평가에 대한 연구가 더욱 활발히 진행되어야 할 것이다.

11)그러나 ‘이해명료성’의 경우 교사의 엄격성의 기준을 낮춰야 모국어 화자와 비슷해진다는 의미이나 그 기준이 비교사 모국어 화자와 어느 정도 어떻게 차이가 있는지에 대한 객관적인 실험을 한 선행연구를 찾기 힘들기 때문에 본고에서는 이에 대하여서는 후속 연구에 그 역할을 맡기고자 한다.

참고문헌

1. 강 석한, 안 현기 (2014) “외국인 한국어 말하기 시험에 평가자 요소가 채점에 미치는 영향” [이중언어학회] Vol.55 P.1-29
2. 김 중섭 (2010) “국제 통용 한국어교육 표준 모형 개발”
3. 이 향 (2013) “한국어 말하기 평가의 발음 영역 채점에서의 채점자 특성에 따른 채점 경향 연구 -한국어 교육 경험과 전공을 중심으로-” [외국어로서의 한국어교육] Vol.39 P.213-246
4. Bachman L. (1988) “Problems in examining the validity of the ACTFL oral proficiency interview” [Studies in Second Language Acquisition] Vol.10 P.149-63
5. Bambose A. (1998) “Torn between norms: innovations in world English” [World English] Vol.17 P.1-14
6. Barnwell D. (1989) “Naive’ native speakers and judgements of oral proficiency in Spanish” [Language Testing] Vol.6 P.152-163
7. Byrnes H. (1986) “Proficiency: concepts and developments”. [ADFL Bulletin] Vol.18 P.9-10
8. Carey M. D., Manell R. H. (2011) “Does a rater familiarity with a candidate’s Pronunciation affect the rating in oral proficiency interview?” [Language Testing] Vol.28 P.201-219
9. Dunn P. K. (1980) “Native Speaker Reaction to Instructor-Identified Student Second-Language Errors” [Modern Language Journal] Vol.64 P.210-215
10. Chastain K. (1981) “Native Speaker Evaluation of Student Composition Errors” [Modern Language Journal] Vol.65 P.288-294
11. Chastain K., Clark L. D. (1987) “The FSI/ILR/ACTFL proficiency scales and testing techniques: Development, current status, and needed research” [In Valdman, A., Proceedings of the symposium on the evaluation of foreign language proficiency] P.8-15
12. Clifford R. (2001) Common Europe framework of reference for language: Learning, teaching, assessment.
13. (1990) “Expertise in evaluating second language compositions” [Language Testing] Vol.7 P.31-51
14. Cumming A. (1982) “French Attitudes toward Typical Speech Errors of American Speakers of French,” [Modern Language Journal] Vol.66 P.133-139
15. Ensz K. (2005) “Examing rater effects in TestDaF writing and speaking performance assessments: A many-facet Rasch analysis [Language Assessment Quarterley] Vol.2 P.197-221
16. Eckes T.( (1979) “Testing the FSI testing kit” [ADFL Bulletin] Vol.11 P.12-14
17. Frith J. R. (1980) “Perceptions of the Communicative Efforts of American Students of Spanish” [Modern Language Journal] Vol.64 P.429-433
18. Galloway V. (1978) “A Study of the Frequency and Communicative Effects of Errors in Spanish,” [Modern Language Journal] Vol.62 P.251-251
19. Guntermann G. (1991) “Teacher and Nonteacher Perception of second language Communication [Language Learning] Vol.41 P.1-24
20. Hadden B. L. (1983) “Oral proficiency testing: comparative validities of interview, imitation, and completion models” [Language Learning] Vol.33 P.315-32
21. Henning G. (2010) “An Investigation of Novice, Developing and Experienced Raters’ Rating Patterns on a Second Language Speaking Assessment” [Korean Journal of Applied Linguistics] Vol.26 P.151-182
22. Kim J. H. (1982) “Native-Speaker Judgments of Second-Language Learners’ Efforts at Communication: A Review” [The Modern Language Journal] Vol.66 P.273-283
23. Ludwig J., Lynch B. K. (1998) “ Using G-theory and many-facet Rasch Measurement in the development of performance assessments of the ESL speaking skills of immigrants” [Language Testing] Vol.15 P.158-180
24. McNamara T. F. (1996) “Measuring second Language Performance”
25. McNamara T. F. (1988) “Language study, international study, and education [Profession] Vol.88 P.10-17
26. Nichols J. (1972) “Intelligibility: A Study of Errors and Their Importance”
27. Olsson M. (1980) “French Tolerance for Grammatical Errors Made by Americans,” [Modern Language Journal] Vol.64 P.422-427
28. Piazza L. G. (1978) “Errors of English Speakers of German as Perceived and Evaluated by German natives” [Modern language journal] Vol.62 P.253-261
29. Politzer R. L. (1982) “Errors of English Speakers of German as Perceived and Evaluated by German Natives” [Modern Language Journal] Vol.62 P.257
30. Politzer R. L. (2008) “Rater bias patterns in an EFL Writing assessment” [Language Testing] Vol.25 P.465-493
31. Schaefer E. (1983) “Rater reliability of the oral interview speaking test” [Foreign Language Annals] Vol.16 P.219-22
32. Shohamy E., Smith L. E. (1985) “International intelligibility of English: directions and resources” [World English] Vol.4 P.333-342
33. C Nelson. (2010) Teaching the pronunciation of English as a lingua franca
34. Walker R., Wolfe E. W., Kao C. W. (1998) “Cognitive differences in Proficient and Nonproficient Essay Scores” [Written Communication] Vol.15 P.465-492