챗GPT 작성 대학시험 답안지 94%, 채점자가 구별 못 해

챗GPT 작성 대학시험 답안지 94%, 채점자가 구별 못 해

입력: 2024.06.27 16:00
수정: 2024.06.27 16:17

0 0

英 레딩대 연구팀 '튜링 테스트' 결과
AI 점수가 인간보다 높을 확률도 83%
"대학들, 아직 AI 위협 대처 계획 없어"

챗GPT 등 생성형 인공지능(AI) 기술의 발달로 시험 부정행위 등 사회문제가 뒤따르고 있다. 게티이미지뱅크

대학 시험에서 인공지능(AI)이 작성한 답안지 내용을 인간 채점자에게 보여줬더니 90%가 넘는 답안을 AI가 썼다고 구별해 내지 못했다는 해외 연구결과가 나왔다. AI를 악용한 시험 부정행위에 대한 우려와 함께 교육계의 대책 마련이 요구됐다.

영국 레딩대 심리·임상언어과학대학 소속 피터 스카프 교수 연구팀은 26일(현지시간) 과학저널 '플로스원(PLoS ONE)'에 이 같은 내용을 담은 연구 결과를 게재했다. 연구팀은 심리학 학사 학위 취득을 위한 학부시험 5개 문항(단답형 3개, 에세이 2개)에서 생성형 AI인 챗GPT-4가 작성한 답안지를 가상의 학생 33명의 이름으로 채점자에게 제출했다. 채점자들에겐 AI가 답안지를 작성했단 사실을 숨겼다. 인간이 AI의 생성형 콘텐츠를 구별할 수 있는지 여부를 확인하는, '튜링테스트(Turing Test·기계 지능 테스트)'가 실험 목적이었기 때문이다. 인간 학생도 같은 시험에 참여했다.

실험 결과는 놀라웠다. 채점자들은 챗GPT-4가 작성한 답안 내용의 94%를 적발하지 못했다. 심지어 AI가 작성한 답안의 평가 점수는 실제 학생의 점수보다 높은 것으로 나타났다. 학생들의 점수가 AI의 점수(중간값)보다 높았던 비율은 시험 4개 문항 가운데 4.35~17.63%에 불과했다. 에세이 시험 1개 문항에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘긴 것으로 집계됐다. 종합하면 AI가 작성한 답안과 재학생 답안을 무작위로 선택해 비교할 경우 AI 답안의 점수가 높을 확률이 83.4%에 달했다.

연구팀은 실험 결과에 근거해 이미 실제 학생 상당수가 AI를 악용해 부정행위를 했을 가능성이 있다고 결론지었다. 연구팀은 "인간이 AI의 콘텐츠를 감지하는 것이 거의 불가능한 시대에 도달했지만, 대학들은 아직 AI의 오용에 관한 위협을 대처할 계획을 마련하지 못했다"고 지적했다.

튀르키예선 대입 때 AI 활용 부정행위 사건

실제로 AI 기술 발전에 따른 부작용은 현실 교육현장에서 나타나고 있다. 지난 8일(현지시간) 튀르키예 이스파르타 지역의 대입 시험장에서는 한 수험생이 시험 도중 챗GPT를 이용해 문제를 풀다가 현장을 감독하던 경찰에 적발되는 사건이 일어났다. 이 수험생은 셔츠 단추 형태의 초소형 카메라로 시험문제를 촬영한 뒤 신발에 몰래 숨겨둔 무선장치로 외부 공범에게 전송했다. 공범이 챗GPT로 문제를 푼 다음 답을 읽어주면, 수험생이 몰래 전화기에 연결된 헤드셋으로 듣고 답을 작성하는 방식으로 부정행위를 저질렀다.

장재진 기자 blanc@hankookilbo.com

당신이 관심 있을만한 이슈

흰색 배경
검은색 배경

0 / 250

좋아요순 최신순 새로고침

한국일보에
로그인하면 다양한
편의 기능을
제공 받을 수 있습니다.

내 관심사대로 메인뉴스 설정
구독한 콘텐츠 모아보기 제공
주요기사와 추천, 활동내역 알림

아이디 또는 비밀번호를 잘못 입력했습니다.(연속 1회)
아래 이미지를 보이는 대로 입력해주세요.

스피커로 들리는 내용을 숫자로 입력해 주세요.
- 새로고침
- 음성으로 듣기
- 새로고침
- 이미지로 보기
로그인 유지

전체동의 (선택포함)

한국일보 이용약관 (필수)

내용보기

개인정보처리 방침 (필수)

내용보기

이벤트/프로모션 등 정보 수신 동의 (선택)

이메일
SMS

한국일보가 제공하는 다양한 형태의 이벤트 및 행사(포럼, 대회, 강연, 시상, 수상, 구독 등) 관련한 참여 정보를 추천·안내

이용약관 및 개인정보 처리 방침은 필수 항목 입니다.

선택 항목 미동의 시 뉴스 추천서비스 혹은 이벤트/행사 당첨 혜택에서 제외될 수 있습니다.

챗GPT 작성 대학시험 답안지 94%, 채점자가 구별 못 해

英 레딩대 연구팀 '튜링 테스트' 결과
AI 점수가 인간보다 높을 확률도 83%
"대학들, 아직 AI 위협 대처 계획 없어"

튀르키예선 대입 때 AI 활용 부정행위 사건

관련 이슈태그

당신이 관심 있을만한 이슈

LIVE ISSUE

댓글0

챗GPT 작성 대학시험 답안지 94%, 채점자가 구별 못 해

英 레딩대 연구팀 '튜링 테스트' 결과AI 점수가 인간보다 높을 확률도 83%"대학들, 아직 AI 위협 대처 계획 없어"

튀르키예선 대입 때 AI 활용 부정행위 사건

관련 이슈태그

당신이 관심 있을만한 이슈

사회 많이 본 뉴스

LIVE ISSUE

챗GPT 열풍

댓글0

챗GPT 작성 대학시험 답안지 94%, 채점자가 구별 못 해

보내는 분

英 레딩대 연구팀 '튜링 테스트' 결과
AI 점수가 인간보다 높을 확률도 83%
"대학들, 아직 AI 위협 대처 계획 없어"