방사선학 시험 대결 ‘치대생 vs AI 챗봇’ 승자는?

인공지능(AI) 기술의 발전으로 챗GPT 등 대중이 쉽게 접근할 수 있는 AI 챗봇이 등장하며 각 분야에 활용도를 높여가는 가운데 과연 치과 분야에서는 어떤 잠재력을 보여줄까?

이에 연세치대 연구팀이 치과대학생과 AI 챗봇의 구강악안면방사선학 문제해결 능력을 평가해 비교한 결과를 국제구강악안면방사선학회 저널인 ‘Dentomaxillofacial Radiology’에 게재했다.

연구에서는 ChatGPT, ChatGPT Plus, Bard, Bing Chat 등 AI 챗봇과 치대 학생들에게 치과대학의 구강악안면방사선학 정기 시험 문제를 풀도록 했다.

문제는 치과 방사선학 기본 지식, 영상 및 장비, 영상 해석 등과 관련된 객관식 38개, 단답형 14개로 총 52개가 선택됐다. AI 챗봇에 업로드할 수 없는 방사선 사진, 그래프, 그림이 포함됐거나 객관적으로 평가하기 어려운 에세이 유형의 질문은 제외됐다.

그 결과, 전체 테스트에서 학생들의 정확도는 평균 81.2%를 기록해 챗봇들의 평균 점수보다 높았다. 챗봇 중에는 ChatGPT Plus가 65.4%의 정확도를 기록해 가장 높았으며 이어 Bing Chat(63.5%), ChatGPT·Bard(50%) 순이었다.

특히 영상 해석 분야에서 학생들은 정확도 평균 78.5%를 기록해 챗봇 평균인 33.3%에 월등함을 보여줬다.

다만 기본 지식을 묻는 테스트에 한정했을 때는 ChatGPT Plus가 정확도 93.8%를 보여 학생 평균(78.7%)보다 우월했다.

또 객관식 문제의 경우 학생들은 정확도 평균 80.5%를 기록해 모든 챗봇보다 우월했던 반면, 단답식 문제의 경우 ChatGPT·ChatGPT Plus 등이 정확도 85.7%를 기록해 학생 평균(82.9%)보다 더 나은 점수를 기록했다.

결론적으로 챗봇은 이미지 해석, 영상 장비에 대한 이해에 있어서는 치대생에 미치지 못했지만, 기본 지식을 묻는 테스트에서 더 나은 경향을 보였다.

연구팀은 “구강 및 악안면 방사선학에서 챗봇을 사용하기 위해 고품질 데이터로 모델을 훈련하는 것이 중요할 것”이라고 밝혔다.

Search