2024.12.04 (수)

  • 맑음동두천 6.2℃
  • 맑음강릉 7.9℃
  • 맑음서울 6.8℃
  • 맑음대전 8.1℃
  • 맑음대구 8.5℃
  • 맑음울산 9.0℃
  • 맑음광주 8.9℃
  • 맑음부산 11.2℃
  • 맑음고창 7.6℃
  • 구름많음제주 11.6℃
  • 구름조금강화 5.3℃
  • 맑음보은 6.2℃
  • 맑음금산 7.6℃
  • 구름조금강진군 10.2℃
  • 맑음경주시 9.2℃
  • 맑음거제 9.5℃
기상청 제공
기사검색

AI 챗봇, 미·영 이어 한국 치의 국시도 ‘합격’

2019~2023년 시험 무난히 통과…응시자 평균에 근접
구강내과 등 지식 문제 강점, 이미지는 정답률 50%대

미국·영국 치과의사 면허 시험을 무난히 통과해 관심을 끌었던 인공지능(AI) 챗봇이 한국 치과의사 국가시험(이하 국시)에도 도전장을 던졌다. 결과는 무난한 ‘합격’이었다.


원광치대 연구팀(염한결·김봉철 교수)이 AI 챗봇에게 2019~2023년 치과의사 국시를 치르게 한 연구에서 이 같은 결과가 나왔다. 이번 연구 논문은 지난 6일 세계치과의사연맹(FDI) 공식 저널인 ‘International Dental Journal(IDJ)’ 온라인판에 실렸다.


연구에서는 ChatGPT-3.5, ChatGPT-4, Claude3-Opus 등 대규모 언어 모델(LLM)을 기반으로 한 AI 챗봇에게 총 13과목으로 구성된 국시 문제를 풀게 했다. 이어 전체 응시자 점수의 평균과 각 AI 챗봇의 점수를 비교 분석했다.


그 결과, ChatGPT-4와 Claude3-Opus는 모든 연도에서 국시 합격선을 넘긴 것으로 나타났다. 특히 2022년도 국시에서 ChatGPT-4는 221점, Claude3-Opus는 235.5점을 기록해 응시자 평균 점수(268.7점)와 가장 근소한 차이를 보였다.


과목별로 살펴보면 대부분 사람이 우수한 성적을 기록했다. 다만 일부 과목에서는 AI 챗봇이 오히려 사람을 앞서기도 했다. 특히 2023년 국시에서 AI 챗봇의 구강내과·구강병리학·구강생물학·구강악안면외과학·구강보건학 등 5개 과목 점수는 응시자 평균보다 우수했다.


또 AI 챗봇은 텍스트로만 출제된 문제에서 최고 85.9%의 정답률을 기록하는 등 강점을 보였다. 반면 이미지가 포함된 문제에서는 정답률이 50%대에 그쳤다. 이중 정답이지만 설명이 충분치 않거나, 오답이지만 옳게 설명하는 등 다양한 사례도 관찰됐다.


AI 챗봇은 대체로 평가나 진단을 요구하는 문제보다는 지식 기반 문제에 두각을 나타냈다는 평가다. 다만 이번 연구에서 ChatGPT-3.5는 합격하지 못했다.


올해 IDJ 6월호에는 ChatGPT-4에게 미국과 영국 치과의사 면허 시험을 테스트한 연구 결과가 공개돼 관심을 모은 바 있다. 향후에도 챗봇 등 생성형 AI를 치과에 접목하는 시도는 계속될 전망이다.


연구팀은 이번 연구가 세 가지의 각기 다른 AI 챗봇과 사람의 국시 성적을 비교했다는 데 의의가 있다고 밝혔다.


해당 연구의 교신저자인 염한결 교수(원광치대 영상치의학)는 “LLM은 다양한 분야에 변화를 가져오고 있고 치과 분야도 예외가 아니다. 특히 의료 소외계층을 포함한 더 많은 사람이 양질의 치과 정보를 쉽게 접할 수 있는 장점이 있다”며 “하지만 환자의 개별 상황을 충분히 고려치 않은 과도한 정보는 의사와 환자 간 소통과 신뢰에 문제를 일으킬 수도 있다. 정보의 신뢰성과 적절성을 평가하고 개선키 위한 지속적인 연구와 노력이 필요하다”고 강조했다.