시리와 알렉사도 이해하는 제주어?…AI 구축 시동

<대화 1>

A : “버쳥 죽어지켜”

B : “제가 잘 이해한건지 모르겠네요”

20개 이상의 전 세계 언어를 이해하고 처리한다는 애플의 인공지능 음성인식 시스템인 ‘시리(Siri)’는 필자의 제주 방언을 인식하지 못한다. 미국식 영어와 영국식 영어, 인도식 영어를 구분하고 심지어 상하이 사투리까지 습득했다는 시리와 친해지기 위해서는 다음과 같이 대화해야 한다.

<대화 2>

A : “피곤해 죽겠어”

B : “제 말 잘 들으세요. 당장 이 iPad를 내려놓고 편안한 장소에서 잠시 주무세요. 저는 여기서 기다리고 있겠습니다.”

특정 언어를 구사하는 사용자가 많을 수록 그에 걸맞는 ‘데이터 풀(pool)’을 갖게 되는 인공지능(AI)의 특성 때문에 한국어 가운데서도 지역 방언, 또 거기서 제주어는 뒤로 밀리기 마련이다. 오죽하면 “니 뭐꼬?”라고 묻는 부회장의 한 마디에 어떤 대기업의 에어컨은 사투리까지 알아듣는 기능을 탑재했다고 하지 않았나.


#JDC-이스트소프트 제주어 AI 구축사업 참여기관 선정

시기를 기약할 수는 없겠지만 언젠가 필자의 제주어를 인식할 수 있는 인공지능이 조만간 선을 보일 듯 싶다. 정부가 디지털 뉴딜 사업의 일환으로 ‘인공지능(AI) 학습용 데이터 구축’을 추진하고 있기 때문이다. 과학기술정보통신부와 한국정보화진흥원이 전국 5개 권역의 방언(경상, 전라, 충청, 강원, 제주)을 수집해 언제든 누구든 접근할 수 있는 ‘데이터 댐’을 구축한다. AI와 빅데이터 전문 기업인 솔트룩스(www.saltlux.com)가 총괄하며 제주에서는 제주국제자유도시개발센터(이사장 문대림, JDC, www.jdcenter.com)와 이스트소프트(www.estsoft.co.kr)가 참여기관으로 협업하게 된다. JDC 등 권역별 참여기관이 기본적인 방언 자료를 수집하면 솔트룩스는 구조화된 방언학습데이터로 변환하게 되는데, 품질의 신뢰성을 높이기 위해 경북대학교의 교차 검증을 거치게 된다.


#제주도민 2천명을 모아라

기초 데이터 수집을 위해 두 가지 방식이 적용된다. 제주어를 구사할 수 있는 2천명의 도움을 받아 대면 또는 비대면 방식으로 진행하게 된다. 대면 방식(800명)은 조사원들이 제주어 구사자를 찾아가 인터뷰를 녹음하는 방식이고, 비대면 방식(1천2백명)은 2~3인이 1개조를 이뤄 특정 주제에 대해 제주어로 대화하는 형태로 화상회의 프로그램인 ‘줌(zoom)’을 사용하게 된다. 참가자들의 대화가 특정 프로그램을 통해 곧바로 AI 학습용 데이터로 변환된다고 JDC는 덧붙였다.

이를 위해 JDC는 제주어 데이터를 제공할 화자 2천명을 선착순으로 모집하고 있다. 화상회의 시스템에 접속 가능한 제주어 구사자는 누구나 참여할 수 있으며 소정의 정부지원금도 지급될 예정이다. 한 관계자는 “접수 첫 날부터 도민들의 많은 문의 전화가 오고 있다”며 “문화 보존 측면에서 도민들의 관심이 매우 높은 것 같다”고 전했다.

댓글 남기기