▶ 소규모 데이터로도 언어 추가 가능…오픈소스로 공개

메타 로고[로이터]
페이스북 모회사 메타가 1천 가지가 넘는 음성 언어를 인식할 수 있는 인공지능(AI) 기술을 선보였다.
메타의 기초AI연구(FAIR) 팀은 소수 언어 등 1천600개 언어를 인식해 문자로 받아쓸 수 있는 자동음성인식(ASR) 체계를 10일 공개했다.
메타는 모든 언어를 인식할 수 있다는 뜻을 담아 이 기술을 '옴니링구얼'(Omnilingual)이라고 명명했다.
메타는 옴니링구얼이 지원하는 언어 가운데는 AI 전사(轉寫·한 언어의 발음을 다른 문자 체계로 옮기는 과정) 기능이 제공된 적이 없는 '저자원 언어'(데이터가 부족하거나 연구 또는 기술지원이 미흡한 언어) 500종이 포함됐다고 설명했다.
이는 지금까지 주요 AI가 공식적으로 수십 가지 정도의 언어를 지원하는 데 그친 것과 대조적이다.
대규모언어모델(LLM)에 의존하는 현재의 생성 AI는 관련 데이터가 많은 고자원 언어에서는 잘 동작하지만, 그렇지 않은 저자원 언어에서는 구동이 제한적이다.
또 출시한 모델에 새로운 언어 지원을 추가하려면 전문가가 주도하는 미세조정을 거쳐야 하는 불편함도 있었다.
그러나 옴니링구얼은 소량의 음성-문자 데이터 쌍만 있더라도 기본적인 수준의 음성 인식 기능을 쓸 수 있다는 것이 메타의 설명이다.
다만, 메타가 공개한 자료를 보면 옴니링구얼의 저자원 언어 문자 오류율은 고자원 언어보다는 상당히 높은 수준이다.
고자원 언어 249종과 중자원 언어 881종에서는 오류율 10% 미만인 언어가 95%에 달했지만, 저자원 언어 546종에서는 오류율 10% 미만인 언어가 36%에 불과했다.
메타는 이날 옴니링구얼에 적용된 매개변수 70억 개 규모 음성 인코더를 누구나 활용할 수 있도록 오픈소스로 풀었다. 음성 데이터를 자동으로 AI가 이해할 수 있는 벡터 데이터 형태로 정렬하는 도구다.
또 소수 언어 350종의 음성자료 말뭉치(corpus)도 공개했다.
<연합뉴스>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x