메타에서 심리스M4T(SeamlessM4T)라는 멀티 모달 인공지능 모델을 발표했습니다.
모델의 이름에서 M4T의 의미는 대규모 다국어 및 멀티 모달 기계 번역(Massively Multilingual& Multimodal Machine)을 의미하며 최대 100개의 언어에 대해 여러 종류의 번역이 가능합니다. 영어처럼 사용자가 많은 언어뿐만 아니라 한국어, 스웨덴어, 태국어 등 다양한 언어를 지원합니다.
다중언어 번역 인공지능
멀티 모달은 두 개 이상의 다른 언어를 인식하고 이해 가능한 수단인 모달리티(Modality)를 사용하는 인공지능 모델을 의미합니다.
* SeamlessM4T는 다음과 같이 지원합니다.
– 100개의 언어에 대한 자동 음성 인식
– 100개의 입력과 출력 언어에서의 음성 → 텍스트 번역
– 100개의 입력 언어와 36개(영어 포함)의 출력 영어를 지원하는 음성 → 음성 인식
– 100개의 언어에 대한 텍스트 → 텍스트 번역
– 100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 텍스트 → 음성 번역
음성이나 텍스트를 입력하면 위와 같이 5가지 종류의 형태로 출력할 수 있습니다.
예를 들어 음성에서 텍스트로 바꾸는 경우 사용자가 영어 음성으로 말하면 러시아어 텍스트로 변환해 줍니다.
심리스M4T(SeamlessM4T)의 원리
번역된 텍스트와 음성을 직접 생성할 수 있는 멀티태스크 UnitY 모델 아키텍처를 사용합니다.
텍스트 및 음성 인코더는 거의 100개 언어의 음성 입력을 인식하는 작업을 합니다. 그 후 텍스트 디코더는 그 의미를 거의 100개 언어의 텍스트로 변환하고 텍스트-단위 모델을 통해 36개 음성 언어에 대한 개별 음향 단위로 디코딩 합니다. 마지막으로 디코딩 된 개별 단위는 다국어 HiFi-GAN 유닛 보코더를 사용해 음성으로 변환됩니다.
총 47만 시간 이상의 데이터를 포함한 심리스어라인(SeamlessAlign)이라는 멀티 모달 데이터 셋을 통해 학습됐습니다. 텍스트 데이터는 위키피디아, 뉴스 소스, 대본화된 연설 등에서 나왔으며, 음성 데이터는 공개된 웹 데이터에서 얻은 4백만 시간의 원본 데이터로부터 수집되었습니다.
심리스M4T(SeamlessM4T)의 성능
메타에 따르면 심리스 M4T의 성능은 오픈 AI가 개발한 위스퍼보다 뛰어납니다.
위스퍼(Whisper)는 자동 음성 인식(ASR) 모델이며 68만 시간 분량의 다국어 및 다목적 감독 데이터를 학습했습니다. 하지만 메타는 언어 간 번역 품질에 대해서는 공개하지 않았습니다.
메타는 이 모델을 순차적으로 페이스북과 인스타그램에 적용 예정이며, 독자적 대규모 언어 모델 라마(LLaMA)처럼 오픈소스로 일반에 제공할 것이라고 밝혔습니다.