MS, 3초 샘플로 목소리 재현하는 인공지능(AI) '발리' 발표, 3초 음성 샘플만으로 음성 특징·감정표현·음향 환경까지 복제

Поділитися
Вставка
  • Опубліковано 19 вер 2024
  • MS, 3초 샘플로 목소리 재현하는 인공지능(AI) '발리' 발표
    3초 음성 샘플만으로 음성 특징·감정표현·음향 환경까지 복제
    마이크로소프트(MS)가 새로운 음성 합성 인공지능(AI) 모델인 '발리(VALL-E)'를 발표했다.
    고품질 음성 합성 애플리케이션인 발리는 단 3초의 음성 샘플로 사람의 목소리를 충실하게 시뮬레이션하며, 한 번 학습한 데이터는 음성뿐만 아니라 감정 톤이나 녹음 환경까지 재현한 복제 음성을 생성할 수 있다. 또 녹음한 내용을 텍스트 원고로 변경해 원래 말하지 않은 내용을 추가해 음성 편집하거나, 다른 인공지능 모델과 조합해 오디오 콘텐츠를 만들 수도 있다.
    한편, MS는 범죄 악용 위험성을 고려해 발리를 아직 대중에 공개하지 않았다. 이러한 우려에 대해 MS는 "발리는 화자의 동일성을 유지한 채 음성을 합성할 수 있어 잠재적 위험을 내포할 가능성이 있다. 이러한 위험을 줄이기 위해 음성 클립이 발리로 합성된 것인지를 판별하는 검출 모델을 구축할 수 있다. 또 모델의 개발 과정에서 MS가 정한 '책임 있는 AI의 기본 원칙'을 실천해 갈 예정"이라고 밝혔다.
    [참고 사이트]
    발리 : valle-demo.git...

КОМЕНТАРІ •