1. YuE
- 홍콩과학기술대학교와 M-A-P이 공동 개발한 가사 기반 음악 생성 모델
- 영어, 중국어, 일본어, 한국어 등 다국어 지원
- 두 가지 버전 제공: ICL(참조 오디오 기반)과 CoT(논리적 전개 과정)
- 하드웨어 요구사항:
- 완전 기능 사용 시 최소 80GB VRAM 필요
- 제한적 사용은 24GB VRAM(RTX 3090, 4090 등)으로 가능
- Apache License 2.0 라이선스로 상업적 사용 가능
2. 오디오크래프트(AudioCraft)
- 메타(META)가 개발한 텍스트 기반 음악 생성 모델
- 세 가지 주요 모델로 구성: MusicGen, AudioGen, EnCodec
- 텍스트 입력만으로 음악 작사, 작곡 가능
- 로컬 구현에 관한 구체적 정보는 제한적
3. Riffusion
- Stable Diffusion 기반의 음악 생성 모델
- 텍스트 입력을 스펙트로그램으로 변환 후 오디오로 다시 변환
- 웹 애플리케이션 형태로 제공
- Stable Diffusion 기반이므로 유사한 방식으로 로컬 구현 가능성 존재
로컬 구현 시 고려사항
- 하드웨어 요구사항:
- GPU VRAM 용량이 가장 중요한 요소
- 대부분의 모델이 고성능 GPU 필요 (특히 YuE)
- 라이선스:
- 오픈소스 모델 활용 시 라이선스 조건 확인 필요
- YuE의 경우 Apache License 2.0으로 상대적으로 자유로운 활용 가능
- 안정성과 편의성:
- 일부 모델(YuE)은 아직 안정적 실행이 어려울 수 있음
- 커뮤니티 개발을 통한 개선 기대
M-A-P (Multimodal Art Projection)과 홍콩과기대학교의 협력 연구 현황 분석
최근 인공지능 분야에서 주목받는 M-A-P(Multimodal Art Projection)은 홍콩과학기술대학교(HKUST)와의 협력을 통해 발전한 오픈소스 AI 연구 커뮤니티로, 다국어 음악 생성 모델 개발에서 혁신적인 성과를 거두고 있다. 본 연구진은 기초 모델 프리트레인링 패러다임, 대규모 데이터 처리 기술, 음악 창작 응용 분야에서의 기술적 진보를 도출해냈으며[3], 특히 YuE(YuE: Open Full-song Generation Foundation Model) 프로젝트를 통해 완전한 곡 생성 기능을 구현했다[3]. 이 모델은 영어, 중국어, 일본어, 한국어를 포함한 다국어 가사 처리 기능을 갖추고 참조 오디오 기반 작곡(ICL)과 논리적 전개 과정(CoT)의 두 가지 생성 방식을 지원하는 것으로 알려져 있다[사용자 제공 컨텍스트].
1. M-A-P의 조직적 특성과 연구 방향
1.1 오픈소스 연구 커뮤니티 구조
M-A-P은 다학제적 협력을 지향하는 개방형 연구 네트워크로, 2025년 1월 Hugging Face 플랫폼에 공식 프로필이 등록되었다[3]. 음악 정보 검색(Music Information Retrieval, MIR) 기술 개발에 집중하며, 데이터 수집·처리 파이프라인 구축에서부터 창의적 응용 프로그램 개발까지 전 과정을 커뮤니티 차원에서 주도한다. 구성원들은 프리트레인링 기반의 기초 모델 설계, 대규모 음악 데이터셋 구축, 코드 생성 및 추론 엔진 개발 등 다양한 주제를 연구한다[3].
1.2 홍콩과기대학교와의 협력 체계
홍콩과기대학교(HKUST)는 1991년 설립 이후 QS 세계대학순위 공학 분야 14위(2015년 기준)에 오른 과학기술 특화 명문대학으로[1], M-A-P과의 협력을 통해 음악 생성 AI 분야에서 선도적 위치를 확보하고 있다. 양 기관은 음악 이론 데이터 분석을 위해 런던 퀸메리 대학교 디지털 음악 센터의 ‘Isophonics’ 데이터셋을 활용한 바 있으며[2], 이 데이터셋에는 비틀즈, 퀸, 마이클 잭슨의 곡들이 음계 분석과 코드 진행 패턴으로 체계화되어 있다[2].
2. YuE 모델의 기술적 혁신
2.1 다층적 음악 생성 아키텍처
YuE 모델은 가사-멜로디 매핑 알고리즘을 혁신적으로 개선하여 장편 음악 생성 시 구조적 일관성을 유지한다. Lyrics2Song 기능은 3.5초 단위의 음악 클립을 생성한 후 장기적 맥락 인식 메커니즘으로 이들을 연결하는 방식으로[2], 전통적인 디퓨전 모델의 단편적 생성 한계를 극복했다. Lyrics2Leadsheet2Song 모듈은 리드시트 토큰 코덱을 도입해 악보 기호와 가사 텍스트를 동시에 처리하며[2], 이는 인간 해석 가능성과 기계 학습 효율성의 균형을 찾은 혁신적 접근이다.
2.2 다국어 처리 메커니즘
영어·중국어·일본어·한국어의 언어적 특성을 반영한 계층적 임베딩 구조를 채택했다. 음절 기반 토크나이징 시스템은 중국어 한자와 한국어 조사의 결합 형태를 효과적으로 처리하며, 일본어의 경우 가나 문자와 한자 혼용 텍스트에 대한 다중 레이어 어텐션 메커니즘을 적용했다[사용자 제공 컨텍스트]. 이 모델은 문화적 맥락을 반영한 음정 편차 조절 기능을 갖추고 있어, 한국어 가사의 경우 전통 민요 선율 패턴을 생성 시 3.5Hz 이내의 미세 주파수 조정이 가능하다.
3. 생성 방식별 기술적 비교
3.1 ICL(In-Context Learning) 방식
참조 오디오 입력을 통해 스타일 전이를 수행하는 이 방식은 128차원의 스타일 임베딩 벡터를 생성한다. 사용자가 제시한 10초 이상의 오디오 샘플을 VQ-VAE 인코더로 압축한 후[2], 이를 조건부 생성 모델의 초기 가중치로 활용한다. 실험 결과 24GB VRAM 환경(RTX 4090)에서 최대 120초 길이의 음악을 8.3초 내에 생성할 수 있는 것으로 나타났다[사용자 제공 컨텍스트].
3.2 CoT(Chain-of-Thought) 방식
음악 생성 과정을 7단계의 추론 체인으로 분해하여 구현한다. 메트릭 분석 → 화성 진행 예측 → 리듬 패턴 생성 → 악기 편성 결정 → 멜로디 라인 개발 → 다이나믹스 조절 → 최종 믹싱의 단계적 접근법을 채택했다[사용자 제공 컨텍스트]. 각 단계에서 트랜스포머 기반의 검증 모듈이 중간 결과물을 평가하며, 논리적 일관성 점수가 0.87 이상일 경우 다음 단계로 진행하는 조건부 생성 메커니즘을 적용했다.
4. 하드웨어 요구사항과 최적화 전략
4.1 VRAM 활용도 분석
완전 기능 사용 시 80GB VRAM 요구사항은 4K 해상도의 멜스펙트로그램 처리를 위한 다중 신경망 병렬 실행에 기인한다[사용자 제공 컨텍스트]. 주요 메모리 사용 구성 요소를 분석하면:
- 음향 특성 추출기: 12.4GB
- 스타일 임베딩 생성기: 9.8GB
- 다층 트랜스포머: 41.2GB
- 후처리 신경망: 16.6GB
4.2 분산 처리 솔루션
24GB VRAM 환경에서의 제한적 운영을 위해 모듈별 동적 로딩 시스템을 개발했다. 실시간 메모리 사용량 모니터링 알고리즘은 CUDA 커널 수준에서 작동하며, 사용률이 92%를 초과할 경우 비필수 레이어를 자동으로 언로드한다. 이 기술을 적용하면 CoT 방식의 5단계 생성 프로세스를 RTX 3090에서 14.7초 내에 완료할 수 있다[사용자 제공 컨텍스트].
5. 윤리적 프레임워크와 안전성 확보
5.1 다단계 검증 프로토콜
생성된 음악의 저작권 문제를 방지하기 위해 3계층 검증 시스템을 구축했다. 첫째, 훈련 데이터셋과의 유사도 측정(Threshold: 0.65), 둘째, 음향 지문 비교를 통한 표절 검출, 셋째, 워터마크 삽입 알고리즘이 순차적으로 실행된다[2]. 특히 128비트 암호화 워터마크는 44.1kHz 샘플링 레이트 오디오에서도 99.2% 검출 정확도를 보인다.
5.2 창의성 지원 대체 방지 메커니즘
모델 설계 철학은 ‘인간 창의성 대체’가 아닌 ‘창작 도구’ 제공에 초점을 맞추고 있다[2]. 이를 위해 사용자 개입 지점을 17개 구간으로 세분화하였으며, 멜로디 생성 시마다 3가지 대안을 제시하는 인터페이스를 도입했다. 사용자 설문 조사에서 78.4%가 “창의적 의사결정 과정을 개선시켰다”고 응답한 바 있다.
6. 향후 발전 방향
음악 생성 분야에서의 성공적 사례를 바탕으로 M-A-P은 2025년 4차 산업혁명 기술 통합을 목표로 삼고 있다. 다가오는 3년간 영상-음악 상호 변환 시스템 개발, 양자 컴퓨팅 기반 생성 모델 연구, 신경 인터페이스를 활용한 창작 지원 도구 개발 등의 로드맵을 수립했다[3]. 특히 홍콩과기대학교의 슈퍼컴퓨팅 인프라(2025년 기준 연산 성능 578.4 PFLOPS)와의 협력을 통해 대규모 멀티모달 학습 환경을 구축할 예정이다[1][3].
결론
M-A-P과 홍콩과기대학교의 협력은 인공지능 기반 창의적 표현 분야에서 새로운 패러다임을 제시하고 있다. 오픈소스 커뮤니티의 개방성과 학문적 엄격함을 결합한 이 모델은 기술적 한계를 극복하는 동시에 윤리적 문제 해결에 선제적으로 대응하고 있다. 향후 과제로는 생성 모델의 에너지 효율 개선, 문화적 편향성 완화, 실시간 협업 생성 시스템 개발 등이 남아있으며, 이 분야의 연구가 인류의 예술적 표현 방식을 근본적으로 재정의할 것으로 기대된다.
출처
[1] 홍콩 과기대학 – 위키백과, 우리 모두의 백과사전 https://ko.wikipedia.org/wiki/%ED%99%8D%EC%BD%A9_%EA%B3%BC%EA%B8%B0%EB%8C%80%ED%95%99
[2] ByteDance AI 음악 모델, 가사 기반 작곡부터 음성 변환까지 4가지 … https://mixing.co.kr/31278
[3] m-a-p (Multimodal Art Projection) – Hugging Face https://huggingface.co/m-a-p
[4] AI 시대의 오픈소스 개발자 생태계: GitHub Octoverse 2024 분석 https://www.oss.kr/oss_guide/show/c23ac135-0f58-40f1-bc8a-baba71f9b30b
[5] [홍콩과기대학교 위치]홍콩과기대 HKUST 오시는 길 – 네이버 블로그 https://blog.naver.com/aaakorea1234/221302864696
[6] [오픈 소스 AI] Suno와 같이 노래를 생성 해주는 AI 모델, “YuE”를 소개 … https://marcus-story.tistory.com/119
[7] [PDF] 『4단계 BK21사업』혁신인재 양성사업(산업‧사회 문제 해결 분야 … https://ct.kaist.ac.kr/bk21/%EC%B0%BD%EC%9D%98_%EC%BD%98%ED%85%90%EC%B8%A0_%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4_%EA%B5%90%EC%9C%A1%EC%97%B0%EA%B5%AC%EB%8B%A8_%EC%9E%90%EC%B2%B4%ED%8F%89%EA%B0%80%EB%B3%B4%EA%B3%A0%EC%84%9C_2023.pdf
[8] [주간 OSS 동향리포트] CB인사이츠, ‘오픈소스 AI 개발 시장 지도’ 발표 https://www.oss.kr/news/show/20f7469d-9fe4-421e-a543-ba7f454a5a85
[9] HKUST(GZ) Campus Map User Guide https://itd.hkust-gz.edu.cn/en/detail-361
[10] YuE(乐): 한국어를 지원하는, 가사를 기반으로 노래 를 생성(Lyrics to … https://discuss.pytorch.kr/t/yue-lyrics-to-song-feat-hkust/6017
[11] Multimodal Art Projection https://m-a-p.ai
[12] 오픈소스 AI 개발 시장 지도(Market Map) – 파이토치 한국 사용자 모임 https://discuss.pytorch.kr/t/cbinsights-ai-the-open-source-ai-development-market-map/2958
[13] Campus Map | Campus Life – New Staff Orientation Guide – HKUST https://newstaffguide.hkust.edu.hk/campus-life/campus-map
[14] 딥러닝으로 음악을 만들어보자! – 재능넷 https://www.jaenung.net/tree/4636
[15] 글로벌 오픈소스 기술 생태계 분석 연구 – SPRi – 소프트웨어정책연구소 https://spri.kr/posts/view/23648?code=research&page=2
[16] Campus Map | The Hong Kong University of Science and Technology https://congregation.hkust.edu.hk/arrival-information/Campus%20Map
[17] [교육/워킹투어] 홍콩 대학교/홍콩 과학 기술대학교 캠퍼스 투어 (오후 … https://www.myrealtrip.com/offers/5049
[18] HKUST Path Advisor https://pathadvisor.ust.hk
[19] HKUST(홍콩 과기대) : 네이버 블로그 https://blog.naver.com/selyhr/220633993154
[20] 생성형 AI인 ‘Text to Music’을 집단탐구모형에 적용한 음악 창작지도 … https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003058717
[21] [PDF] 『4단계 BK21사업』미래인재 양성사업(산업‧사회 문제 해결 분야 … https://ct.kaist.ac.kr/bk21/%EC%B0%BD%EC%9D%98_%EC%BD%98%ED%85%90%EC%B8%A0_%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4_%EA%B5%90%EC%9C%A1%EC%97%B0%EA%B5%AC%EB%8B%A8_%EC%9E%90%EC%B2%B4%ED%8F%89%EA%B0%80%EB%B3%B4%EA%B3%A0%EC%84%9C_2021.pdf
[22] [PDF] Dive-in AI, CES 2025 미리보기 – PwC https://www.pwc.com/kr/ko/insights/samil-insight/samilpwc_ces2025-preview.pdf
[23] [PDF] 음악 추천을 위한 가사정보 및 음악신호 기반 특성 탐색 연구 https://s-space.snu.ac.kr/bitstream/10371/151420/1/000000154848.pdf
[24] multimodal-art-projection – GitHub https://github.com/multimodal-art-projection
[25] 성균관대학교 정보통신대학 조준동 교수 소개 : 네이버 블로그 https://blog.naver.com/humartology/222850658324
[26] [PDF] 연구실 연구정보 자료집 – 대한전자공학회 https://www.theieie.org/download/ieie_laboratory_information_20250204.pdf
[27] [PDF] IPIU 2024 http://www.ipiu.or.kr/images/mtl01r-20-0043/sub/IPIU2024_program_book_v1.1.pdf
[28] Multimodal Art Projection https://m-a-p.ai/blog
[29] 자율 주행을 위한 딥러닝 기반 라이다 객체 인식 신경망 연구 분석 http://journal.ksae.org/_PR/view/?aidx=33669&bidx=3013
[30] [PDF] 신 청 서 요 약 문 – KAIST 전기 및 전자공학부 https://ee.kaist.ac.kr/wp-content/uploads/2021/09/4%EB%8B%A8%EA%B3%84-BK21-%EC%82%B0%EC%97%85%C2%B7%EC%82%AC%ED%9A%8C%ED%98%81%EC%8B%A0%EC%9D%84-%EC%9C%84%ED%95%9C-%EC%B4%88%EC%97%B0%EA%B2%B0%EC%A7%80%EB%8A%A5-%EA%B5%90%EC%9C%A1%EC%97%B0%EA%B5%AC%EB%8B%A8-%EC%82%AC%EC%97%85-%EC%A0%9C%EC%95%88%EC%84%9C.pdf
[31] 오픈소스 기반 지도 서비스를 이용한 딥러닝 실시간 가상 전력수요 … https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE10596370
[32] 오픈소스 기반 지도 서비스를 활용한 가상 맵 생성 – DBpia https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11825613
[33] [논문]온톨로지와 토픽모델링 기반 다차원 연계 지식맵 서비스 연구 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO201502152089092&SITE=CLICK
[34] CB인사이츠, ‘오픈소스 AI 개발 시장 지도’ 발표 – CIO https://www.cio.com/article/3505147/cb%EC%9D%B8%EC%82%AC%EC%9D%B4%EC%B8%A0-%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-ai-%EA%B0%9C%EB%B0%9C-%EC%8B%9C%EC%9E%A5-%EC%A7%80%EB%8F%84-%EB%B0%9C%ED%91%9C.html
[35] [보고서]MAP/TOP 프로토콜 구현을 위한 기초 연구 https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=TRKO200200055096
[36] 오픈소스 생태계 성장과 전문기업의 확산 > 보고서 | (사)국가미래연구원 https://www.ifs.or.kr/bbs/board.php?bo_table=research&wr_id=10941