[카테고리:] 미분류

  • 텍스트 프롬프트 기반 음악 생성 AI 모델: 오픈소스 현황 및 로컬 구현 가능성

    현재 텍스트 프롬프트만으로 음악을 생성할 수 있는 여러 AI 모델이 존재하며, 그중 일부는 오픈소스로 공개되어 로컬 환경에서 실행 가능합니다. Stable Diffusion이 이미지 생성 분야에서 혁신을 가져온 것처럼, 음악 생성 AI도 점차 접근성이 높아지고 있습니다. 이 보고서에서는 현재 공개된 텍스트 기반 음악 생성 AI 모델들을 살펴보고, 로컬 환경에서 구현 가능한 옵션들을 집중적으로 분석하겠습니다.

    YuE: 가사 기반 음악 생성 오픈소스 모델

    YuE는 가장 최근에 공개된 오픈소스 음악 생성 AI 모델 중 하나로, 주어진 가사를 바탕으로 완전한 곡을 생성하는 ‘lyrics2song’ 작업을 수행합니다. 이 모델은 홍콩과학기술대학교(HKUST)와 Multimodal Art Projection(M-A-P)이 공동으로 개발한 프로젝트로, 2025년 2월 10일 기준으로 GitHub와 Hugging Face에서 공개되어 있습니다[2].

    YuE의 주요 특징 및 기능

    YuE는 최대 5분 길이의 음악을 생성할 수 있으며, 가사를 기반으로 보컬과 반주가 포함된 완전한 곡을 만들어냅니다. 음악적 구조를 유지하면서 자연스러운 멜로디와 조화를 형성하도록 설계되었으며, 가사의 내용을 반영한 일관된 음악 흐름을 유지합니다. 특히 주목할 만한 점은 이 모델이 영어, 중국어, 일본어, 한국어를 포함한 여러 언어를 지원한다는 것입니다[2].

    YuE는 두 가지 버전으로 제공됩니다. ‘ICL'(In-Context Learning) 버전은 참조 오디오를 입력하여 모델이 특정 스타일을 따르게 하는 방식으로, 높은 품질의 결과를 얻을 수 있지만 생성 범위가 제한되는 특징이 있습니다. 반면, ‘CoT'(Chain of Thought) 버전은 참조 오디오 없이도 모델이 논리적인 전개 과정을 거쳐 곡을 생성하는 방식으로, 더 창의적이고 다양한 결과를 만들어낼 수 있습니다[2].

    로컬 구현을 위한 기술적 요구사항

    YuE 모델을 로컬 환경에서 실행하기 위해서는 상당한 컴퓨팅 리소스가 필요합니다. 특히 GPU VRAM 요구사항이 높아, 24GB 이하의 GPU(RTX 3090, 4090, A6000 등)에서는 최대 2개의 세션만 실행할 수 있습니다. 전체 곡을 생성하려면 최소 80GB VRAM이 필요하며, NVIDIA H800, A100(80GB 모델), 또는 다수의 RTX 4090을 Tensor Parallel 방식으로 활용해야 합니다[2].

    실행 속도 측면에서는 NVIDIA H800에서 30초 오디오 생성 시 약 150초, RTX 4090에서는 약 360초가 소요됩니다. 실제 실행 시 필요한 VRAM은 선택한 옵션에 따라 10GB에서 최대 48GB까지 다양합니다[2].

    라이선스 및 활용 가능성

    YuE 모델은 Apache License 2.0을 따르므로, 상업적 사용, 수정, 배포, 파생 작업이 자유롭게 가능합니다. 단, 저작권 및 라이선스 고지 유지가 필수이며, 책임 및 보증이 제공되지 않음을 명시해야 합니다[2]. 이러한 라이선스 조건은 개인 사용자나 개발자가 모델을 다양한 방식으로 활용할 수 있는 자유도를 제공합니다.

    메타의 오디오크래프트(AudioCraft)

    메타(META)는 2023년 8월 2일 텍스트 프롬프트를 기반으로 작곡을 하는 AI 도구 ‘오디오크래프트(AudioCraft)’를 공개했습니다. 이 모델은 텍스트 입력만으로도 음악을 작사, 작곡할 수 있는 기능을 제공합니다[1].

    오디오크래프트의 구조 및 기능

    오디오크래프트는 세 가지 주요 모델로 구성되어 있습니다. ‘MusicGen’은 텍스트 프롬프트에서 음악을 생성하고, ‘AudioGen’은 텍스트 프롬프트에서 오디오를 생성합니다. ‘EnCodec’은 디코더 역할을 하며 작업물 내 잡음(Noise)을 감소시키는 등 음악의 품질을 높이는 역할을 합니다[1].

    오디오크래프트를 사용하면 예를 들어 ‘고양이 소리가 가까워졌다가 멀어진다’ 등의 명령어를 입력하면 그 텍스트에 맞는 오디오 결과물을 생성할 수 있습니다. 메타는 이 모델을 자사가 저작권을 소유한 음악들로 학습시켰다고 밝혔습니다[1].

    로컬 구현 가능성

    메타의 오디오크래프트는 공개되어 있지만, 검색 결과에서는 로컬 구현에 관한 구체적인 정보가 제한적입니다. 그러나 메타의 다른 AI 모델들이 종종 오픈소스로 공개되는 것을 고려할 때, 개발자 커뮤니티에서 이를 로컬 환경에서 실행할 수 있는 방법이 개발되었을 가능성이 있습니다.

    Riffusion: Stable Diffusion 기반 음악 생성 모델

    Riffusion은 Stable Diffusion의 모델을 조정하여 문장을 입력하는 것만으로 악곡을 생성하는 AI입니다. 2022년 12월 경에 공개된 이 모델은 이미지 생성 AI의 원리를 음악 생성에 적용한 독특한 접근법을 사용합니다[3].

    작동 원리 및 특징

    Riffusion은 Stable Diffusion에 조정을 더하여 프롬프트에 관련된 악곡을 스펙트로그램으로 변환한 이미지를 출력합니다. 그리고 생성한 스펙트로그램을 음성 데이터로 변환함으로써 프롬프트에 따른 악곡을 생성합니다[3].

    Stable Diffusion의 img2img 기능과 유사하게, Riffusion도 기존 곡을 입력하여 비슷한 스타일의 새로운 곡을 생성할 수 있는 기능을 제공합니다. 이를 통해 참조 음악과 유사한 스타일의 새로운 음악을 쉽게 만들 수 있습니다[3].

    접근성 및 로컬 구현

    Riffusion 개발 팀은 웹 애플리케이션 형태로 이 기술을 제공하고 있으며, 누구나 쉽게 접근하여 사용할 수 있습니다[3]. 그러나 검색 결과에서는 Riffusion의 모델이 로컬 환경에서 구현 가능한지에 대한 구체적인 정보는 제한적입니다. 하지만 Stable Diffusion 기반이므로, 유사한 방식으로 로컬 구현이 가능할 것으로 예상됩니다.

    로컬 구현을 위한 실질적 고려사항

    텍스트 프롬프트 기반 음악 생성 AI를 로컬에서 실행하려면 몇 가지 중요한 고려사항이 있습니다. 가장 중요한 것은 하드웨어 요구사항으로, 특히 GPU VRAM 용량이 핵심입니다.

    YuE의 사례에서 볼 수 있듯이, 완전한 기능을 사용하려면 최소 80GB의 VRAM이 필요하지만, 제한된 세션에서는 24GB 정도의 VRAM으로도 실행이 가능합니다[2]. 이는 RTX 3090이나 4090 같은 고성능 소비자용 GPU로도 일부 기능을 활용할 수 있음을 의미합니다.

    또한 오픈소스 모델의 경우, 라이선스 조건을 숙지하고 준수하는 것이 중요합니다. YuE와 같은 모델은 Apache License 2.0 하에 배포되어 상당한 자유도를 제공하지만, 특정 사용 조건이나 제한이 있을 수 있으므로 실제 구현 전에 라이선스 조건을 자세히 검토해야 합니다[2].

    로컬 구현 시 또 다른 고려사항은 안정성과 사용 편의성입니다. YuE의 경우, 2025년 2월 10일 기준으로 “아직 안정적으로 실행하기 어려운 상태”로 보인다는 언급이 있습니다[2]. 이는 오픈소스 프로젝트의 일반적인 특성으로, 시간이 지남에 따라 커뮤니티 기여와 개발로 안정성이 향상될 가능성이 높습니다.

    결론

    텍스트 프롬프트 기반 음악 생성 AI 분야는 빠르게 발전하고 있으며, 여러 오픈소스 모델이 이미 공개되어 로컬 환경에서의 구현 가능성을 제공합니다. 이 중 YuE는 현재 가장 유망한 오픈소스 옵션으로, 가사를 기반으로 한 완전한 곡 생성 기능과 다국어 지원을 제공합니다. 다만 안정적인 실행을 위해서는 상당한 컴퓨팅 리소스가 필요합니다[2].

    Riffusion은 Stable Diffusion의 접근 방식을 활용하여 텍스트에서 스펙트로그램을 생성하고, 이를 다시 오디오로 변환하는 독특한 방법을 채택하고 있습니다[3]. 이는 Stable Diffusion 사용 경험이 있는 사용자에게 친숙한 방식이 될 수 있습니다.

    메타의 오디오크래프트는 대기업이 개발한 모델로서 높은 품질의 음악 생성 기능을 제공하지만, 로컬 구현에 관한 세부 정보는 제한적입니다[1].

    음악 생성 AI 기술은 지속적으로 발전하고 있으며, 향후 더 많은 오픈소스 모델이 등장하여 접근성과 사용 편의성이 향상될 것으로 예상됩니다. 관심 있는 사용자라면 YuE나 Riffusion과 같은 현재 공개된 모델을 통해 텍스트 프롬프트 기반 음악 생성의 가능성을 탐색해볼 수 있을 것입니다.

    출처
    [1] “이젠 작곡도 AI로” 메타, 텍스트 기반 작곡 AI 도구 ‘오디오크래프트’ 출시 http://ciociso.com/bbs/board.php?bo_table=news&wr_id=8614
    [2] [오픈 소스 AI] Suno와 같이 노래를 생성 해주는 AI 모델, “YuE”를 소개 … https://marcus-story.tistory.com/119
    [3] 문장에 따른 악곡을 생성해 주는 AI「Riffusion」등장,「Stable … https://doooob.tistory.com/492
    [4] Riffusion(리퓨전): 이미지 생성 AI로 작곡을 한다?! – 네이버 블로그 https://blog.naver.com/1strider/222960387161
    [5] Stable Audio Open은 사운드 디자인의 Stable Diffusion와 같으며 … https://tilnote.io/news/6660e04c7cd88baed8e15741
    [6] [창작] AI 작곡의 혁명! 원하는 음악을 즉시 생성하세요. ❄️❄️❄️❄️ https://gptskorea.com/TopGPTs/?bmode=view&idx=153618063
    [7] [Python] Hugging Face MusicGen 음악 생성 API 사용법 – velog https://velog.io/@hanni/Python-Hugging-Face-MusicGen-%EC%9D%8C%EC%95%85-%EC%83%9D%EC%84%B1-API-%EC%82%AC%EC%9A%A9%EB%B2%95
    [8] An Open Source App for Generating Music with Local LLMs – Reddit https://www.reddit.com/r/MachineLearning/comments/1d1vp2u/p_musicgpt_an_open_source_app_for_generating/
    [9] 음악 생성 기술의 혁신: Diffusion 모델과 AudioGPT, Stable Audio 소개 https://inside.nhn.com/tech/218
    [10] 텍스트에서 음악 생성하는 인공지능(AI) ‘리퓨전’ – AI타임스 https://www.aitimes.com/news/articleView.html?idxno=148547
    [11] 인공지능으로 단 1분 만에 작곡가가 될 수 있습니다 – YouTube https://www.youtube.com/watch?v=lgrn_19SkdM
    [12] Audiocraft로 텍스트에서 AI 음악 생성하기 https://www.toolify.ai/ko/ai-news-kr/audiocraft-ai-1232583
    [13] Show HN: MusicGPT – An Open Source App for Generating Music … https://news.ycombinator.com/item?id=40457489
    [14] 엔비디아, “텍스트만으로 오디오 생성한다!”…프롬프트에 설명된 음악 https://www.aitimes.kr/news/articleView.html?idxno=32985
    [15] 뮤직젠 MusicGen – 퓨처데스크 https://futuredesk.cc/entry/%EB%AE%A4%EC%A7%81%EC%A0%A0-MusicGen
    [16] AI를 활용해 이미지 하나로 음악의 비트에 맞춰 뮤직비디오 … – YouTube https://www.youtube.com/watch?v=FUzscW9xzl8
    [17] 메타, 음악·오디오 생성 AI ‘오디오크래프트’ 오픈소스로 공개 – AI타임스 https://www.aitimes.com/news/articleView.html?idxno=152732
    [18] 엔비디아, 오디오 생성 AI 모델 ‘푸가토’ 공개 https://www.digitaltoday.co.kr/news/articleView.html?idxno=543035
    [19] [Local GPU] RVC V2 목소리(노래) 모델 학습 및 AI 커버 방법 – Art Rudy https://artrudy.tistory.com/493
    [20] Prompt 활용 하여 짧은 노래 만들어 보기 – 정보의파도 https://infowaveon.tistory.com/entry/Prompt-%ED%99%9C%EC%9A%A9-%ED%95%98%EC%97%AC-%EC%A7%A7%EC%9D%80-%EB%85%B8%EB%9E%98-%EB%A7%8C%EB%93%A4%EC%96%B4-%EB%B3%B4%EA%B8%B0
    [21] 텍스트만 입력하면 음악을 만들어 주는 AI 모델 “RIFFUSION” 사용법. https://www.youtube.com/watch?v=qrqrt_4u1mk
    [22] AI 음악 경쟁 본격화…메타, AI 음악 생성기 ‘뮤진젠’ 오픈소스로 공개 https://www.cio.com/article/3510096/ai-%EC%9D%8C%EC%95%85-%EA%B2%BD%EC%9F%81-%EB%B3%B8%EA%B2%A9%ED%99%94%EB%A9%94%ED%83%80-ai-%EC%9D%8C%EC%95%85-%EC%83%9D%EC%84%B1%EA%B8%B0-%EB%AE%A4%EC%A7%84%EC%A0%A0.html
    [23] 엔비디아, 혁신적인 생성형 사운드 AI 모델 Fugatto 공개 – TILNOTE https://tilnote.io/pages/67505b3f6404b0ef019df045
    [24] 로컬에서 인공지능 음악을 생성해 보았습니다. – 클리앙 https://www.clien.net/service/board/park/18913009
    [25] AI로 음악을 만들어보았다. – 브런치 https://brunch.co.kr/@@dRGI/77
    [26] Riffusion 리뷰: 몇 초 만에 노래를 만들었습니다. 방법은 다음과 같습니다 https://www.unite.ai/ko/%EB%A6%AC%ED%93%A8%EC%A0%84-%EB%A6%AC%EB%B7%B0/
    [27] 음악 생성 모델의 끝판왕 등장? https://stibee.com/api/v1.0/emails/share/i3cLKVXiTPCVb6JKMK0v-p9OD8lUMYs
    [28] gabotechs/MusicGPT: Generate music based on natural … – GitHub https://github.com/gabotechs/MusicGPT
    [29] 생성 AI로 누구나 작곡가, 음향효과 전문가 될 수 있다!…메타, 오디오 … https://www.aitimes.kr/news/articleView.html?idxno=28661
    [30] 알리바바, InspireMusic 오픈소스 공개: 혁신적인 음악, 노래 및 오디오 … https://comfyui-wiki.com/ko/news/2025-02-11-alibaba-open-source-inspiremusic
    [31] YuE – Local Music Generation with Audio Prompts – FOSS – YouTube https://www.youtube.com/watch?v=6FBnKIjqT04
    [32] 구글이 출시한 음악 생성 AI 도구, MusicFX를 소개합니다. https://marcus-story.tistory.com/96
    [33] 음악 생성 AI 뮤직젠(MusicGen) 오픈 소스로 공개 : 네이버 블로그 https://blog.naver.com/ryc3030/223131407717
    [34] Awesome music generation model——MG² – GitHub https://github.com/shaopengw/Awesome-Music-Generation
    [35] Udio로 노래 만들기: 사용법부터 실제 사례까지 한눈에 보기 – 지피터스 https://www.gpters.org/media/post/creating-song-udio-usage-7YH0F49SuHcfpVG
    [36] 프롬프트로부터 음악을 만들어내는 AI 생성 모델(prompt-based Music … https://ncsoft.github.io/ncresearch/f27188f9c5fdfec1298f8fd78fbf3718125cf5a3
    [37] 5 Open Source Generative Music Models You Can’t Miss – YouTube https://www.youtube.com/watch?v=GQfKoIMpea8
    [38] 누구나 작곡가가 되는 AI 작곡 – 브런치스토리 https://brunch.co.kr/@rightbrain/234
    [39] 전체 글 – Marcus’ Stroy – 티스토리 https://marcus-story.tistory.com/?page=4

    YuE 프로젝트 GitHub 및 문서 자료 안내

    YuE(乐)는 가사를 기반으로 완전한 노래를 생성하는 최신 오픈소스 AI 모델입니다. 이 모델은 텍스트 프롬프트만으로 보컬과 반주가 모두 포함된 음악을 작곡할 수 있는 강력한 도구로, 사용자가 요청한 GitHub 및 문서 자료에 대한 정보를 안내해 드리겠습니다.

    YuE 프로젝트 공식 웹사이트

    YuE의 공식 프로젝트 웹사이트는 다음 URL에서 확인할 수 있습니다:
    https://map-yue.github.io/[3]

    이 웹사이트는 프로젝트의 기본 정보, 기술적 개요, 그리고 다양한 음악 생성 예시를 제공합니다. 웹사이트에는 “YuE Model Checkpoints HF-Link”라는 섹션이 있어, 이를 통해 Hugging Face에서 모델 체크포인트에 접근할 수 있습니다[3].

    Hugging Face 및 GitHub 저장소

    검색 결과에 따르면, YuE 모델은 현재 GitHub와 Hugging Face에서 오픈소스로 공개되어 있습니다[1]. 공식 웹사이트(https://map-yue.github.io/)를 방문하면 GitHub 저장소 링크와 Hugging Face 모델 링크를 찾을 수 있을 것입니다. 웹사이트에는 “YuE Model Checkpoints HF-Link” 섹션이 있어 모델 체크포인트에 접근할 수 있는 방법을 안내하고 있습니다[3].

    검색 결과에는 GitHub 저장소의 직접적인 URL이 포함되어 있지 않지만, 공식 웹사이트를 통해 접근할 수 있을 것입니다. 일반적으로 프로젝트 웹사이트의 메인 페이지나 ‘Get Started’, ‘GitHub’ 등의 링크를 통해 저장소에 접근할 수 있습니다.

    YuE 모델의 주요 특징

    YuE는 홍콩과학기술대학교(HKUST)와 M-A-P(Multimodal Art Projection)이 공동으로 개발한 프로젝트로, 다음과 같은 주요 특징을 가지고 있습니다:

    1. 최대 5분 길이의 음악을 생성할 수 있습니다[1].
    2. 가사를 기반으로 보컬과 반주가 포함된 완전한 곡을 만들어냅니다[1].
    3. 음악적 구조를 유지하면서 자연스러운 멜로디와 조화를 형성합니다[1].
    4. 영어, 중국어(만다린, 광동어), 일본어, 한국어 등 다양한 언어를 지원합니다[1][3].
    5. 재즈, 팝, 록, 힙합, 발라드 등 다양한 장르의 음악을 생성할 수 있습니다[3].

    모델 버전 및 실행 방식

    YuE는 두 가지 주요 버전으로 제공됩니다:

    1. ICL(In-Context Learning) 버전: 참조 오디오를 입력하여 모델이 특정 스타일을 따르게 하는 방식입니다. 높은 품질의 결과를 얻을 수 있지만, 생성 범위가 제한되는 특징이 있습니다[1].
    2. CoT(Chain of Thought) 버전: 참조 오디오 없이도 모델이 논리적인 전개 과정을 거쳐 곡을 생성하는 방식입니다. 이 방법은 더 창의적이고 다양한 결과를 만들어냅니다[1].

    하드웨어 요구사항

    YuE를 로컬에서 실행하기 위해서는 상당한 컴퓨팅 리소스가 필요합니다:

    1. 24GB 이하의 GPU(RTX 3090, 4090, A6000 등)에서는 최대 2개의 세션만 실행할 수 있습니다[1].
    2. 전체 곡을 생성하려면 최소 80GB VRAM이 필요합니다[1].
    3. NVIDIA H800, A100(80GB 모델), 또는 다수의 RTX 4090을 Tensor Parallel 방식으로 활용해야 합니다[1].
    4. 실행 속도는 NVIDIA H800에서 30초 오디오 생성 시 약 150초, RTX 4090에서는 약 360초가 소요됩니다[1].

    라이선스 정보

    YuE 모델은 Apache License 2.0을 따르며, 상업적 사용, 수정, 배포, 파생 작업이 자유롭게 가능합니다. 단, 저작권 및 라이선스 고지 유지가 필수이며, 책임 및 보증이 제공되지 않음을 명시해야 합니다[1].

    결론

    YuE 프로젝트는 음악 생성 AI 분야에서 주목할 만한 오픈소스 모델입니다. 가사 기반의 전체 곡 생성, 다국어 지원, L.L.a.m.a 계열 기반 아키텍처 등의 강점을 갖고 있습니다. 비록 검색 결과에서 직접적인 GitHub 링크는 제공되지 않았지만, 공식 웹사이트(https://map-yue.github.io/)를 통해 필요한 리소스에 접근할 수 있을 것입니다. 다만, 모델을 로컬에서 실행하기 위해서는 상당한 하드웨어 요구사항이 있다는 점을 유의해야 합니다.

    출처
    [1] [오픈 소스 AI] Suno와 같이 노래를 생성 해주는 AI 모델, “YuE”를 소개 … https://marcus-story.tistory.com/119
    [2] Getting started – Yue https://libyue.com/docs/latest/js/guides/getting_started.html
    [3] YuE: https://map-yue.github.io
    [4] YuE(乐): 한국어를 지원하는, 가사를 기반으로 노래 를 생성(Lyrics to … https://discuss.pytorch.kr/t/yue-lyrics-to-song-feat-hkust/6017
    [5] GitHub – multimodal-art-projection/YuE: YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open https://github.com/multimodal-art-projection/YuE
    [6] smthemex/ComfyUI_YuE – GitHub https://github.com/smthemex/ComfyUI_YuE
    [7] yue/README.md at main – GitHub https://github.com/yue/yue/blob/main/README.md
    [8] HKUSTAudio/YuE-s2-1B-general – Hugging Face https://huggingface.co/HKUSTAudio/YuE-s2-1B-general
    [9] deepbeepmeep/YuEGP: YuE: Open Full-song Generation … – GitHub https://github.com/deepbeepmeep/YuEGP
    [10] Yue https://libyue.com
    [11] m-a-p/YuE-s2-1B-general – Hugging Face https://huggingface.co/m-a-p/YuE-s2-1B-general
    [12] lyrics.txt – multimodal-art-projection/YuE – GitHub https://github.com/multimodal-art-projection/YuE/blob/main/prompt_egs/lyrics.txt
    [13] Documentation/yue – MediaWiki https://www.mediawiki.org/wiki/Documentation/yue
    [14] 음악생성 AI도 오픈소스로 풀렸습니다! || “YuE” #shorts – YouTube https://www.youtube.com/watch?v=x–StctLntc
    [15] YUE https://yue.kr
    [16] VanillaJS 프로젝트인 Baam 뮤직플레이어입니다 – GitHub https://github.com/Seongkyun-Yu/baam-player
    [17] API:Main page/yue – MediaWiki https://www.mediawiki.org/wiki/API:Main_page/yue
    [18] 로컬에서 인공지능 음악을 생성해 보았습니다. – 클리앙 https://www.clien.net/service/board/park/18913009
    [19] Yue – Hugo Themes https://themes.gohugo.io/themes/hugo-theme-yue/
    [20] Add YuE audio model #35929 – huggingface/transformers – GitHub https://github.com/huggingface/transformers/issues/35929