최근 국내 대학가에서 학생들이 직접 참여하여 개발한 한국어 특화 AI 언어모델들이 주목받고 있으며, 일부 모델은 글로벌 빅테크 기업의 성능을 뛰어넘는 성과를 보이고 있다. 이러한 대학 주도의 AI 모델 개발은 한국의 AI 생태계 발전에 중요한 기여를 하고 있으며, 학생들에게는 실무 경험을 쌓을 수 있는 귀중한 기회를 제공하고 있다.
고려대학교 구름(KULLM) 시리즈: 한국어 LLM의 선구자
고려대학교 자연어처리&AI 연구실 및 HIAI 연구소는 2023년 6월 국내 대학 최초로 한국어 특화 대규모언어모델(LLM) ‘구름(KULLM)’을 공개했다[1][12]. 이 프로젝트는 임희석 교수가 이끄는 연구팀에서 진행되었으며, 한국어 모델뿐만 아니라 학습에 사용된 데이터셋까지 모두 오픈소스로 공개하여 국내 생성형 AI 생태계 확대에 기여했다.
구름은 오픈소스로 공개된 한국어 LLM ‘폴리글롯 한국어(Polyglot-Ko)’ 모델을 기반으로 양질의 한국어 데이터셋을 추가 학습했다[1]. 연구팀은 GPT4ALL, 비쿠나, 데이터브릭스 ‘돌리’ 데이터를 병합하고 독일 AI 번역서비스 ‘딥엘(DeepL)’을 통해 한국어로 번역하여 활용했다. 성능 평가 결과 구름은 GPT-4를 100으로 기준했을 때 71.1의 성능을 보였으며, 이는 GPT-4 매개변수의 약 10분의 1 수준의 데이터셋으로 달성한 결과여서 더욱 주목받았다.
2024년 4월에는 한국어 생성 능력이 대폭 향상된 ‘구름3(KULLM3)’이 공개되었다[5]. 구름3는 Upstage의 SOLAR-10.7B 모델에 고품질 한국어 지시어 데이터셋을 적용하여 지시 튜닝 학습을 통해 탄생했다. GPT-4-Turbo를 활용한 분석 결과 구름3의 생성 답변은 기존 한국어 모델보다 매우 우수했으며, GPT-3.5 Turbo와 GPT-4 Turbo에 준하는 능력을 보였다고 평가되었다.
연세대학교 아카라마: 학생 주도의 초거대 AI 모델
연세대학교 멀티모달 AI 연구소에서는 700억 파라미터(70B) 이상의 초거대 AI 학생 ‘아카라마(AkaLlama)’를 개발하고 있다[8][17]. 이 프로젝트의 가장 특별한 점은 학생들이 주도적으로 LLM을 만들고 구축한다는 것이다. 일반적으로 대학에서 700억 파라미터 이상의 LLM 모델을 직접 만드는 곳은 드물며, 산학협력을 통해 기업 연구소와 협업해야 가능한 일이다.
유영재 조교수가 이끄는 이 프로젝트에는 학부생과 대학원생 20여 명이 참여하고 있으며, 대표 학생 6명이 프로젝트를 책임지고 이끌고 있다[8]. 아카라마는 연세대 축제인 ‘아카라카’와 메타 오픈소스 모델 ‘라마3’ 명칭을 합쳐 만든 이름으로, ‘AI 학생’ 컨셉으로 개발되고 있다. 이 모델은 학내 데이터와 학생 말투를 학습해 마치 연세대 학생처럼 만들어져 모든 교내 정보를 알고 안내할 수 있는 똑똑한 연세대 AI 학생을 목표로 한다.
아카라마는 Meta AI의 Llama3 70B 모델을 기반으로 다양한 도메인의 한국어 데이터로 튜닝되었으며[10], 현재 허깅페이스(Hugging Face)에 오픈소스로 공개되어 있다[11]. 향후 2단계 확장으로 세브란스 병원과 협업해 ‘AI 의대생’ 컨셉의 대형 모델을 구축할 예정이며, 심리학과와도 협력하여 ‘AI 심리학과생’을 만들어 학생 진로 상담과 심리 상담에 특화된 서비스를 제공할 계획이다.
나리랩스 Dia: 빅테크를 뛰어넘은 음성 AI 모델
가장 주목할 만한 성과는 서울대학교와 KAIST 학생 2명이 공동 창업한 나리랩스(Nari Labs)에서 개발한 음성 AI 모델 ‘Dia’이다[3][14]. 김도엽 서울대 대표와 성재용 KAIST 대표가 만든 이 16억 파라미터 규모의 텍스트-음성(TTS) 모델은 마이크로소프트(MS), 바이트댄스, 엔비디아, 구글을 제쳤다는 평가를 받고 있다.
Dia는 텍스트 대사로 사실적인 대화 음성을 생성하며, 오디오 프롬프트를 통해 감정과 톤을 자유롭게 조절할 수 있다[3]. 특히 웃음, 기침, 한숨 같은 비언어적 표현을 자연스럽게 구현해 “(laughs)” 같은 텍스트를 실제 웃음 소리로 바꾸는 점에서 차별화된다. 일레븐랩스, 세사미, 구글 NotebookLM과 비교해도 뛰어난 음질과 대화 처리 능력을 자랑하며, 팟캐스트, 오디오북, 가상 비서 등 다양한 응용 가능성을 보여준다.
나리랩스는 AI 전문 지식 없이 2023년 말 구글 NotebookLM의 팟캐스트 기능에 영감을 받아 개발을 시작했으며, 구글 TPU Research Cloud의 지원으로 고성능 모델을 훈련했다[3]. 현재 Apache 2.0 라이선스로 허깅페이스와 깃허브에 공개되어 있으며, 공개 2주 만에 허깅페이스 다운로드 10만 건을 돌파하는 성과를 거두었다[14].
기타 대학 주도 한국어 모델 개발 사례
서울대학교 신효필 교수의 언어학과 컴퓨터언어학/자연어처리 연구실에서는 BARO AI가 지원한 POSEIDON Ultimate 4000U(H100 4GPUs) 2대를 활용하여 DaG LLM(David and Goliath Large Language Model)을 구축했다[9]. 이 모델은 한국어 공개 모델인 Polyglot-Ko-5.8b를 미세조정하고 적절한 프롬프트 인젝션을 통해 만들어졌으며, 법률, 금융, 의료 등 전문 분야에 특화되어 한국어 LLM 개발의 기반이 될 것으로 기대된다.
서울과학기술대학교 멀티모달 언어처리 연구실(MLP) 임경태 교수팀은 AI 전문 스타트업 테디썸과 공동으로 한국어 특화 시각-언어모델인 ‘블로썸(Blossom)-V 3.1’을 개발했다[20]. 이 모델은 텍스트뿐만 아니라 이미지까지 처리할 수 있는 멀티모달 모델로, 계층연결(Layer Aligning) 방법이 적용되어 한국어와 영어 두 언어를 안정적으로 지원한다.
의미와 전망
이러한 대학 주도의 한국어 AI 모델 개발은 여러 측면에서 중요한 의미를 갖는다. 첫째, 학생들에게 실무 경험을 제공하여 미래 AI 인재를 양성하는 데 기여하고 있다. 업계에서도 거대 모델을 훈련시킨 경험이 있는 인재를 높게 평가하고 있으며, 미국에서는 LLM 프로젝트 경험이 있는 인재를 1급 AI 인재로 보고 연봉을 높게 올려주기도 한다[8].
둘째, 한국어 특화 모델 개발을 통해 국내 AI 생태계 발전에 기여하고 있다. 글로벌 기업들이 비밀유출 등의 문제로 상용화된 LLM 사용을 제한하면서, 기업이나 업무별 자체 LLM 구축 사례가 늘어날 것으로 전망되는 상황에서 이러한 오픈소스 모델들은 중요한 대안이 되고 있다[1].
결론
대학생들이 주도한 한국어 AI 언어모델 개발은 단순한 연구 프로젝트를 넘어 실질적인 성과를 거두고 있다. 특히 나리랩스의 Dia 모델이 글로벌 빅테크 기업들을 뛰어넘는 성능을 보인 것은 한국의 AI 기술력을 세계에 알리는 중요한 사례가 되었다. 앞으로도 이러한 대학 주도의 AI 모델 개발이 지속적으로 확대되어 한국의 AI 경쟁력 강화와 차세대 AI 인재 양성에 기여할 것으로 기대된다.
출처
[1] 고려대, 학계 최초 한국어 특화 대규모언어모델(LLM) 공개…韓 생성AI … https://www.etnews.com/20230616000153
[2] sLM 성능 높이는 ‘순차적 몬테카를로’ 기법 등장 – AI타임스 https://www.aitimes.com/news/articleView.html?idxno=169980
[3] 한국 대학생이 만든 ‘나리랩스’, 구글-일레븐랩스 넘는 AI 음성 모델 개발 https://wowtale.net/2025/04/25/240352/
[4] 한국어 초거대 언어 모델 KULLM (Korea University Large Language … https://bongseok.tistory.com/70
[5] 고려대, 한국어 생성 능력이 대폭 향상된 한국어 특화 LLM ‘구름3’ 공개 https://www.usline.kr/news/articleView.html?idxno=25218
[6] [PDF] 대규모 언어 모델을 활용한 최적화된 교육용 플랫폼 개발 https://www.koreascience.kr/article/CFKO202404272003480.pdf
[7] 개발자가 LLM 원리부터 배워야 하는 이유 – IT 커리어 성장 코스, 항해 https://hanghae99.spartacodingclub.kr/blog/%EA%B0%9C%EB%B0%9C%EC%9E%90%EA%B0%80-llm-%EC%9B%90%EB%A6%AC%EB%B6%80%ED%84%B0-%EB%B0%B0%EC%9B%8C%EC%95%BC-%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0-29900
[8] [AI 대학가] 연세대에는 ‘초거대 AI 학생’이 다닌다 https://www.newstheai.com/news/articleView.html?idxno=5538
[9] [바로AI뉴스] POSEIDON 2대로 개발한 한국어 LLM 모델 https://www.baroai.com/news/?idx=16578897&bmode=view
[10] #아카라카 #아카라마 #multimodal #llm #datascience | Joon Yeol Yang https://kr.linkedin.com/posts/joon-yeol-yang-712a2b62_%EC%95%84%EC%B9%B4%EB%9D%BC%EC%B9%B4-%EC%95%84%EC%B9%B4%EB%9D%BC%EB%A7%88-multimodal-activity-7198090849392447488-KPmY
[11] mirlab/AkaLlama-llama3-70b-v0.1 – Hugging Face https://huggingface.co/mirlab/AkaLlama-llama3-70b-v0.1
[12] 고려대, 학계 최초 한국어 특화 대규모언어모델(LLM) 공개…韓 생성AI … https://www.oss.kr/news/show/b7e920a0-2b5a-4830-83ec-aad9049216c2
[13] 과도하게 훈련된 모델, 미세조정 어려워…’과잉 훈련 재앙’ 개념 등장 https://www.aitimes.com/news/articleView.html?idxno=169224
[14] 韓 청년이 만든 음성AI 모델 빅테크 넘었다 – 한국경제 https://www.hankyung.com/article/2025050537461
[15] KULLM(long) : / 한국어 특화 LLM 구름의 놀라운 능력! – YouTube https://www.youtube.com/watch?v=keGKG6wC8Ko
[16] 고려대, 학계 최초 한국어 특화 대규모언어모델(LLM) 공개…韓 생성AI … https://www.kadh.org/%EA%B3%A0%EB%A0%A4%EB%8C%80-%ED%95%99%EA%B3%84-%EC%B5%9C%EC%B4%88-%ED%95%9C%EA%B5%AD%EC%96%B4-%ED%8A%B9%ED%99%94-%EB%8C%80%EA%B7%9C%EB%AA%A8%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8llm-%EA%B3%B5/
[17] 연세대 학생들이 만드는 ‘초거대 AI 학생’의 정체 – 디지틀조선일보 https://digitalchosun.dizzo.com/site/data/html_dir/2024/05/30/2024053080149.html
[18] [PDF] 대규모 언어모델의 한국어 이해 능력 평가 방법에 관한 연구 https://www.manuscriptlink.com/society/kips/conference/ask2024/file/downloadSoConfManuscript/abs/KIPS_C2024A0190
[19] 임희석 고려대 교수, “한국어 LLM 리더보드에 주관식 평가지표 개발돼야” https://www.etnews.com/20240620000348
[20] 서울과기대, 텍스트·이미지 동시 처리 한국어 특화 LLM 개발 https://www.gttkorea.com/news/articleView.html?idxno=13405
[21] 딥러닝 기반 언어모델을 이용한 한국어 학습자 쓰기 평가의 자동 점수 … https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002714132
[22] ‘Alpha V2’ 모델 공개 : 일반 작업에 특화된 한국어 LLM https://blog-ko.allganize.ai/alpha-v2-model-gonggae-ilban-jageobe-teughwadoen-hangugeo-llm/
[23] ️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM https://github.com/nlpai-lab/KULLM
[24] 한국어 LLM 개발일지1 https://punctuate.tistory.com/12
[25] ‘대학생에게 업무 알려주듯’ 우리 회사 전용 LLM 만든다 – 네이버 블로그 https://blog.naver.com/oracle_ko/223337165692
[26] 2024년 ‘랭체인과 LLM을 활용한 AI 서비스 개발 과정’ 교육생 모집 https://ai.ewha.ac.kr/ai/board/common.do?mode=view&articleNo=725320&title=%5B%ED%99%8D%EB%B3%B4%5D+2024%EB%85%84+%27%EB%9E%AD%EC%B2%B4%EC%9D%B8%EA%B3%BC+LLM%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+AI+%EC%84%9C%EB%B9%84%EC%8A%A4+%EA%B0%9C%EB%B0%9C+%EA%B3%BC%EC%A0%95%27+%EA%B5%90%EC%9C%A1%EC%83%9D+%EB%AA%A8%EC%A7%91
[27] 프롬프트 엔지니어링으로 시작하는 AI/LLM 서비스 개발: 9개 프로젝트 … https://fastcampus.co.kr/data_online_llmservice
[28] LLM 바닥부터 만들기 (대형언어모델) 1시간 핵심 정리! – #1 사전학습 … https://www.youtube.com/watch?v=osv2csoHVAo
[29] 세계 1위 오픈LLM 모델과 한글 데이터와 만남!…업스테이지, 한국어 … https://www.aitimes.kr/news/articleView.html?idxno=28722
[30] 한국어 로컬 모델 풀 파인튜닝 – LLM 바닥부터 만들기 (대형 언어 모델) https://www.youtube.com/watch?v=NrDZmSDvXXw
[31] 한국어 LLM(대규모 언어 모델) 동향과 한국어 학습 서비스 기획 https://shihyun.tistory.com/150
[32] 한국어 특화 AI 모델 쏟아진다 – 조선일보 https://www.chosun.com/economy/tech_it/2024/12/09/IKX5CLEROBA4RPSARQ5FRZFDMY/
[33] AkaLlama https://yonsei-mir.github.io/AkaLLaMA-page/
[34] mirlab/AkaLlama-llama3-70b-v0.1-GGUF – Hugging Face https://huggingface.co/mirlab/AkaLlama-llama3-70b-v0.1-GGUF
[35] 연세대 학생들이 만드는 ‘초거대 AI 학생’의 정체 – MIR Lab https://mirlab.yonsei.ac.kr/news/others/2024/05/30/Akallama.html
[36] 얀 르쿤 “LLM 공부해야 소용없어…대신 차세대 AI에 집중해야” https://www.aitimes.com/news/articleView.html?idxno=159950
[37] GPT 개발코드를 유출(Leak)이 아니고 대공개! 크래프톤이 대학생 AI … https://www.youtube.com/watch?v=8LhI58VLV88
[38] 2025 LLM 모델 총정리 : 성능 비교, 업무 활용 사례, AGENT – 뉴닉 https://newneek.co/@dalpha/article/30463
[39] RAG를 활용한 LLM Application 개발 (feat. LangChain) 강의 – 인프런 https://www.inflearn.com/course/rag-llm-application%EA%B0%9C%EB%B0%9C-langchain
[40] SIOP 모델을 활용한 다문화 배경 학생 대상 학습 한국어 교육 프로그램 … https://www.dbpia.co.kr/journal/detail?nodeId=T13568373
[41] [PDF] TV 강연 프로그램을 활용한 대학 한국어 수업 개발 https://j-kagedu.or.kr/upload/pdf/kagedu-13-6-293.pdf
[42] LLM을 똑똑하게 만드는 3단계 학습법 [인공지능 오디세이] – 시사IN https://www.sisain.co.kr/news/articleView.html?idxno=54698
[43] 클래스팅, AI 엔진 학습 성과 예측 성능 91.5% 달성 – 테크월드뉴스 https://www.epnc.co.kr/news/articleView.html?idxno=305071
[44] “AI가 교사가 될 수 있을까?” LearnLM이 보여준 교육 AI의 새로운 기준 https://digitalbourgeois.tistory.com/1061
[45] AkaLlama 공부 – velog https://velog.io/@kk8081/AkaLlama-%EA%B3%B5%EB%B6%80
[46] ‘4대 AI 회사’ 모델 순위 뽑았더니…메타, 오픈AI·앤트로픽 성능에 근접 https://www.aitimes.com/news/articleView.html?idxno=163221
[47] 온프레미스 환경에서의 MLOps 구축 방안 연구 – Goover https://seo.goover.ai/report/202409/go-public-report-ko-4bbd5d62-0fc6-483d-a59f-b9d232b522d6-0-0.html
[48] 안녕하세요! 연세대학교 조교수 유영재라고 합니다. 이제 곧 대학 … https://kr.linkedin.com/posts/youngjae-yu-204134112_%EC%95%88%EB%85%95%ED%95%98%EC%84%B8%EC%9A%94-%EC%97%B0%EC%84%B8%EB%8C%80%ED%95%99%EA%B5%90-%EC%A1%B0%EA%B5%90%EC%88%98-%EC%9C%A0%EC%98%81%EC%9E%AC%EB%9D%BC%EA%B3%A0-%ED%95%A9%EB%8B%88%EB%8B%A4-%EC%9D%B4%EC%A0%9C-%EA%B3%A7-%EB%8C%80%ED%95%99-%EC%B5%9C%EA%B3%A0%EC%9D%98-%EC%B6%95%EC%A0%9C-activity-7193983856557895681-VeL4
[49] 엔씨소프트, ‘라마 바르코 LLM’ 공개… “한국어 성능 높인 튜닝 모델” https://www.dnews.co.kr/uhtml/view.jsp?idxno=202409261713254810924
답글 남기기