회귀분석의 역사와 발전

1. 개요: 평균으로의 회귀 개념의 기원

회귀분석(regression analysis)은 19세기 후반 영국의 과학자 프랜시스 골턴(Francis Galton)이 제시한 “평균으로의 회귀” 개념에서 시작되었습니다. 골턴은 키가 매우 큰 부모의 자녀 키를 조사하면서 자녀의 키가 부모 세대보다 평균에 더 가까워지는 경향을 발견하였고, 이를 “mediocrity(평균치)로의 회귀”라고 명명했습니다 (Regression toward the mean – Wikipedia). 이 관찰을 통해 극단적인 부모 특성은 자녀 세대에서 덜 극단적으로 나타나는 경향을 정량적으로 보여주었고, 이러한 현상을 설명하기 위한 최적 적합선 계산 방법을 고안함으로써 현대 회귀분석의 기틀을 마련했습니다 (Regression toward the mean – Wikipedia). “Regression(회귀)”이라는 용어도 이때 유래한 것으로, 데이터가 평균으로 돌아오는 경향을 나타내는 골턴의 연구로부터 회귀분석이라는 이름이 붙여졌습니다.

골턴 이전에도 최소제곱법에 기반한 선형 적합 시도는 이미 존재했습니다. 프랑스의 **레전드르(Legendre)**와 독일의 **가우스(Gauss)**는 19세기 초 (1805년, 1809년경) 천문학 데이터의 곡선 맞춤을 위해 최소제곱법을 개발하여 행성 궤도 계산에 활용했고, **케틀레(Quetelet)**는 이러한 회귀 기법을 사회과학 자료에 적용함으로써 회귀분석을 널리 알렸습니다 (Linear regression – Wikipedia). 하지만 회귀(regression)라는 용어를 통계 분석 맥락에서 본격적으로 정립한 것은 골턴의 업적이며, 이후 회귀분석은 현대 통계학과 머신러닝의 기본 기법으로 지속 발전해왔습니다. 아래에서는 고전 통계학 시대의 회귀모형부터 현대 머신러닝의 회귀 알고리즘까지 시대별 발전을 정리합니다.

2. 고전 통계학 시대의 회귀 기법

2.1 선형 회귀와 다항 회귀의 탄생

선형 회귀(linear regression)는 하나 이상의 독립변수로 종속변수를 선형 결합으로 모델링하는 가장 기본적인 회귀분석 기법입니다. 선형 회귀의 핵심 수학적 기법은 바로 **최소제곱법(Ordinary Least Squares)**으로, 잔차 제곱합을 최소화하여 회귀직선을 찾습니다. 앞서 언급한 가우스와 레전드르가 별도로 발견한 방법으로, 주어진 데이터 점들에 직선을 “최소 오차”로 맞추는 아이디어입니다 (Linear regression – Wikipedia). 골턴은 이 개념을 인간의 키 유전 데이터에 적용하여 부모 키와 자식 키 사이의 관계를 직선으로 표현했고, 그의 동료 **칼 피어슨(Karl Pearson)**은 이를 계승하여 상관계수와 회귀직선의 개념을 정식화하였습니다. 이로써 상관과 회귀 개념이 탄생하여 사회과학, 자연과학 전반에 퍼지게 되었고, 20세기 초반에는 여러 설명변수를 사용하는 다중선형 회귀 기법도 소개되어 경제학 등의 분야에서 널리 활용되었습니다.

다항 회귀(polynomial regression)는 선형 회귀의 확장으로, 입력 변수의 다항식 형태까지 포함하여 복잡한 곡선 관계를 모델링하는 기법입니다. 예를 들어 2차 다항 회귀는 독립변수 x의 제곱항까지 포함된 식 y=β0+β1x+β2×2+εy = \beta_0 + \beta_1 x + \beta_2 x^2 + \varepsilon으로 모델링하여, 비선형 관계를 포착할 수 있게 합니다. 다항 회귀 자체는 선형 회귀와 동일한 최소제곱법으로 추정할 수 있기 때문에 역사적으로 특별한 발명자보다는 회귀분석의 자연스러운 확장으로 간주되었습니다. 19세기 후반~20세기 초에 걸쳐 과학자들은 포물선 궤적이나 곡선 추세를 관찰할 때 다항 함수를 맞추는 방식으로 데이터를 해석했고, 이러한 접근이 다항 회귀라는 이름으로 불리게 되었습니다.

선형 및 다항 회귀의 데이터 및 적용 특성: 고전적 선형 회귀는 주로 관측 변수가 수개에서 수십 개 이내인 소규모 데이터셋에서 출발했습니다. 예컨대 골턴의 키 데이터는 수백 명 정도의 표본으로 부모-자식 키 쌍을 다뤘고, 경제학에서는 개인 소득과 소비 관계를 분석하는 등 수십~수백개의 관측치로 두 변수 간 관계를 직선으로 예측하는 연구들이 많았습니다. 선형 회귀는 계산이 간단하고 결과 해석이 쉬워서, 사회과학(예: 교육수준에 따른 소득 예측), 자연과학(예: 온도에 따른 압력 변화), 경제학(예: GDP와 투자 간의 관계) 등에서 인과관계 추정예측에 광범위하게 활용되었습니다. 다항 회귀 역시 곡선 관계를 다루어야 하는 공학 문제나 자연현상 (예: 투척 물체의 포물선 경로, 효소 반응 속도 곡선)에 응용되며, 이후 소개되는 보다 복잡한 기법들이 나오기 전까지는 경험적 데이터에 곡선을 피팅하는 주요 수단이었습니다.

2.2 로지스틱 회귀와 이진 예측 모델

회귀분석 개념은 연속형 값 예측뿐 아니라 범주형 결과의 예측으로도 확장되었습니다. 그 대표가 로지스틱 회귀(logistic regression)입니다. 로지스틱 회귀는 결과 변수가 0/1과 같은 이진분류인 경우에 적용되는 회귀 기법으로, 확률을 로짓(logit) 함수(로지스틱 함수의 역함수)에 선형으로 회귀시킴으로써 출력값을 0~1 사이의 확률로 변환합니다. 수학적으로는 **오즈(odds)**의 로그값을 설명변수의 선형 조합으로 놓은 형태로, 시그모이드 모양의 로지스틱 함수 σ(z)=1/(1+e−z)\sigma(z) = 1/(1+e^{-z})를 통해 예측 확률을 계산합니다. 이 모델은 **최대우도추정(MLE)**을 통해 모수를 추정하며, 선형 회귀와 달리 오차항이 정규분포가 아니라 Bernoulli 분포(0-1 데이터)로 가정되는 **일반화선형모델(GLM)**의 하나로 볼 수 있습니다.

로지스틱 회귀의 역사적 발전: 로지스틱 곡선 자체는 19세기 인구성장 모델 (피에르 페르훌스트, 1830년대)에서 등장했지만, 이를 통계적 이진 예측에 도입한 것은 훗날의 일입니다 (Logistic regression – Wikipedia) (Logistic regression – Wikipedia). 1930년대에 이미 프로빗 회귀(probit)라는 유사한 이진 회귀모형이 생물학 분야(농업 생물실험)에서 사용되었고, 이에 영향을 받아 윌슨(Wilson)과 워체스터(Worcester) 등이 1943년 생물학 실험에서 프로빗 대신 로지스틱 함수를 사용하기 시작했습니다 (Logistic regression – Wikipedia). 특히 미국의 통계학자 **조지프 버크슨(Joseph Berkson)**은 1944년 논문에서 **“logit(로지트)”**이라는 용어를 만들고 로지스틱 회귀모형을 체계적으로 발전시켰습니다 (Logistic regression – Wikipedia). 버크슨은 당시 널리 쓰이던 프로빗 모형과 로지트 모형을 비교하며, 로지스틱 회귀의 유용성을 강조했습니다. 초기에는 프로빗에 비해 다소 생소했지만 1960년대~1970년대에 걸쳐 로지스틱 회귀가 프로빗과 대등하게 쓰일 정도로 자리잡게 되었고, (Logistic regression – Wikipedia) 이 기간 동안 데이비드 콕스(David Cox) 등의 통계학자가 1958년 논문 등에서 로지스틱 회귀의 이론적 정교화에 기여하였습니다 (Logistic regression – Wikipedia).

로지스틱 회귀의 데이터 특성 및 응용: 로지스틱 회귀는 결과가 성공/실패, 질병 유무, 구매 여부범주형 판단인 경우에 적합하여, 20세기 중엽부터 의학, 생물학, 사회과학, 마케팅 등 다양한 분야에서 큰 활약을 했습니다. 예를 들어, 의학에서는 환자의 여러 위험인자를 통해 질병에 걸릴 확률이나 치료 성공 여부를 예측하고 (Logistic regression – Wikipedia), 역학(Epidemiology) 분야에서는 흡연 여부에 따른 폐암 발생 확률처럼 Odds Ratio(승산비) 개념과 함께 질병 발생 확률을 분석하는 데 로지스틱 회귀를 활용했습니다. 마케팅 분야에서는 고객의 인구통계학적 특성과 과거 구매이력 등을 활용해 **구매할 확률(구매자/비구매자 분류)**을 예측하고, 사회과학에서는 투표 연구 등에서 개인이 투표할지 여부를 예측하거나 범죄 재범 여부를 예측하는 모형에 쓰였습니다. 로지스틱 회귀는 **결과의 해석이 직관적(계수의 부호와 크기로 영향 판단, 오즈비로 효과 해석)**이고 계산도 비교적 효율적이라, 오늘날까지도 범주형 데이터 분석의 표준 기법으로 활용되고 있습니다.

3. 정규화 회귀 기법의 발전

3.1 릿지 회귀: 과적합과 다중공선성의 대응

통계모형이 발전하면서 **변수의 개수가 많거나 변수들 간 강한 상관관계(다중공선성)**가 있을 때 선형 회귀의 계수 추정이 불안정해지는 문제가 알려졌습니다. 이를 해결하기 위해 1970년대에 정규화(regularization) 기법이 도입되었고, 그 시초가 되는 방법이 릿지 회귀(ridge regression)입니다. 릿지 회귀는 **1970년 호얼(Hoerl)과 케난드(Kennard)**의 논문에서 처음 제안되었는데 (Ridge regression – Wikipedia), **회귀계수 값에 패널티(term)**를 부여하여 계수의 크기를 작게 만드는 방식으로 다중공선성을 완화했습니다. 구체적으로 릿지 회귀는 목적함수에 계수들의 제곱합(L2 놈)의 λ배를 추가(즉, RSS+λ∑βj2\text{RSS} + \lambda \sum \beta_j^2 최소화)함으로써, 계수들의 크기가 과도하게 커지는 것을 막고 모델의 분산을 줄이는 대신 약간의 바이어스를 허용하는 접근입니다 (Ridge regression – Wikipedia) (Ridge regression – Wikipedia). 이렇게 하면 상관관계가 높은 예측변수들이 있는 경우에도 모형이 안정적으로 추정되고, 새로운 데이터에 대해서도 **과적합(overfitting)**되지 않아 더 나은 예측 성능을 보이는 장점이 있습니다.

릿지 회귀의 도입은 통계학의 중요한 전환점 중 하나로, 모델 복잡도에 패널티를 주어 바이어스-분산 트레이드오프를 조절한다는 개념을 처음으로 실용화한 사례였습니다 (Ridge regression – Wikipedia) (Ridge regression – Wikipedia). 이러한 정규화된 회귀는 이후 등장하는 여러 머신러닝 알고리즘(예: 서포트 벡터 머신의 소프트마진, 딥러닝의 가중치 감소 등)에 큰 영향을 주었습니다.

릿지 회귀의 적용 분야: 릿지 회귀는 특히 설명변수들 사이 상관성이 높거나, 설명변수 수가 관측치 수와 비슷하거나 더 많은 경우에 성능이 향상됩니다. 예컨대 경제학에서 거시지표 예측 시 여러 지표들이 서로 밀접히 상관되어 있을 때 릿지 회귀를 쓰면 안정적인 예측이 가능하고, 화학 분야의 분광분석 데이터처럼 특징 변수가 수백 개 이상인 반면 표본 수는 한정적인 경우에도 릿지 회귀로 신뢰도 높은 추정이 가능합니다 (Ridge regression – Wikipedia) (Ridge regression – Wikipedia). 엔지니어링사회과학 데이터에서도 다중공선성이 문제시될 때 릿지 회귀는 간편하면서 효과적인 해결책으로 사용되었습니다.

3.2 라쏘 회귀: 변수 선택을 결합한 정규화

1990년대 중반에는 정규화 기법을 더욱 발전시켜 모델의 복잡도를 낮추는 동시에 불필요한 변수를 자동으로 제거하는 방법이 소개되었습니다. 그 대표가 라쏘 회귀(Lasso regression)로, 1996년 캐나다의 통계학자 **로버트 티브셔리니(Robert Tibshirani)**가 발표한 방법입니다 (Lasso (statistics) – Wikipedia). 라쏘는 “Least Absolute Shrinkage and Selection Operator”의 약자로, 이름에서 나타나듯 회귀계수들의 절댓값 합(L1 놈)에 패널티를 부과하여 계수를 shrinkage(작게 만듦)함과 동시에 일부 계수를 정확히 0으로 만들어 **변수 선택(feature selection)**을 수행합니다 (Lasso (statistics) – Wikipedia). 이는 릿지 회귀와 달리 **일부 변수의 영향력을 완전히 제외(계수를 0으로)**할 수 있다는 점이 핵심적인 차이입니다 (Lasso (statistics) – Wikipedia). 수식적으로 라쏘는 RSS+λ∑∣βj∣\text{RSS} + \lambda \sum |\beta_j|를 최소화하며, L1 패널티의 비선형성 때문에 해결된 계수 값 중 일부가 0이 되는 임계값 특성이 나타납니다. 이 결과 **모델이 보다 희소(sparse)**해지고 해석이 용이해지는 장점이 있습니다.

라쏘 회귀의 아이디어는 1980년대 중반 지구물리학 분야에서 유사한 L1 정규화를 사용한 시도가 있었고, 이를 티브셔리니가 독립적으로 재발견하여 통계학계에 널리 알렸습니다 (Lasso (statistics) – Wikipedia). 티브셔리니의 1996년 논문은 당시 이미 널리 쓰이던 릿지 회귀와 비교하여 라쏘의 변수선택 능력을 강조하였고, 결과적으로 라쏘는 고차원의 데이터 분석에서 표준 기법으로 자리잡았습니다. 라쏘의 등장은 딥러닝 이전 시대에 “데이터보다 변수가 많은 상황”을 다루는 혁신적 기법으로 받아들여졌고, 통계 모델링뿐 아니라 머신러닝에서도 **모델 규제(regularization)**와 특징 선택의 중요성을 재인식시키는 계기가 되었습니다.

라쏘 회귀의 데이터 특성 및 응용: 라쏘는 특히 변수 개수가 매우 많고 그중 일부만 의미 있는 경우에 유용합니다. 예를 들어 유전자 마이크로어레이 데이터유전체 데이터는 수천~수만 개의 특징(유전자 발현) 중 극히 일부만이 결과와 관계가 있는데, 라쏘 회귀를 사용하면 자동으로 관련 유전자를 선별하면서 예측모델을 구축할 수 있습니다. 경제 및 금융 분야에서도 수많은 거시경제 지표나 기술적 지표 중 중요한 요인을 골라내어 예측 모델을 단순화하는 데 라쏘가 활용되었습니다. 마케팅에서도 고객 특성변수가 매우 많을 때 라쏘를 적용하면 효과적인 고객 세분화 및 반응 예측 모델을 얻을 수 있습니다. 라쏘 회귀는 해석력이 높아 변수 선택 결과를 통해 도메인 지식을 얻기 쉽고, 이 때문에 학계 연구에서도 설명력 있는 모델을 구축하는 용도로 애용됩니다.

기법도입 시기대표 인물핵심 수학 기법특징 및 장점주요 응용 사례
선형 회귀19세기 초 (1805 등)가우스, 레전드르, 골턴최소제곱법 (LS)선형관계 가정, 해석 용이사회과학(키와 유전), 경제(소득-소비)
다항 회귀19세기 후반(자연발생적 발전)다항식 기반 선형회귀곡선관계 포착, 선형모델 확장물리(운동 궤적), 공학(반응 곡선)
로지스틱 회귀1940년대 개발, 1960년대 보급버크슨, 콕스로지스틱 함수 + MLE이진분류 확률 예측, Odds 해석의학(질병 예측), 마케팅(구매 예측)
릿지 회귀1970년호얼, 케난드L2 패널티 (가중치 감쇠)다중공선성 해결, 과적합 완화화학(분광분석), 경제(다중지표 예측)
라쏘 회귀1996년티브셔리니L1 패널티 (희소 해법)변수 선택 자동화, 모델 해석 용이생물정보(유전자 선택), 금융(요인 선정)

4. 서포트 벡터 회귀(SVR)의 등장

1990년대에 들어 머신러닝 이론의 발달과 함께, 회귀분석에도 통계학적 학습 이론이 접목된 새로운 기법들이 나타났습니다. 그 중 하나가 서포트 벡터 회귀(Support Vector Regression, SVR)로, 이는 분류용 알고리즘인 **서포트 벡터 머신(SVM)**을 회귀 문제에 적용한 것입니다. V. Vapnik을 비롯한 연구자들이 제안하여 1990년대 중반 (1996~1997년) 경에 처음 소개되었으며 (Support vector machine – Wikipedia), SVM의 최대마진 원리커널 트릭을 이용해 비선형 회귀를 구현한 것이 특징입니다.

SVR의 핵심 아이디어는 훈련 데이터 중 일부 “서포트 벡터”만이 회귀함수 결정에 기여한다는 것입니다. 일반 선형 회귀와 달리 SVR은 ϵ\epsilon-무감각 손실 함수(epsilon-insensitive loss)를 도입하여, 예측값이 실제값에서 ϵ\epsilon 이내로 떨어지는 오차는 무시하고 그 바깥의 오차만 패널티로 고려합니다. 이렇게 함으로써 일정 범위 이내의 작은 오차들은 모델 학습에 영향을 주지 않아 과적합을 방지하고, 대신 최대 마진을 확보하는 방향으로 회귀선을(혹은 회귀 초평면을) 찾게 됩니다. 또한 SVM과 동일하게 **커널 함수(kernel)**를 적용할 수 있어서, 입력 데이터를 고차원 특징공간으로 매핑한 후 선형 회귀를 수행하게 됩니다 (Support vector machine – Wikipedia). 그 결과, SVR은 비선형 관계를 커널에 의해 암묵적으로 반영하면서, 매우 복잡한 함수도 비교적 적은 수의 지원벡터로 표현할 수 있습니다. 예를 들어, RBF 커널을 사용한 SVR은 비선형 함수 형태의 회귀모델을 얻을 수 있으며, 이는 일종의 국소적 가우스 기반 회귀로 볼 수도 있습니다.

SVR의 수학적 배경과 특징: SVM의 이론적 배경인 **통계적 학습이론(Vapnik의 VC이론)**에 기반하여, SVR은 구조적 위험 최소화 원칙을 따른다는 특징이 있습니다 (Support vector machine – Wikipedia) (Support vector machine – Wikipedia). 이는 경험 오차뿐 아니라 모델 복잡도까지 고려하는 학습으로, 전통적 회귀의 경험적 위험 최소화(잔차제곱 최소화)와 대비됩니다. 최종 모형은 몇 개의 서포트 벡터 데이터 (xi,yi)(x_i, y_i)에 대해서만 f(x)=∑αiK(xi,x)+bf(x) = \sum \alpha_i K(x_i, x) + b 형태로 표현되며, 이 αi\alpha_i와 bb는 쿼드라틱 프로그래밍 최적화로 얻어집니다. 1990년대 후반 SVR이 제안된 이후, Alex SmolaBernhard Schölkopf 등이 2000년대 초반에 SVR에 대한 튜토리얼과 효율적 구현 방안을 발표하여 이 기법이 널리 전파되었습니다 (Support vector machine – Wikipedia).

SVR의 데이터 특성 및 응용: SVR은 주로 데이터의 표본 수는 비교적 적지만, 비선형적 관계가 존재하는 상황에 많이 사용되었습니다. 예컨대 소규모의 엔지니어링 실험 데이터에서 시스템의 복잡한 입력-출력 관계를 모델링하거나, 금융 분야에서 소수의 중요한 경제 지표로 주가나 환율의 단기 변동치를 예측하는 경우 등입니다. 커널 방법이기에 입력 차원이 높아도 성능이 좋았지만, 표본 수가 매우 많을 경우에는 학습 시간이 길어지는 한계도 있었습니다. 시계열 예측(예: 단기간의 기상예측이나 에너지 수요예측)에도 SVR이 활용되었고, 화학재료과학에서는 실험 조건 -> 결과 물성치 예측에 SVR이 쓰여 복잡한 과학현상을 데이터 기반으로 추정하는 데 기여했습니다. 다만 SVR 모델은 결과 해석이 어려운 “블랙박스”에 가깝고, 분류 SVM만큼 대용량 데이터에 효율적이지는 않아, 이후에는 주로 중소규모 데이터의 비선형 회귀 용도로 특화되어 사용되고 있습니다.

5. 앙상블 회귀 기법의 부상

5.1 랜덤 포레스트 회귀: 배깅과 결정트리의 앙상블

2000년대에 들어 머신러닝 분야에서는 앙상블 학습(ensemble learning)이 큰 주목을 받았습니다. 여러 약한 모델(weak learners)을 결합하여 강한 예측모델을 만드는 개념으로, 회귀 문제에도 적용되었습니다. 그 중 매우 성공적인 앙상블 방법이 **랜덤 포레스트(Random Forest)**입니다. 랜덤 포레스트는 **여러 결정트리(decision tree)**를 훈련하여 그 예측을 평균내는 배깅(bagging) 기법의 확장으로, **2001년 레오 브라이만(Leo Breiman)**이 동료 애델 컷틀러(Adele Cutler)와 함께 제안했습니다 (What is Random Forests? | Dremio). 브라이만은 그보다 약간 이른 1990년대에 배깅(Bootstrap aggregating)이라는 방법을 고안했는데, 이는 훈련 데이터를 부트스트랩 표본으로 여러 개 뽑아 각기 모델을 훈련시키고 결과를 평균하는 방식입니다. 랜덤 포레스트는 여기에 더해 트리를 만들 때 특징공간도 무작위로 부분 선택하는 아이디어(Ho 등 선행연구를 참고)를 도입하여, 상호상관이 적은 다수의 결정트리를 생성했습니다 (Random forest – Wikipedia). 이렇게 만들어진 다수의 트리 예측값을 평균내면, 단일 결정트리보다 예측력이 높고 과적합이 적은 강인한 회귀 예측기가 됩니다.

랜덤 포레스트의 특징: 단일 결정트리는 해석이 용이하고 비선형 관계를 자동 포착하는 장점이 있지만, 데이터에 조금만 변화가 있어도 나무 구조가 크게 바뀌는 불안정성이 있었습니다. 랜덤 포레스트는 여러 트리의 의견을 종합함으로써 이러한 불안정성을 상쇄하고, 안정적이면서도 강력한 예측 성능을 얻습니다. 또 각 노드 분할시에 무작위로 선택된 일부 변수만 고려하기 때문에, 정보가 매우 강한 일부 변수에 모든 트리가 집중되는 현상을 줄여 다양한 패턴을 학습합니다 (Random forest – Wikipedia) (Random forest – Wikipedia). 랜덤 포레스트는 분류와 회귀 모두에 사용되며, 회귀의 경우 최종 출력은 모든 트리 예측값의 산술평균으로 계산됩니다. 이 방법은 브라이만의 2001년 논문에서 체계적으로 기술되었고, 이후 머신러닝 실무에서 범용적으로 우수한 성능을 내는 알고리즘으로 널리 퍼졌습니다 (Random forest – Wikipedia).

랜덤 포레스트 회귀의 응용 분야: 랜덤 포레스트는 구조화된 표형 데이터(tabular data) 분석에서 뛰어난 성능과 사용 편의성 때문에 여러 분야에 걸쳐 활용됩니다. 의료 분야에서는 환자의 임상 정보로 **예후(생존기간)**를 예측하거나 질병 위험도를 산출하는 데 쓰였고, 금융 분야에서는 대출 신용점수 산정이나 주택 가격 예측 등에 활용되고 있습니다. 공학에서는 재료 조성 -> 물성치 예측, 제품 결함 예측 등에서, 마케팅에서는 고객 특성 -> 매출 또는 이탈률 예측 등 다양합니다. 랜덤 포레스트의 장점은 변수의 스케일 조정이나 분포 가정이 필요 없고 결측치나 이상치에도 비교적 강건하다는 점입니다. 또한 **변수 중요도(variable importance)**를 트리 분할 기준으로 계산하여 어떤 변수가 예측에 중요한지 제공해주므로, 설명력도 어느 정도 확보할 수 있습니다 (Random forest – Wikipedia) (Random forest – Wikipedia). 이러한 이유로 랜덤 포레스트는 실무자들과 대회(Kaggle 등) 참가자들이 애용하는 회귀 방법이 되었으며, **“기본기”**로 불릴 만큼 범용적인 모델로 자리잡았습니다.

5.2 그래디언트 부스팅 회귀: 부스팅을 통한 고성능 예측

배깅과 함께 **부스팅(boosting)**도 앙상블 학습의 양대 산맥으로 발전했습니다. 부스팅은 일련의 약한 학습기들을 순차적으로 학습시키되, 이전 모델이 오차를 많이 낸 부분을 다음 모델이 보완하도록 가중치를 조정하며 앙상블을 만드는 방법입니다. 부스팅 개념은 1990년대 중반 **요압 프렌드(Freund)**와 **로버트 샤피레(Schapire)**의 AdaBoost 알고리즘으로 처음 큰 주목을 받았는데, 이는 원래 분류용이었지만 회귀에도 곧 확장되었습니다. **그래디언트 부스팅(Gradient Boosting)**은 부스팅을 최적화 이론 관점에서 재해석하여, **잔차(residual)**에 순차적으로 새로운 모형을 피팅하는 방법이며, **제롬 프리드먼(Jerome Friedman)**에 의해 1999년경 도입되고 2001년 논문으로 정립되었습니다 (Gradient boosting – Wikipedia). 프리드먼의 아이디어는 회귀 문제에서 현재 모델의 잔차를 새로운 모델이 예측하도록 함으로써 오차를 점진적으로 줄여나가는 것이었고, 이를 일반화하여 임의의 미분가능 손실함수에 대해 부스팅을 적용할 수 있는 framework를 마련했습니다 (Gradient boosting – Wikipedia).

Gradient Boosted Trees (GBT): 특히 회귀나무(decision tree)를 약한 학습기로 사용하는 그래디언트 부스팅 결정트리(GBDT 또는 GBT)가 탁월한 성능을 보여, 분류뿐 아니라 회귀문제에서도 널리 사용되었습니다 (Gradient boosting – Wikipedia) (Gradient boosting – Wikipedia). GBT에서는 첫 번째 나무를 학습시켜 대략적인 예측을 얻은 후, 다음 나무는 첫 번째 나무의 오차(잔차)에 대해 학습하고, 이렇게 잔차의 잔차를 반복적으로 학습시키며 여러 나무를 더해가는 방식으로 최종 모델을 만듭니다. 이 과정이 마치 경사하강법이 함수공간에서 수행되는 것과 같아서 “그래디언트 부스팅”이라고 불립니다 (Gradient boosting – Wikipedia). 프리드먼의 논문 이후, 이 접근법은 다양한 변형과 개선이 이루어졌고 (예: 학습률(learning rate) 도입으로 과적합 방지, Stochastic GB로 일부 데이터 샘플링 사용 등), XGBoost(2014년, Chen & Guestrin)와 LightGBM 등 강력한 구현체들이 등장하면서 2010년대 머신러닝 경진대회를席권석(superior)했습니다.

그래디언트 부스팅 회귀의 응용: GBT 모델은 복잡한 비선형 관계와 상호작용 효과를 자동 포착하면서도 상당히 높은 예측정확도를 내기 때문에, 회귀 분석이 필요한 거의 모든 영역에 응용 사례가 존재합니다. 예를 들어 금융업에서는 수만 개 대출 데이터로 **신용위험도(예상 손실금액)**를 예측하는데 GBT가 사용되고, 마케팅에서는 광고 노출 대비 **매출 증대 효과(귀속 모델링)**를 추정하는 데 활용됩니다. 공학 분야에서는 유한원소해석 결과를 대체하는 서rogate 모델로 GBT를 써서 설계 최적화를 빠르게 수행하기도 하며, 의료 분야에서는 환자의 임상기록으로 입원 기간이나 재입원 가능성을 예측하는 등 다양합니다. 특히 카글(Kaggle) 등의 데이터 사이언스 대회에서는 2010년대 중반까지 XGBoost를 비롯한 GBT 계열 모델이 거의 모든 회귀/분류 대회에서 우승을 휩쓸 정도로 높은 성능을 보였고, 이는 이 기법의 범용적 우수함을 증명합니다.

6. 딥러닝 기반 회귀의 시대

2010년대에 들어 딥러닝(deep learning) 혁명이 일어나면서, 회귀분석의 패러다임에도 큰 변화가 찾아왔습니다. 딥러닝은 인공신경망(Artificial Neural Network, ANN)을 여러 층으로 깊게 쌓아 복잡한 패턴을 학습하는 기법으로, **막대한 양의 데이터와 강력한 계산 자원(GPU)**의 결합으로 비약적인 성능 향상을 이루었습니다. 사실 단층 신경망은 선형 회귀나 로지스틱 회귀와 근본적으로 유사하며, 1957년 **프랭크 로젠블랫(Frank Rosenblatt)**의 퍼셉트론 모델이 등장한 이래 오랫동안 연구되었으나, 20세기 후반 **역전파 알고리즘(Backpropagation, 1986년 럼elhart 등)**의 개발에도 불구하고 복잡한 문제에서는 한계를 보였습니다 (History of artificial neural networks – Wikipedia) (History of artificial neural networks – Wikipedia). **“AI의 겨울”**이라 불리는 시기를 지나, 2010년대 초반 대용량 데이터딥러닝 전용 하드웨어의 힘으로 **다층 신경망(DNN)**이 다시 부활했습니다. 그 계기가 된 사건 중 하나가 2012년 ImageNet 대회에서 AlexNet이라는 깊은 신경망이 기존 기법들을 큰 격차로 제치고 우승한 것입니다 (History of artificial neural networks – Wikipedia). 이 성공을 기점으로 음성인식, 컴퓨터비전, 자연어처리 등 여러 분야에서 딥러닝이 전통적 방법들을 대체하기 시작했고, 회귀분석 분야에서도 딥러닝 기반 회귀모델이 적극 도입되었습니다.

딥러닝 회귀의 개념: 딥러닝 기반 회귀란, 신경망의 최종 출력층을 선형 또는 적절한 활성화 함수로 구성하여 연속적인 숫자 값을 예측하는 모델을 뜻합니다. 예를 들어 다층 퍼셉트론에 MSE 손실함수를 두고 학습하면 이는 회귀 신경망이 됩니다. 딥러닝의 강점은 복잡한 고차원 입력으로부터 특징 추출과 예측을 통합적으로 학습한다는 점입니다. 전통적 회귀모델들은 사용 전에 연구자가 적절한 특징 변수를 선정하고 가공해야 했지만, 딥뉴럴네트워크(DNN)는 충분한 데이터만 있다면 원시 입력으로부터 유용한 표현(representation)을 학습하여 예측까지 수행합니다. 특히 이미지, 음성, 자연어처럼 구조가 복잡한 비정형 데이터의 경우 딥러닝 회귀모델이 탁월한 성능을 보여주고 있습니다. 예를 들어, 의료영상(CT, MRI 등)을 입력으로 받아 종양의 부피나 악성도 점수연속값으로 예측하는 모델이나, 위성영상으로부터 **토지의 식생지수(연속적인 환경 지표)**를 추정하는 모델은 딥러닝 회귀의 전형적 활용 사례입니다. 또한 시계열 데이터에 대해 **순환신경망(RNN)**이나 **변형된 RNN(LSTM, GRU)**을 사용하여 향후 값을 예측하는 딥러닝 시계열 회귀도 금융 시세 예측, 에너지 수요 예측 등에 활용됩니다.

딥러닝 회귀의 도전과 성과: 딥러닝 기반 회귀모델은 일반적으로 매우 많은 파라미터를 가지므로, 훈련에 많은 데이터와 계산비용이 필요합니다. 충분한 데이터가 없는 영역에서는 과적합 우려가 크지만, Dropout 정규화조기 종료(Early Stopping) 등의 기법, 그리고 **사전훈련(pre-training)**된 모델을 전이학습(Transfer Learning)하는 기법 등으로 문제를 완화하고 있습니다. 딥러닝 회귀는 이미 산업계에서도 활용이 활발하여, 예를 들어 자율주행차에서는 카메라 영상으로부터 **객체까지의 거리(연속 값)**를 신경망이 추정하거나, 추천 시스템에서 사용자와 아이템 특성을 입력으로 선호도 점수를 예측하는 데에도 사용됩니다. 과학계에서도 기상 데이터로 기온 변화 예측, 입자 가속 실험데이터로 이론 모수 추정 등 딥러닝을 이용한 회귀 분석이 새로운 연구 수단이 되고 있습니다. 딥러닝의 등장으로 회귀분석은 이제 전통적 통계 기법에서 딥러닝 AI 모델까지 포괄하는 개념이 되었고, 분석가들은 문제의 성격(데이터 크기와 복잡도)에 따라 선형 회귀부터 복잡한 딥러닝에 이르는 다양한 회귀 도구를 선택하게 되었습니다.

7. 회귀 기법들의 비교 및 결론

이상으로 살펴본 바와 같이, 회귀분석은 골턴 시대의 단순 모델에서 출발하여 현대의 복잡한 머신러닝 모델에 이르기까지 지속적으로 발전해왔습니다. 그 발전의 궤적을 정리하면 (1) 선형성 가정의 완화와 비선형 모델의 도입, (2) 고차원 문제에 대한 정규화와 변수선택 기법의 개발, **(3) 통계이론과 컴퓨팅의 발전으로 인한 새로운 모델 (커널법, 앙상블, 심층신경망)**로 요약할 수 있습니다. 아래 표는 앞서 다룬 주요 회귀 기법들을 시대순으로 정리하고, 각 기법의 특징과 적용 분야를 비교합니다.

시대주요 회귀 기법대표 인물특징 요약적용 데이터 및 분야
19세기 후반평균으로의 회귀 개념, 초기 선형회귀 모델F. Galton, K. Pearson부모-자식 간 특성 연구에서 회귀 개념 도입 (Regression toward the mean – Wikipedia) (Regression toward the mean – Wikipedia); 최소제곱법에 의한 선형 적합작은 표본 (수백명 미만 인체측정, 사회 통계) -> 생물학, 사회과학 연구
20세기 전반다중선형회귀의 확립, 로지스틱 회귀의 도입프랭크 얀, 조지 얜츄 등; J. Berkson, D. Cox여러 변수 포함 선형모델 일반화; 이진결과에 로지스틱 함수 적용 (logit 개념 등장) (Logistic regression – Wikipedia)중간 표본 (수천 건 설문/실험) -> 경제학(회귀분석 붐), 의학/생물(이진 예측)
1970년대릿지 회귀 등 정규화 기법 시작A. Hoerl, R. Kennard과적합 완화 위해 계수에 L2패널티 (Ridge regression – Wikipedia); 다중공선성 문제 해결, 해석력↓ (모든 변수 기여)다중공선성 심한 데이터 -> 경제(거시지표 회귀), 공학(신호 처리)
1980~90년대라쏘 회귀 등 희소 모델링; SVM/SVR의 등장R. Tibshirani; V. VapnikL1패널티로 변수선택 가능 (Lasso (statistics) – Wikipedia); VC이론 기반 마진 최대화 회귀(SVR) (Support vector machine – Wikipedia)고차원 희소 데이터 (유전체 등); 비선형 관계 데이터 (커널 적용 분야)
2000년대앙상블 학습 부상 – 랜덤포레스트, 그래디언트 부스팅L. Breiman; J. Friedman다수의 결정트리 배깅으로 안정적 예측 ([What is Random Forests?Dremio](https://www.dremio.com/wiki/random-forests/#:~:text=History)); 잔차에 순차 학습하는 부스팅으로 고정밀 예측 (Gradient boosting – Wikipedia)
2010년대 이후딥러닝 회귀 (심층신경망)G. Hinton, Y. LeCun, Y. Bengio 등대량 데이터로 신경망 학습, 자동 특징 추출 및 고차원 비선형 회귀; 이미지/시계열 등 비정형 데이터도 직접 다룸 (History of artificial neural networks – Wikipedia)초대규모 데이터 (수백만 샘플) -> 컴퓨터 비전(의료영상), 딥러닝 예측모델 (날씨, 에너지 등)

결론적으로, 회귀분석은 통계학의 고전적 방법론에서 출발하여 현대 데이터과학의 핵심 알고리즘으로 진화해 왔습니다. 고전적인 선형 회귀와 로지스틱 회귀는 여전히 해석력과 단순성 덕분에 널리 쓰이고 있으며, 릿지라쏘 같은 정규화 기법은 고차원 데이터 시대에 필수적인 도구가 되었습니다. SVR과 같은 커널 방법은 특수한 비선형 문제에 활용되고, 랜덤 포레스트부스팅 기법은 뛰어난 실용 성능으로 산업계 표준 모델이 되었습니다. 마지막으로, 딥러닝 기반 회귀는 이미지나 음성처럼 복잡한 데이터까지 포섭하면서 회귀분석의 응용 범위를 극대화하였고, AI 시대에 걸맞는 예측력의 극대화를 이루었습니다. 실무에서는 이들 기법을 상호보완적으로 활용하는 경우가 많습니다. 예컨대, 먼저 라쏘 회귀로 변수를 줄인 뒤 XGBoost로 예측하거나, 선형 회귀로 추세를 파악한 후 딥러닝으로 미세 패턴을 예측하는 식입니다. 이렇듯 회귀분석의 각 접근법은 시대별로 탄생한 배경과 강점이 다르며, 데이터 과학자는 문제에 맞춰 적절한 회귀 기법을 선택하게 됩니다. 회귀분석의 발전사는 통계학과 머신러닝의 발전과 맥락을 같이하며, 오늘날에도 새로운 방법론 (예: 베이지안 회귀, 캐쥬얼 포레스트 등)이 지속적으로 연구되고 있습니다. 하지만 그 근간에는 골턴이 밝혔던 “평균으로의 회귀” 원리선형 모델의 직관이 자리잡고 있으며, 이는 미래의 회귀기법들에서도 여전히 유효한 통찰로 남아 있을 것입니다.

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다