비지도 학습과 인간 활동 인식: K-Means를 활용한 클러스터링 실험

머신러닝의 세계에서 지도학습과 비지도학습은 서로 다른 목적과 접근법을 가진 두 가지 중요한 축을 형성한다. 지도학습이 이미 알려진 정답(라벨)을 활용해 모델을 훈련시키는 방식이라면, 비지도학습은 정답이 없는 상태에서 데이터 자체의 구조와 패턴을 찾아내는 데 초점을 맞춘다. 이번 글에서는 비지도학습의 대표적인 기법인 K-Means 클러스터링을 인간 활동 인식 데이터셋에 적용한 과정을 중심으로 이야기해보고자 한다.


활동 인식 데이터와 라벨

활동 인식 데이터셋은 스마트 기기나 센서를 통해 수집된 가속도, 자이로스코프 등 수많은 피처로 구성된다. 이 데이터의 ‘정답지’에 해당하는 라벨은 보통 사람이 어떤 행동을 했는지를 나타낸다. 예를 들어 앉기(STANDING), 걷기(WALKING), 눕기(LAYING) 등이다. 그러나 비지도학습에서는 이 라벨을 학습 과정에 사용하지 않는다. 대신 데이터의 패턴을 스스로 찾아내도록 두고, 이후 클러스터링 결과를 실제 라벨과 비교해 평가한다.


K-Means의 원리

K-Means는 주어진 데이터를 k개의 그룹으로 나누는 알고리즘이다. 초기 중심점을 설정한 뒤, 각 데이터 포인트를 가장 가까운 중심점에 할당하고, 다시 중심점을 재계산하는 과정을 반복한다. 이 과정을 통해 군집은 점차 응집되고, 데이터는 내재된 구조에 따라 분류된다. 문제는 ‘k를 몇 개로 설정할 것인가’이다. 엘보우 기법(Elbow Method)을 통해 적절한 k를 찾는 것이 일반적이다. 이는 클러스터 내 응집도(inertia)의 변화를 관찰하며, 더 이상 급격히 감소하지 않는 지점을 선택하는 방식이다.


실험과 성능 측정

인간 활동 인식 데이터에서 활동 라벨을 제거한 뒤, 나머지 피처들만으로 K-Means를 실행했다. 클러스터의 개수는 실제 활동 라벨 수에 맞추어 설정했다.

결과적으로, homogeneity, completeness, v-measure 등 다양한 지표에서 약 0.55~0.58 수준의 점수가 나왔다. 이는 절반 이상은 올바른 활동 그룹에 가까운 형태로 분류되었음을 의미하지만, 완전히 명확하게 구분되지는 못했다는 점도 보여준다. 특히 silhouette score가 0.11 수준으로 낮게 나타나, 클러스터 간의 경계가 뚜렷하지 않음을 알 수 있었다.

이러한 결과는 인간 활동 인식 데이터가 피처 차원 수가 매우 많고, 활동 간의 패턴 차이가 생각보다 복잡하다는 점을 시사한다. 단순한 거리 기반 분류만으로는 충분한 설명력이 확보되지 않는 것이다.


차원 축소와 PCA의 역할

이 시점에서 중요한 전략 중 하나는 **PCA(주성분 분석)**를 통한 차원 축소다. 데이터의 주요 변동성을 설명하는 몇 개의 축으로 투영하면, 불필요한 노이즈가 줄어들고 데이터 간의 구조가 더 명확하게 드러날 수 있다. 실제로 PCA를 적용하면 클러스터링 속도가 크게 향상될 뿐 아니라, 시각화를 통해 각 활동 그룹의 분포를 더 직관적으로 확인할 수 있다.


인사이트와 시사점

이번 실험은 단순히 K-Means가 얼마나 잘 작동하는지를 확인하는 차원을 넘어, 비지도학습이 실제 문제에서 어떻게 해석될 수 있는지를 보여준다. 라벨을 모른 채 군집화를 진행했음에도 불구하고, 일정 수준의 구조가 드러난다는 점은 데이터 자체의 패턴이 상당히 강력하다는 증거다. 그러나 동시에 낮은 silhouette score는 비지도학습만으로는 충분히 정밀한 활동 인식을 기대하기 어렵다는 점을 보여준다.

이런 한계를 보완하기 위해서는 차원 축소 기법, 다른 군집화 알고리즘(DBSCAN, Gaussian Mixture 등), 혹은 지도학습 모델과의 혼합 접근을 고려할 필요가 있다. 결국 핵심은 데이터를 다양한 각도에서 분석하며, 단일 알고리즘에 의존하지 않고 상황에 맞는 기법을 융합하는 것이다.


인간 활동 인식 문제는 비만 예방과 같은 건강 관리 영역에서 중요한 역할을 할 수 있다. 신체 활동을 정확히 추적하고 분류할 수 있다면, 개인 맞춤형 운동 관리나 생활 습관 개선에 활용될 수 있기 때문이다. K-Means는 이 과정에서 데이터의 내재된 구조를 탐색하는 유용한 출발점이 될 수 있다.

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다