헤매어도 한 걸음씩

Autonomous AI - Torque Clustering 알고리즘 본문

ML&DL

Autonomous AI - Torque Clustering 알고리즘

ritz 2025. 2. 15. 22:34

 

구독 중인 뉴스레터를 통해 Torque Clustering 알고리즘을 알게 되어, 관련 자료 및 논문을 읽고 정리한 글 입니다. 

해당 뉴스레터 : 물리학의 원리로 푸는 AI의 미래 - 사람의 개입이 없는 완전 자율 학습 모델의 발견
논문 : Autonomous clustering by fast find of mass and distance peaks
 

물리학의 원리로 푸는 AI의 미래 - 사람의 개입이 없는 완전 자율 학습 모델의 발견

AI 혁신의 새 장! 호주 UTS 연구팀의 ‘Torque Clustering’ 알고리즘이 자율 학습의 한계를 뛰어넘습니다. 우주의 물리 원리를 AI에 접목해 97.7% 정확도를 기록한 이 혁신 기술을 지금 확인하세요!

news.aikoreacommunity.com

 


 

Clustering 이란 

Torque Clustering 을 설명하기 앞서 Clustering 에 대해 예시를 들어 간단히 설명해 보겠습니다.

글또의 데이터/AI 반상회에 갔을 때, 공통 관심사를 가진 그룹으로 모여있는 모습을 볼 수 있습니다. LLM에 관심 있는 그룹, 커리어 패스에 관심 있는 그룹 등등... 이렇게 비슷한 특성을 가진 데이터들을 자연스럽게 그룹화하는 것이 Clustering 입니다. 현재 가장 많이 사용되는 Clustering 방법으로는 K-Means, DBSCAN, Hierarchical Clustering 등이 있습니다. 하지만 이러한 방법들은 모두 사람이 미리 정해둔 기준이 필요합니다. 예를 들어,

  • 몇 개의 그룹으로 나눌지
  • 그룹 간 최소 거리는 얼마로 할지
  • 한 그룹에 최소 몇 개의 데이터가 있어야 할지 등등...

이런 기준값들을 잘못 설정하면 엉뚱한 결과가 나올 수 있습니다. 예시로 "모델"이라는 키워드를 가지고, AI 모델과 관련된 그룹이 아닌 의류 도메인의 그룹으로 잘못 분류되는 경우가 있을 수 있는데요, 논문에선 기존 클러스터링 알고리즘의 문제점을 아래와 같이 정리했습니다. 

  • 고정된 파라미터 필요 : 대부분의 클러스터링 알고리즘은 사전에 클러스터 개수를 설정해야 하거나, 밀도 임계값을 지정해야 함
  • 고차원 데이터에서의 성능 저하: 기존 방법들은 고차원 데이터에서 성능이 떨어지는 경향이 있음
  • 노이즈와 이상치(Outlier) 에 취약: 많은 알고리즘이 이상치에 민감하여 정확한 클러스터링을 수행하기 어려움
  • 계산 복잡도 : 대규모 데이터 세트에서 기존 방법들은 높은 계산 비용을 요구함

논문에선 이러한 문제를 해결하기 위해 Torque Clustering(TC) 이라는 새로운 클러스터링 알고리즘을 제안합니다.

 

 

Torque in Clustering

Torque Clustering 은 물리학 기반 알고리즘이므로 간단히 정리해 봤습니다. 학문적 개념보다는 실제로 클러스터링에서 어떻게 활용되는지를 중점적으로 설명했으며, 논문을 이해하기 위해 이 개념을 분리하는 것이 개인적으로 어려웠습니다.🥲

 

정리하자면 Torque(토크)는 물리학에서 사용되는 개념으로, 물체가 회전하려는 경향을 측정하는 값입니다. 하지만 Torque Clustering에서는 회전력 자체보다는 질량과 거리의 관계를 활용하여 데이터 간 연결 강도를 평가하는 데 초점을 맞춥니다.

 

토크는 아래와 같이 정의됩니다.

토크(τ) = 질량(M) × 거리의 제곱(D)

- M(질량) = 두 클러스터에 포함된 데이터 포인트 수의 곱

- D(거리) = 두 클러스터 간 거리의 제곱

 

따라서 토크값이 크다는 것은 두 클러스터가 많은 데이터 포인트를 포함하고 있고(큰 M), 동시에 서로 멀리 떨어져 있다(큰 D)는 것을 의미합니다. Torque Clustering은 이러한 물리적 원리를 데이터 분석에 적용하여 큰 토크값을 가진 연결을 비정상 연결로 판단하고, 비정상 연결을 제거하여 의미 있는 클러스터를 형성합니다. 

 

예시로, 여러 개의 별들이 중력에 의해 상호작용하며 은하를 형성하는 과정을 떠올릴 수 있습니다. 서로 강하게 끌어당기는 별들은 하나의 은하로 합쳐지고, 서로 멀리 떨어진 별들은 독립적인 은하로 남아 있게 됩니다. Torque Clustering은 이런 자연적인 분류 원리(질량과 거리의 조합)를 데이터 클러스터링에 적용한 방식입니다.

 

Torque Clustering 이란

Torque Clustering은 물리학적 원리를 기반으로 한 새로운 Clustering 기법입니다. 시드니 공과대학(UTS) 연구진이 은하의 병합 과정에서 영감을 받아 개발했는데요, 기존 K-Means나 DBSCAN과 같은 전통적인 클러스터링 알고리즘이 데이터의 거리나 밀도를 기반으로 그룹을 형성하는 반면, Torque Clustering은 시스템 내에서 발생하는 토크 또는 회전력을 활용하여 데이터의 패턴을 자동으로 찾아냅니다.(=Autonomous AI, 자율 AI)

즉, 데이터 포인트들이 서로에게 영향을 미치는 방식(힘과 회전력)을 고려하여 클러스터를 형성하는 방식으로, AI가 독립적으로 패턴을 찾아낼 수 있도록 도와줍니다.

 

기존의 지도 학습 방식에서 벗어난 Torque Clustering 이 가지는 기존 알고리즘과의 차이점은 아래와 같습니다. 

  1. 자연의 법칙을 따름 (물리학적 원리 적용)
    • 자연, 동물이 명시적인 지시 없이 관찰과 상호작용을 통해 학습하는 것처럼, 데이터 자체의 자연스러운 특성을 활용합니다.
    • 데이터 포인트들이 서로에게 영향을 미치는 방식을 물리적인 힘과 회전력으로 모델링합니다.
    • 질량과 거리라는 자연의 두 가지 기본 속성을 활용하여 복잡한 패턴도 효과적으로 파악합니다.
  2. Unsupservised Learning 방식 강화
    • 기존 클러스터링 알고리즘과 마찬가지로 비지도 학습에 속하지만, 한 단계 더 나아갔습니다.
    • 별도의 거리(metric)나 데이터의 분포를 직접 설정하지 않고도 데이터의 자연스러운 관계를 찾아낼 수 있습니다
    • 즉 사전 파라미터 설정이 필요 없어, 주관적 판단에 의한 오류를 줄일 수 있습니다.
  3. 고성능과 범용성
    • 고차원 데이터에서도 강력한 성능을 보여줍니다. 
    • 1,000개의 다양한 데이터셋에서 97.7%의 평균 AMI 점수를 달성했습니다.
    • 다양한 형태와 크기의 데이터에 유연하게 적용할 수 있습니다. 또 기존 방식들보다 더 자연스러운 데이터 그룹화가 가능합니다.
  4. 자율성 향상
    • 인간의 개입이 최소화되어 있습니다.
    • 기존의 지도 학습 방식에서 벗어나 더 적은 데이터로도 높은 정확도를 달성할 수 있습니다.
    • AI가 독립적으로 패턴을 찾아낼 수 있도록 합니다.

 

4. 실험 및 성능 비교

TC는 20개의 데이터 세트(이미지 인식, 생물학, 의료, 물리학, 천문학 분야)에서 평가되었으며, 기존 19개의 최신 클러스터링 알고리즘과 비교되었습니다.

 

정확도

  • 15개 데이터 세트에서 기존 알고리즘 대비 최고 성능을 기록
  • 기존 자동 클러스터링 알고리즘이 10개의 데이터 세트에서 정확한 클러스터 개수를 찾은 반면, TC는 15개에서 정확히 찾아냄

고차원 이미지 데이터에서도 강력한 성능

  • Deep Clustering(딥러닝 기반 클러스터링)보다 성능이 동등하거나 우수함
  • 특히 CMU-PIE, COIL-40, UMIST 데이터 세트에서는 최신 딥러닝 클러스터링 기법을 능가하는 결과를 기록

RNA-seq 데이터의 클러스터링 결과
Atom 데이터셋에서 핵심과 외곽을 올바르게 구분한 결과

 

속도 비교

  • TC는 대부분의 기존 알고리즘보다 빠르게 클러스터링을 수행
  • K-Means++을 제외하면 가장 빠른 성능을 보이며, 평균 실행 시간에서 기존 계층적 클러스터링 방법보다 우수함

 

 

활용 가능성

Torque Clustering 의 가장 큰 장점은 다양한 분야에서 인간의 개입 없이 AI가 데이터 패턴을 스스로 발견한다는 것입니다. 활용할 수 있는 대표적인 분야는 다음과 같습니다.

 

의료 및 생명과학 

  • 질병 패턴 감지 : 환자의 증상 데이터를 자동으로 군집화하여 새로운 질병 유형 발견
  • 유전자 데이터 분석 : 유사한 특성을 가진 유전자 그룹 자동 분류
  • 의료 영상 분석 : 비슷한 특성을 가진 영상들의 자연스러운 그룹화

금융 분야 

  • 이상 거래(사기) 탐지: 비정상적인 금융 거래 패턴 자동 감지
  • 고객 세그먼테이션: 유사한 금융 행동을 보이는 고객 그룹 분류
  • 시장 분석: 유사한 움직임을 보이는 금융 상품 그룹화

데이터 마이닝

  • 대규모 데이터에서 숨겨진 패턴을 찾아낼 수 있습니다. 

로보틱스

  • 로봇이 환경을 스스로 학습하고, 다양한 작업 수행을 위한 최적의 동작 패턴을 찾아낼 수 있습니다. 특히, 자율 주행 로봇이나 산업용 로봇에서 실시간 데이터 분석을 통해 상황에 적응하는 데 활용될 수 있습니다.

 


마치며

우주를 좋아해서 재밌게 읽기 시작했지만 실제 적용 가능성에 대한 부분이나 기존 알고리즘과의 비교가 부족하다고 느꼈습니다. 관련 자료를 찾다 보니 다소 과장된 면이 있는 것 같아(아래 기사 제목을 보면...) 점점 더 비판적으로 보게 된 것 같아요. 또 97.7%의 정확도가 낮은 수치는 아니지만, 2.3%가 많은 것을 차지한다고 생각합니다. LLM을 포함하여 일반적인 AI 모델은 0.5% 미만의 손실을 목표로 최적화되기 때문에, 이러한 오차율이 실제론 어떤 영향을 미치는지 더 연구가 필요할 것 같습니다. 개인적으로는 로보틱스 분야에서의 활용 가능성이 높아 보이는데, 실제 적용 사례가 나오면 더 신뢰할 수 있을 것 같습니다!!

 

참고 자료