Logo
IT/과학

위상수학적 데이터 분석법, TDA의 핵심 아이디어

목차 📚

📌 먼치 POINT

TDA의 개념
- 데이터는 으로 표현
- 다만, 수치의 개수만큼 차원이 커짐
- 고차원은 볼 수 없으므로, 데이터의 베티값을 구하고, 이로부터 데이터의 모양을 역추정

TDA 방식의 특징
- 차원을 줄여 데이터를 눈에 보이게 하는 기존의 방식
- TDA는 차원을 그대로 두며, 데이터의 모양이나 공간 구조를 유추
- 위상학적 관점으로는 모양이나 개념 부여 가능

TDA의 역할
- 노이즈의 유무 없이 정확한 판단이 필요
- 글로벌한 정보를 조망하는 형태
- 데이터에 어떤 모양을 부여할 지가 TDA기술의 핵심


데이터를 점으로 이해하는 새로운 관점

데이터라는 것은 우리 주변 어디에나 있지만, 사실 데이터는 점으로 이해할 수 있습니다. 예를 들어 사람들의 키, 몸무게, 나이 등을 수치로 표현한다면, 그 수치들의 정보가 여러 개 있게 됩니다. 그 수치의 개수만큼 어떤 차원의 점의 좌표를 가지게 되는 것입니다. 한 사람의 정보만 하더라도 키, 몸무게, 나이, 팔둘레, 가슴둘레 등만 해도 이미 5개의 좌표가 필요하므로 5차원 공간에 있는 점 하나가 됩니다. 

이처럼 차원이 엄청나게 커지게 되는데, 위상 분석이 어려운 이유는 우리가 3차원 공간에 살고 있기 때문에 그 고차원이 눈에 보이지 않기 때문입니다. 단지 짐작만 할 뿐이지 실제로는 보이지 않습니다. 데이터도 마찬가지로 그런 고차원에 존재하는 점이기 때문에 눈에 보이지 않습니다. 이런 데이터의 베티수 값을 구하고, 그 베티수의 값으로부터 이 데이터의 모양이 어떻게 생겼는지 역으로 추정하는 아이디어를 적용할 수 있습니다. 바로 이 아이디어가 위상적 데이터 분석(TDA)의 가장 기본적인 개념입니다.

실제 적용 사례: 농구 선수 데이터 분석 🏀

농구 선수 100명이 있다고 가정해봅시다. 각 선수의 뛰는 속도, 점프 높이, 손으로 내는 힘 등을 측정하는 50개 정도의 파라미터가 있다면, 각 선수는 50차원의 한 점이 됩니다. 또 다른 선수는 50차원의 또 다른 점이 될 것이고, 100명의 선수를 모두 찍어놓고 나면 거기서 패턴이 보이기 시작합니다. 몇몇 선수들을 한 그룹으로 묶습니다. 어떤 선수들은 수비에, 어떤 선수들은 공격에 최적화된 특성을 보입니다. 

이렇게 분류가 되면 각 선수들에게 포지션을 자동으로 할당할 수 있게 됩니다. 감독이 전략을 세울 때도 데이터가 특정 영역에 몰려 있는 선수들은 여유 있을 때 투입하면 좋고, 다른 영역의 선수들은 급한 상황에서 역량을 발휘하는 식으로 활용할 수 있습니다. 이처럼 데이터 점들이 어떻게 모여 있는지의 구조가 전략을 결정할 수 있게 되므로, 데이터를 점으로 보는 것은 굉장히 유용한 접근법입니다.

기존 데이터 분석법과 TDA의 차이점

데이터 분석에서 가장 핵심적인 부분은 고차원을 어떻게 눈에 보이게 하느냐 하는 것입니다. 기존의 데이터 분석에서는 차원을 줄이는 방향으로 접근해왔습니다. 아무리 고차원에 있는 점들이 있더라도 이 중에서 핵심이 되는 차원을 찾아내어 선형 수학 등을 적용해서 차원을 줄여 눈에 보이는 데이터로 만들어내는 것이 통계학의 중요한 기술이었습니다.

기존의 통계 분석이 차원을 줄여서 눈에 보이게 한다면, TDA는 차원을 줄이는 것이 아니라 그 차원을 그대로 두면서 그것들의 모양이나 공간 구조를 유추하여 분석을 진행합니다. 기존의 데이터 분석은 주로 회귀분석을 통한 상관관계 발견, 클러스터링을 통한 군집화, 또는 차원 축소를 통한 시각화에 중점을 두었습니다.

위상수학에서의 TDA

위상 수학에서는 한 걸음 더 나아갈 수 있습니다. 데이터가 원형이나 Y자 형태로 생겼다면 그것도 분명 의미가 있을 것입니다. 그런 모양을 가진다는 것은 보통 일이 아니기 때문에 분명 어떤 의미가 있을 것인데, 기존의 통계적인 방법으로는 원형인지 Y자형인지 판단할 수 있는 방법이 없었습니다. 점의 좌표의 평균이 모두 가운데이기에 평균적인 위치만 보면 Y와 O를 구분하는 것이 불가능하기 때문입니다.
위상수학적인 방법을 사용해서 베티수를 이용하면 좀 더 위상적인 관점에서의 모양이나 개념을 부여할 수 있습니다. 그 의미가 분명히 있을 것이므로 그 데이터적인 의미가 무엇인지 알아나가는 과정이 바로 TDA의 과정입니다.

TDA가 주목받게 된 사례 🖼️

최근 AI나 데이터 분석 기술이 급격하게 발전하면서 TDA의 필요성이 부각되었습니다. 2014년에 굉장히 유명한 사례가 있었습니다. 어떤 인공지능을 만들어서 판다 그림을 보여주었을 때 '판다'라고 판단할 수 있는 AI를 개발했습니다. 오른쪽 그림과 같이 약간의 노이즈를 추가했을 때, 사람은 노이즈의 유무에 상관없이 거의 같은 그림으로 보고 동일하게 판다라고 인지합니다. 

그런데 왼쪽 그림을 보고 판다라고 판단하던 인공지능이 노이즈를 섞으니까 갑자기 그것을 '긴팔 원숭이'라고 판단하는 현상이 관찰되었습니다. 분명 왼쪽 그림을 보고는 판다라고 하던 AI가 갑자기 엉뚱한 이야기를 하니까 왜 그런가 하는 질문을 해야 했습니다. 

당시 과학자들이 가장 의아해했던 부분은 사람이 봤을 때는 왼쪽 그림과 오른쪽 그림의 차이가 거의 없는데 왜 AI는 이를 다르게 분석했을까 하는 것이었습니다. 당시 AI 기술을 만들 때 이 그림의 국소적인 정보만을 가지고 학습을 했기 때문입니다. 학습을 시키는 방법이 그림의 부분 부분만을 보여주면서 그림의 특징을 찾아내라고 하는 것이었으므로, 노이즈가 섞이면 국소적인 정보가 변해서 똑똑하던 AI가 갑자기 이상한 판단을 하게 된 것입니다.

TDA의 역할

사실 우리 인간은 그 그림을 보면 판다라고 판단합니다. 왜냐하면 우리는 그림 전체를 보기 때문입니다. 인공지능을 향상시키려면 국소적인 정보만을 보는 것이 아니라 글로벌한 정보를 줄 필요가 생겼습니다. 우리 위상 수학이 사실은 글로벌한 정보를 다루는 학문입니다. 높은 곳에서 먼 곳을 조망하는 학문이라고 할 수 있습니다. 데이터도 이렇게 밖에서 글로벌한 정보를 볼 수 있으면 성능이 좋아질 것이라고 생각하는 것이 굉장히 자연스럽습니다. 그래서 TDA를 적용하는 것이 의미가 생긴 것입니다.

TDA의 핵심 기술과 모양 정의

TDA가 어떤 식으로 정보를 분석하는지 좀 더 자세히 살펴보면, 데이터가 가지는 모양이라는 개념부터 먼저 정의해야 합니다. 데이터는 사실 점들이므로 하나하나만 봤을 때는 별로 의미가 없지만, 약간 멀리서 보면 데이터들이 어떤 구름처럼 모양을 이루게 됩니다. 

그 모양이 무슨 모양인지를 알고 싶은 상황인데, 다시 한 번 말하지만 눈에 보이지는 않습니다. 모양을 줄 수 있는 방법은 무궁무진하게 많습니다. TDA를 연구하거나 TDA를 사용해서 모델을 개발하는 사람들은 결국 자신이 가지고 있는 데이터에 어떤 모양을 줄 것인가 하는 것이 TDA 기술의 핵심이라고 볼 수 있습니다.

마무리하며

위상수학적 데이터 분석법(TDA)은 기존의 통계 분석법이 가진 한계를 극복하고, 데이터의 글로벌한 구조와 모양을 파악할 수 있는 새로운 접근법입니다. 고차원 데이터를 점으로 이해하고, 그 점들이 이루는 위상적 구조를 분석함으로써 기존 방법으로는 발견할 수 없었던 패턴과 의미를 찾아낼 수 있습니다. AI 기술의 발전과 함께 더욱 중요해진 TDA는 앞으로 다양한 분야에서 혁신적인 데이터 분석 도구로 활용될 것으로 기대됩니다.


Created by 카오스 사이언스
CC BY 라이선스 / 교정 SENTENCIFY / 에디터 하윤아

thumbnail

카오스 사이언스

유튜브 구독자 27.4만명

팔로워 11명

주식회사 북엔드
대표: 최현수 | 사업자 등록번호: 602-86-03073
주소: 대전광역시 유성구 대학로 155번길 4,
대전 스타트업파크 S1 308호