[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]
김정훈 교수(좌측)과 김다희 연구원/사진=UNIST
수백만 개의 관계가 얽힌 네트워크에서 내가 관심 있는 사람이나 대상을 중심으로 의미 있는 집단만 골라내는 기술이 개발됐다.
울산과학기술원(UNIST) 컴퓨터공학과 김정훈 교수팀은 사용자가 지정한 대상을 반드시 포함하면서도 정해진 크기 안에서 의미 있는 집단만 찾아내는 새로운 커뮤니티 탐색 알고리즘을 개발했다고 28일 밝혔다.
'커뮤니티 탐색'이란 SNS(소셜미디어) 팔로우 관계, 금융 거래 내역, 단백질 상호작용처럼 수많은 점(노드)과 선(엣지)으로 이뤄진 네트워크에서 서로 긴밀하게 연결된 집단을 찾아내는 기술이다. 마케팅에서는 핵심 고객군을, 금융에서는 사기 의심 계좌와 연결된 계정 집단을, 바이오에서는 특정 단백질과 관련된 관계망을 파악하는 데 쓰인다.
기존 기술은 네트워크 전체 데이터를 한꺼번에 확보해야 작동하거나, 관계가 느슨한 대상까지 집단에 포함하는 문제가 있었다. 개인정보 보호 문제로 일부 관계만 볼 수 있는 현실에서는 쓰기 어려웠다.
연구팀이 개발한 기술은 사용자가 지정한 노드에서 출발해 주변 후보를 하나씩 확인하며 집단을 넓혀가는 방식으로 작동한다. 후보를 추가했을 때 집단 전체의 응집도가 높아지는지를 계산하고, 집단이 불필요하게 커질수록 점수가 쉽게 오르지 않도록 크기 조건도 함께 반영한다. 쉽게 말해 "이 사람을 넣으면 집단이 더 탄탄해지는가"를 매번 따져가며 구성원을 선별하는 것이다. 혼자 보면 눈에 띄지 않지만 묶였을 때 집단의 성격을 더 선명하게 만드는 후보들은 주변의 작은 묶음 단위로 함께 살펴보는 방식으로 보완했다.
실제 네트워크 데이터를 활용한 실험에서 이 알고리즘은 기존 최고 성능 기법보다 정확도(F1 점수) 기준 최대 1.39배, 군집 일치도(ARI 점수) 기준 최대 5.95배 높은 성능을 보였다. 찾고자 한 집단을 더 정확하게 골라내면서 관계가 약한 대상은 덜 포함했다는 의미다.
김정훈 교수는 "현실에서는 네트워크 전체 데이터를 한 번에 확보하기 어렵고, 필요한 집단의 규모도 대개 정해져 있다"며 "고객군 분석, 이상거래 탐지, 단백질 관계망 분석 등 다양한 분야에 실질적으로 적용할 수 있을 것"이라고 말했다. 이번 연구에는 김다희 UNIST 연구원이 제1저자로 참여했으며, 한국연구재단의 지원을 받아 수행됐다.