한양대학교 공과대학

대한민국 기술 현실화의 산실

홈으로 교수연구성과

연구성과

게시물 상세내용
컴퓨터전공 김상욱 교수 -빅데이터 분석 기술 개발


대학생 김 씨는 인터넷 쇼핑몰을 자주 이용한다. 생필품, 의류, 도서 등 김 씨가 구매하는 상품의 종류도 각양각색이다. 그런 김 씨는 최근 편리한 서비스를 발견했다. 김 씨에게 필요할 만한 상품들이 쇼핑몰의 측면이나 하단에 나타나기 시작한 것. 바로 ‘당신에게 꼭 필요한 상품’ 코너다. 다 떨어진 생필품이나, 사고 싶었던 운동화 등 자신에게 꼭 필요한 상품들만 골라 추천해 주니 김 씨의 쇼핑이 한결 수월해졌다. 사실 김 씨의 나이와 성별, 기존 구매 목록과 구매 빈도 등의 데이터를 종합하기만 하면, 김 씨의 취향을 파악하는 일은 그리 어렵지 않다. ‘빅데이터’에게는 말이다.

빅데이터 기반 추천 시스템

 

빅데이터(big data), 말 그대로 엄청나게 많은 데이터 속에서 우리는 살고 있다. 그렇다면 대용량 데이터 자체가 바로 요즘 떠들썩하게 이야기되고 있는 빅데이터일까? 그렇지 않다. 빅데이터란 ‘데이터를 수집, 분석해 가치 있는 정보를 찾아내고, 다양한 분야에 활용하는 정보기술’의 총칭이다. 최근 빅데이터 기술을 적극 활용하는 곳은 단연 기업이다. 오늘날 스마트폰과 컴퓨터는 사용자의 위치, 일정, 구매 행위, 인터넷 검색 등 사용자의 모든 활동을 데이터의 형태로 기록한다. 이렇게 모인 데이터를 빅데이터 기술을 이용해 분석하면, 개별 사용자의 취향과 선호도를 파악할 수 있다.

 

컴퓨터가 소비자의 취향을 간파하고, 각자에게 알맞은 상품을 제공하는 것은 ‘빅데이터 기반 추천 시스템’이 있기에 가능한 일이다. 추천은 크게 두 가지 방식으로 이뤄진다. 첫 번째 방식은 ‘콘텐츠 기반 추천(content based recommendation)’이다. 사용자가 평소에 관심을 가지던 아이템(즉 상품, 웹사이트, 뉴스 등)에 대한 내용적 특성(content)을 분석해 사용자의 선호도를 파악하는 방법이다. 두 번째 방식은, ‘협업 필터링 추천(collaborative filtering based recommendation)’이다. 이 방식은 해당 사용자뿐만 아니라 다른 사용자의 평소 선호도 정보를 함께 분석한다. 먼저 사용자들이 각자 이용한 아이템에 점수를 매기도록
하고, 동일한 아이템에 비슷한 점수를 매긴 이들을 묶어 유사 선호도 사용자집단으로 간주한다. 집단의 구성원이 새로운 아이템에 높은 점수를 매기면 그 아이템을 집단 내의 다른 구성원에게 추천하도록 하는 방식이다. 이 방식은 온라인 쇼핑몰인 아마존이나 온라인 영화 서비스인 넷플릭스 등 실제 여러 서비스에서 활용되고 있지만, 아주 만족할 만한 수준은 아니다. 이러한 한계의 근본적인 원인은 대부분의 사용자들이 전체 아이템들 중 극히 일부의 아이템들만을 사용/평가하고 있다는 점이다. 기존 연구에 의하면 사용자들은 평균적으로 전체 아이템의 약 4% 내외만을 사용/평가하고 있다고 알려져 있다. 이러한 데이터 희소성 문제(data sparsity problem)로 인해 추천의 정확도가 낮거나 추천이 불가능한 상황이 빈번하게 발생한다.

 

 

무관심 아이템의 발견을 통한 사용자 만족도의 획기적 향상

 

김상욱 교수 연구팀은 협업 필터링 추천의 정확성을 높이기 위해 이 데이터 희소성 문제를 반드시 해결해야 한다고 판단했다. 이를 위해 연구팀은 ‘사용자의 아이템 이용 전 선호도’를 이용하는 새로운 아이디어를 제안했다. 가장 먼저 분석해야 할 것은 사용자가 아이템에 평가를 남기지 않은 이유다. 이 결과, 사용자는 일부 아이템에 대해 이용 전부터 이미 선호도가 매우 낮아 이용할 마음조차 없으며, 이로 인해 해당 아이템에 대한 아무런 평가도 남기지 않는다는 것을 파악했다. 연구팀은 이러한 아이템을 ‘무관심 아이템(uninteresting items)’으로 정의하고, 사용자가 평가하지 않은 아이템 중 무관심 아이템을 찾아내는 방법을 제안했다. 이렇게 찾아낸 무관심 아이템에 대해서는 사용자가 매우 낮은 점수를 준 것으로 간주하고, 이를 협업 필터링 추천 기술에서 활용할 수 있도록 했다.

 

이를 통해 사용자가 선호하는 아이템과 선호하지 않는 아이템을 모두 활용할 수 있어, 데이터 희소성 문제가 해소되고 추천의 정확도를 획기적으로 개선할 수 있다. 실제로 이 방법은 기존의 협업 필터링 추천의 정확도를 최대 5배까지 향상시키는 것으로 나타났다. 김 교수 연구팀에서는 현재 이 무관심 아이템에 대한 개념을 협업 필터링 추천에서뿐만 아니라 다양한 추천시스템 기술에 접목하는 연구를 시도하고 있다. 새로운 개념의 적용은 기존 추천 시스템 기술을 진일보시킬 것으로 기대된다. 김 교수는 “빅데이터 연구의 목적은 사람들의 행동양식을 이해하고, 이를 이용해 사람들에게 더 유용하고 편리한 서비스를 제공해 더 나은 세상을 만드는 것”이라고 말했다. 빅데이터가 이끌어갈 혁신, 그 중심에는 사람이 있다.

리스트