컴퓨터소프트웨어학부 김상욱 교수 & 빅데이터 사이언스 연구실 BigDaS

데이터 사이언스와 데이터베이스 분야를 연구하고 있는 김상욱 교수의 빅데이터 사이언스 연구실은 국제적 수준의 연구 역량을 자랑한다. 대규모 딥러닝 모델학습을 위한 학습률 조정기술인 ‘LENA’를 개발하고, 지난 4월 ‘SW스타랩 지원사업’에도 선정됐다. 연구실이 이렇게 좋은 성과를 낼 수 있는 비결은 무엇일까.

글. 박영임 / 사진. 손초원

▲ 한양대학교 컴퓨터소프트웨어학부 김상욱 교수
▲ 한양대학교 컴퓨터소프트웨어학부 김상욱 교수

 

Q. ‘빅데이터 사이언스 연구실(이하 연구실)’에 대한 소개를 부탁드립니다.

2003년 3월 ‘데이터 및 지식공학연구실’이라는 이름으로 출발했습니다. 당시에는 빅데이터라는 용어가 없었으니까요. 하지만 데이터베이스 및 데이터 마이닝 연구 등 현재 연구하는 분야와 크게 다르지 않습니다. 우리 연구실은 국제 콘퍼런스 및 국제 저널에 발표할 수 있는 최고 수준의 연구를 지향하며, ‘연구를 통한 학습(Learning by Research)’을 추구합니다. 이를 통해 빅데이터 사이언스 분야에서 국제적인 경쟁력을 갖춘 글로벌 인재를 양성하는 것이 가장 중요한 목표라 할 수 있습니다. 지난 20여 년 동안 16명의 박사와 58명의 석사를 배출했고, 현재는 13명의 박사과정, 12명의 석사과정, 4명의 박사후연구원이 참여하고 있습니다.

▲ ‘빅데이터 사이언스 연구실’은 빅데이터라는 용어가 널리 사용되기 전부터 관련 분야 연구를 진행해왔다.
▲ ‘빅데이터 사이언스 연구실’은 빅데이터라는 용어가 널리 사용되기 전부터 관련 분야 연구를 진행해왔다.

 

Q. 연구실에서는 주로 어떤 연구를 진행하나요?

주요 연구 분야는 크게 데이터 마이닝 및 머신러닝 기술을 활용해 빅데이터로부터 유용한 지식과 패턴을 추출하는 기술을 다루는 ‘데이터 사이언스’ 분야와 빅데이터를 효과적으로 저장, 관리, 처리하는 기술을 다루는 ‘데이터베이스 분야’로 나눌 수 있습니다.

현시점에서 관심을 두고 있는 주요 기술로는 추천 시스템 기술, 소셜 네트워크 분석 기술, 그래프 엔진 기술입니다. 먼저 추천 시스템은 사용자의 선호도를 분석하고 이에 근거해 영화, 음악, 뉴스 등을 추천해주는 기술입니다. 그리고 소셜 네트워크 분석은 소셜 네트워크에 존재하는 특징들을 도출하고 이를 다양한 비즈니스에 활용하는 기술로, 최근 크게 각광받고 있는 분야입니다. 마지막으로 그래프 엔진은 수억에서 수조의 노드를 이루는 실세계 빅 그래프를 효율적으로 다뤄 다양한 그래프 처리 및 분석에 활용할 수 있는 기술입니다. 본 연구실에서는 다양한 하드웨어를 효율적으로 활용하는 그래프 엔진 연구 및 이에 적합한 그래프 알고리즘에 대한 연구를 진행하고 있습니다.

 

Q. 최근 대규모 딥러닝 모델학습을 위한 학습률 조정기술 ‘LENA’를 개발해 주목받으셨습니다. 관련 연구 내용과 의의에 대한 설명을 부탁드립니다.

LENA(Layer-wise adaptivE learning rate scaliNg and wArm-up)는 대규모 딥러닝 모델 학습 시, 모델의 계층(layer)별 학습 상태에 따라 학습률(learning rate)을 차별적으로 조정함으로써 최종적으로 모델의 정확도를 향상시키기 위한 기술입니다. 대규모 딥러닝 모델 학습 초기에 발생할 수 있는 학습 불안정 문제를 완화하기 위한 ‘계층별 학습률 워밍업(warm-up)’ 전략도 함께 제안했습니다. 기존 연구들과 비교해 LENA의 가장 큰 차별점은 딥러닝 모델의 계층별 역할 차이를 이해하고, 그를 기반으로 계층별 학습 진행 상태에 따라 차별적으로 학습률을 설정한다는 것입니다. 이를 통해 기존 기술들이 높은 정확도 달성에 실패했던 초대규모 학습 상황에서도 매우 높은 모델 정확도를 이룩했습니다.

LENA는 데이터 사이언스 분야의 최고 콘퍼런스인 ‘The ACM Web Conference 2022(TheWebConf2022)’에서 발표해 독창성 및 우수성을 인정받았습니다. LENA는 현존하는 딥러닝 기술들뿐만 아니라, 향후 개발될 미래 기술에도 적용할 수 있어 잠재력이 매우 큰 기술입니다. AI 분야의 많은 모델 개발 영역에 적용해 해당 분야의 모델 개발 과정을 가속화할 수 있습니다. 이를 통해 향후 다양한 AI 분야에서 우수한 성능의 모델을 개발하는 데 기여하고, 관련 연구를 더욱 활성화할 수 있을 것입니다.

 

Q. 지난 4월, 디지털 전환 시대에 걸맞은 전문적인 석·박사급 디지털 인재 양성을 위해 과학기술정보통신부에서 2015년부터 실시하고 있는 ‘SW스타랩 지원사업’에 선정되셨습니다.

SW스타랩 지원사업은 과학기술정보통신부에서 원천기술 확보와 글로벌 소프트웨어 경쟁력을 주도할 석박사급 인재 양성을 지원하는 사업입니다. 이번 SW스타랩 선정은 졸업생들과 재학생들의 연구 역량을 인정받은 것으로, 재정지원을 통해 연구실 구성원들이 경쟁력 있는 글로벌 리더로 성장하는 데 기여할 것입니다.

앞으로 8년간 ‘실세계의 네트워크를 하이퍼그래프라는 새로운 타입의 데이터 구조로 모델링하는 기술’과 ‘객체들의 내재적 관계 추론을 통하여 하이퍼그래프로 강화하는 기술’을 주제로 연구하게 됩니다. 또한, 하이퍼그래프로 모델링 된 네트워크 빅데이터를 빠르게 처리하기 위한 ‘고성능 하이퍼그래프 엔진 및 성능 최적화 기술’도 연구할 예정입니다. 매우 유용한 분야이지만 아직 많은 연구가 진전되지 않아 앞으로 흥미로운 연구 결과들이 도출될 것으로 기대됩니다.

 

Q. 국제적 경쟁력을 갖춘 글로벌 인재를 육성하는 것이 목표라고 하셨는데 연구실의 연구 수준은 어떠한가요? 

컴퓨터 분야는 기술 혁신 사이클이 빠르기 때문에 최우수 국제 학술대회가 학술지보다 높은 평가를 받고 있습니다. 우리 연구실은 최근 5년간 미국인공지능학회(AAAI)를 비롯한 다수의 최우수 국제학술대회에서 총 31편의 논문을 발표했습니다. 세계 최고 데이터 마이닝 학회인 ‘IEEE ICDM 2021’에서 발표한 논문은 우수 논문으로 선정된 바 있습니다. 이러한 성과들이 우리 연구실의 수준이 세계적이라는 것을 입증하는 것이라 생각합니다. 아울러 우리 연구실에서 배출된 인력들이 다수의 세계 명문 공학대학 연구원으로 파견되는 등 세계 무대에서도 환영받고 있습니다.

 

Q. 마지막으로 향후 연구실 운영 계획 및 목표를 말씀해주세요.

우리 연구실을 거친 연구원들이 국제적으로 경쟁력 있는 연구자로 성장해 관련 분야의 발전에 이바지하기를 바랍니다. 이전에는 연구자로서 직접 좋은 연구 결과를 내는 것이 즐거웠는데, 이제는 제자들이 훌륭한 성과를 내는 모습을 보는 것이 더 좋습니다. 전자는 연구 결과 자체에 집중하는 반면, 후자는 연구원들이 좋은 연구를 하는 방법을 깨닫게 하는 데 초점을 맞춰 연구를 진행한다는 점에서 큰 차이가 있습니다.

지난 25년이 넘는 시간 동안 연구실 제자들을 지도하면서 쌓은 경험이 이러한 방식으로 연구를 진행하는 데 도움이 되고 있습니다. 일례로 훌륭하게 성장한 연구실 제자가 현재 같은 학부의 동료 교수가 되었는데, 저에게는 큰 기쁨입니다. 독립된 연구자로 홀로서기를 한 후에도 좋은 연구 및 교육 역량을 보여 매우 자랑스럽게 생각합니다. 최근 훌륭하게 성장한 연구실 제자들이 점점 더 늘고 있어 이들이 미래에 어떻게 활약할지 기대가 큽니다.

본 내용은 한양대 소식지 'HYPER'의 2022년 여름호(통권 262호)에 게재된 것입니다.

 

키워드

'한양위키' 키워드 보기 #HYPER
저작권자 © 뉴스H 무단전재 및 재배포 금지