작성일
2023.05.25
수정일
2023.05.25
작성자
소프트웨어공학과
조회수
511

적응형 AI 연구실, TF-IDF 활용한 문서 군집화 연구방법론 제시

      

      조재혁 교수                                    현준서 학생

 



  세계적으로 K-Pop의 위상이 어느 때보다도 높은 시기이다. 새로운 세대의 k-pop 그룹의 출현 시기가 마케팅 시장에서 활용 가치가 높지만, 현재 감정 분석이 주를 이룬다. 정확한 수치를 기준으로 한 새로운 k-pop 출현 시기에 대한 연구가 부족한 실정이다.


  이에, 전북대학교 소프트웨어공학과 현준서학생(교신저자 소프트웨어공학과 조재혁교수)은 걸그룹의 3세대 아이돌과 4세대 아이돌을 구분짓는 기준을 제시하는 연구를 하였다. 2014년부터 2022년에 활동했던 49개 그룹의 1469 곡의 가사를 TF-IDF(정보 검색과 텍스트 마이닝에서 이용하는 가중치) 방식으로 수치화하고, 메타 정보를 One-Hot Encoding으로 수치화 한 후 가중치를 업데이트하는 연구를 진행하여, 2014~2018년과 2018~2022년에 발표된 곡들의 두 군집으로 나뉘었다.


   또한, Cosine 유사도를 적용한 K-Means Clustering 알고리즘인  Spherical Clustering이 선행연구의 결과와 마찬가지로 다른 군집화 알고리즘보다 문서 군집화에 가장 적합하다는 것을 보였으며 시기에 따라 3세대와 4세대가 구분됨을 보였다. 


    해당 연구는 ‘단어-역문서 빈도 벡터화를 통한 한국 걸그룹의 음반 메타 정보 군집화’라는 제목으로, KCI 등재 학술지인 Journal of Platform Technology에 게재 예정이다. (2023년 6월 20일)


그림 1. 머신러닝과 데이터 전처리 과정과(왼) 데이터 분류 결과에 대한 Sunburst 차트(오)



첨부파일
첨부파일이(가) 없습니다.