ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [소음반 차트 분석]어떤 가수가 트랜드가 많아왔을까?(2) 확인
    카테고리 없음 2020. 2. 20. 08:05

    이 글을 적이 2006년부터 20하나 7년까지 백스 차트에 등록된 4,000여명의 가수들 중 상위 0.03%의 하나 30여명의 가수만 골라서 간단한 때 테러 화성까지 했었다.이 상위 0.03%가수들의 데이터를 에에쵸의 부하였다.따라하는 분은 이 데이터로 아래 문장을 써주시면 될 것 같다.


    정말 그래서 다음 데이터는 4,000여명의 모든 가수 데이터 그래서 쓰는 편은 사용하면 된다.


    이번 주에는 가수의 특징을 분류하는 방법에 대해 고민하다가 정내용적으로는 머신러닝 군집 알고리즘을 이용하기로 했습니다.군집 알고리즘은 데이터 세트간의 유사성을 측정해, 그룹별로 분류해 주는 알고리즘이었다(자세한 알고리즘의 설명은 다른 블로그에 많이 소개되고 있다.가장 유명한 것은 K-means 알고리즘이고, 최신에는 더 세련된 알고리즘이 많다고 합니다. 저는 시간도 없기 때문에 가장 유명한 K-means 알고리즘을 사용하기로 했습니다.여기서 k는 분류하는 그룹의 수였던 내가 알고리즘을 돌릴 때, 출의로 k를 선정해서 돌려야 하는데... k를 정하는 기준은 따로 없다.흔히 애널리스트의 직감이 나쁘지 않고, 복수 k를 지정하여 알고리즘을 돌린 다음 가장 결과가 그럴듯한 k 고를 수밖에 없다.보통 k을 3~10사이에 많이 선택하는 것이라고 하는 것입니다.이번에 군중을 이용하는 데이터는 "차트에 등록된 곡수","차트에 가수가 나쁘지 않고 나는 빈도","가수의 누적 랭킹 점수"총 3개였던 이 3개의 데이터의 유사성을 측정하고 그룹을 나쁘지 않은 눌 계획이었다 본래 적절한 K를 고르고 그럴듯한 결과를 내기 위해서는 시행 착오를 거치고 생각해야 하는데 아프지 않았으면 그런 시간은 없다. (울음)생업으로 영업직은 평1로 하고 나의 공부 아니며 블로그의 글을 쓴 기둥 밖에 시간이 없으니, 시행 착오 시간은 과감히 버리기로 했어요!. 그래서 나쁘지 않는 K을 말입니다.8로 정했어요. 트렌드가 있는 가수들을 8개 그룹에서 나쁘지 않은데요.


    이번에는 실제로 데이터 분류 작업을 해본다.R에서 군집 알고리즘인 kmeans() 함수를 돌리기 위해서는 수치로 이루어지는 data.frame이 필요하다.그러므로 기존 데이터 세트에서 내가 분석하는 부분 3줄만 추출했다.


    >


    >


    그리고 최근 kmeans()함수를 사용하여 군집 알고리즘을 돌리면 되는데 그 전에 하나의 작업이 필요하다.최근 이상태에서는 title_number열, count열, artist_point열이 각각 숫자범위가 같지 않다.이렇게 되면 데이터 간의 거의 동등성을 측정할 때 숫자의 범위가 큰 열에 상당히 의존적이 된다.그래서 이 3개의 열을 동일한 기준으로 새로 만들 필요가 있다.가장 일반적인 방법은 0~을 끼고 있는 값으로 치환시키는 작업이 있지만 그와잉눙오항상 그랬듯, 하루가 새로 배운 z점수를 사용했다.잘 모르겠지만, z점수는 편차를 잘 편차하여 과인목값으로, 이 값이 평균에 비해 얼마나 낮은 거과인지를 표시하는 점수였다.어느 값이 0이면 평균이라는 뜻이다(-)라면"평균보다 낮은 "(+)이면"평균보다 매우 높은 "은 우이미있다. 만약 z점수가 3점이면 평균보다 훨씬 매우 높다는 의미다.이 작업을 R이라고 하면 아래 그림과 같다.


    >


    >


    지금까지 kmeans()함수를 쓸 준비가 되었다.


    >


    위의 앞과 같이, kmeans() 함수에 대상 데이터와 그룹 개수의 k를 인수로 입력하면, 군중의 결과 데이터가 과인해 온다.과인은 8개 그룹에서 과인누계로 했으므로 인수에서 8개를 입력했다.각 그룹에 몇 개의 데이터가 있는지 알아보려고 하면, 군중 결과를 넣은 곳에 "$size"를 입력하면 과인이 온다.다행히 값이 하나밖에 없는 그룹이 없기 때문에 이 정도 분류라면 그냥 해 볼 만하다.원래는 아래와 같이 각 그룹의 중앙값을 살피고 올바른 K값을 조정하는 과정을 거쳐야 하지만 과인은 생략하고 최근 과인이 오고 있는 결과의 의미만 훑어봤다.


    >


    이 중 눈에 띄는 그룹은 하나도, 7번 단체였지만, 번 그룹은 곡의 개수(title_number)가 평균보다 매우 적지만 가수의 노출 빈도와 누적 순위 점수가 평균을 상회한다.7번 단체는 노래 개수, 가수, 노출 빈도, 누적 순위 점수가 평균을 압도한다. 여기에 어린이 기름과 빅뱅이 포함될 것이다


    세상에! 신과에서 공부하고 포스팅할 준비가 됐는데 벌써 시간이 이렇게 늦어버렸어.내일 출근을 위해 여기까지 쓰고 마무리하려고 합니다.이미 버블차트를 이용한 시각화까지 전부 캡쳐해 두었지만, 차주중에 시간을 내서 올리자.다음 주에는 그룹핑된 가수들을 시각화해 리스트를 보여주고 또 가수의 전성기를 연도별로 시각화시켜 보려는 의도가 있다.오거의 매일 마침내 아내 sound와 ggplot2를 배운다는 견해가 좀 지났지만 너무 재미 있었다.이후 주 포스팅에는 꽤 많은 이미지가 올라오는 의도다.


    댓글

Designed by Tistory.