평점은 아이템이 좋고 싫음을 정량적으로 평가할 수 있는 척도로 활용됩니다.
주로 평점은 순서가 정렬된 서로 다른 숫자의 인터벌 형태로 좋고 싫음이 이를 정량화합니다.
예를들어 {-2, -1, 0, 1, 2} 에서 5포인트의 평가 체계를 나타낸다면
-2는 매우 싫음 ~ 2는 매우좋음을 의미합니다.
이것은 인터벌 기반 평점(interval-based ratings)라고 합니다.
이러한 평점의 표현 방식은 시스템에 따라 다를 수 있습니다.
위의 예시에서는 5포인트지만 7포인트, 10포인트로도 표현할 수 있습니다.
제공사에 따라 다른 표현방식을 가질 수 있습니다.
스탠퍼드대학교의 강의 평가 양식으로는
{강한 비동의, 비동의, 중립, 동의, 강한 동의}와 같이 순서형의 범주형 값을 이용하기도 합니다.
이것을 서수 평점(ordinal ratings)이라고 부릅니다.
사용자가 상품에 대하여 좋아요, 싫어요 같이 2개의 평가만할 수 있습니다.
이것은 {0, 1}로 표현할 수 있는데 이진 평점(binary ratings)라고 합니다.
평점 체계에는 호감(1)만을 표현하고 비호감(0)을 표현하지 않는 단항 평점(unary ratings)이 존재합니다.
단항 평점은 암시적인 피드백 데이터 세트(implicit feedback data-set)의 경우 흔하게 보이게 됩니다.
명시적(Explicit) 평점과 암시적(Implicit) 평점
6명의 사용자가 6개의 아이템(영화)에 대하여 평점을 주었다고 가정하겠습니다.
명시적 피드백 데이터(Explicit Feedback Data)
글래디에이터 | 대부 | 벤허 | 좋은친구들 | 스카페이스 | 스파르타쿠스 | |
사용자1 | 1 | 5 | 2 | |||
사용자2 | 5 | 4 | ||||
사용자3 | 5 | 3 | 1 | |||
사용자4 | 3 | 4 | ||||
사용자5 | 3 | 5 | ||||
사용자6 | 5 | 4 |
사용자가 자신의 선호도를 직접 표현한 데이터이며 위와 같은 점수, 평점(1~5) 좋아요/싫어요와 같은 평점으로 생각할 수 있겠습니다.
암시적 피드백 데이터(Implicit Feedback Data)
글래디에이터 | 대부 | 벤허 | 좋은친구들 | 스카페이스 | 스파르타쿠스 | |
사용자1 | 1 | 1 | 1 | |||
사용자2 | 1 | 1 | ||||
사용자3 | 1 | 1 | 1 | |||
사용자4 | 1 | 1 | ||||
사용자5 | 1 | 1 | ||||
사용자6 | 1 | 1 |
사용자의 패턴이나 선호도를 간접적으로 표현한 데이터이고 신뢰도라고 하며 영화시청유무, 클릭, 노출, 구매로 추정할 수 있습니다.
꼭 단항 행렬처럼 0과 1로 표현되지 않고 명시적 피드백 데이터세트처럼 1이 이상의 값을 가지면서 영화시청횟수, 클릭수, 구매횟수와 같이 해석될 수 있습니다.
위의 두 데이터를 보면 동일한 빈칸을 가지고 있지만 다른 해석을 제공합니다.
명시적 피드백 데이터를 확인하면 사용자1과 사용자3는 글래디에이터라는 영화에 대해서 매우 다른 평점을 부여하고 있습니다.
이것은 두 사용자가 크게 다르다라고 생각할 수 있습니다.
하지만 암시적 피드백 데이터를 확인하면 사용자1과 사용자3은 글래디에이터라는 영화에 동일한 평점을 부여했습니다.
이것은 두 사용자가 유사하다라고 생각할 수 있습니다.
명시적 피드백 데이터의 경우에는 1점과 같은 부정적인 신호를 포함하고 있지만 암시적 피드백 데이터의 경우에는 긍정적인 신호(1)만 포함하고 있습니다. 암시적 피드백 데이터의 경우에는 부정적인 신호를 빈칸(NULL)으로 표현하게 됩니다.
이처럼 암시적 피드백 데이터가 명시적 피드백 데이터보다는 표현력이 부족합니다.
우리는 추천시스템을 통하여 빈칸(NULL)을 예측하여 사용자에게 아이템(영화)를 추천하게 됩니다.
명시적 피드백 데이터에서는 이러한 NULL값을 다른 값으로 대체하는 것을 권장하지 않습니다. 이유는 명시적 피드백 데이터에는 '좋아요', '싫어요'와 같은 긍정적인 신호와 부정적인 신호가 두 가지가 존재하는데 NULL값을 0이나 평균값으로 대체하게 되면 분석에서 큰 편향(bias)을 발생시키기 때문입니다.
암시적 피드백 데이터의 경우 단항 행렬일 때는 0으로 대체하는 것이 비교적 작은 편향(bias)으로 이어지게되고 이 대체 값은 큰 양의 과적합을 줄여주기 때문에 이 정도의 편향(bias)은 감안하기도 합니다.
'추천시스템' 카테고리의 다른 글
[추천시스템] 카카오 Mini Reco 기출문제 회고 (2) | 2023.01.01 |
---|---|
[추천시스템] 이웃 기반 협업필터링 (1) - 사용자 기반 (0) | 2022.12.23 |
[추천시스템] 기본 협업 필터링 모델 (0) | 2022.11.21 |
[추천시스템] 목표 (0) | 2022.11.15 |
[추천시스템] 소개 및 개요 (0) | 2022.11.14 |