[논문 리뷰] Amazon.com RecommendationsItem-to-Item Collaborative Filtering

Recent Posts

Recent Comments

Link

일상 블로그

관리 메뉴

헤매어도 한 걸음씩

[논문 리뷰] Amazon.com RecommendationsItem-to-Item Collaborative Filtering 본문

Paper Review

[논문 리뷰] Amazon.com RecommendationsItem-to-Item Collaborative Filtering

ritz 2022. 3. 16. 23:32

원문 : https://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

사용자가 선호할만한 아이템을 추천함으로써 여러 가지 항목 중 사용자에게 적합한 특정 항목을 추천하여 제공하는 알고리즘
매출과 직결되는 system이기 때문에 많은 연구가 있음 ex. 넷플릭스, 구글, 아마존
Item-to-Item Collaborative Filtering : 1998년 Amazon에서 처음 사용

Problems

: E-commerce recommendation algorithms often operate in a challenging environment.

대용량 데이터의 처리
half of second 안으로 처리해야하는 real time 추천
새로운 USER가 왔을때 어떻게 추천 해야하는가? ⇒ cold start problem for new user
오래된 USER의 너무 많은 데이터는 noise 로 작용
- → 이런 USER에게 어떻게 추천해야할까?
USER 데이터는 휘발성이다.
- → 각 USER의 시시각각 변하는 interaction 을 어떻게 알고리즘에 반영할것인가?

Item-to-Item Collaborative Filtering

논문의 알고리즘에서 Item-to-Item CF는 대용량 데이터에서 높은 품질을 실시간으로 제공한다.

Item-to-Item CF는 비슷한 사용자를 매칭하는것 대신 사용자가 구매하거나/평가한 아이템들의 유사성을 찾고 비슷한 아이템을 추천 리스트로 생성한다.

가장 유사한 아이템을 정의하기 위해 알고리즘은 유사한 아이템 테이블을 만들어 사용자들이 함께 구매하는 경향이 있는 아이템을 찾는다.

그러나 구매한 아이템 Pair와 정확히 일치하는 공통의 고객은 흔하지 않으므로 계산에 있어 시간이나 메모리 사용이 비효율적이다.

따라서 더 나은 접근법은 각 단일 아이템을 모든 연관있는 아이템들로 유사도를 계산하는 것이다. 수도 코드는 아래와 같다.

비슷한 유저를 매칭하지 않고, 유저가 현재 보고있는 아이템이나, 유저가 평가한 아이템들과 유사한 아이템을 추천해주는 방식으로 진행한다.

위 알고리즘은 O(N^2 M)이라는 시간복잡도가 발생한다. 하지만 유저의 rating 자체가 sparse(또는 구매 기록이 많지 않다) 하기 때문에 보통 O(NM)이 된다.

또한, item 의 profile 의 경우, 보통의 경우 급격하게 변하지 않는다. 따라서 offline 계산이 가능하므로 inference time에 유저에게 바로 lookup 형식으로 빠르게 serving할 수 있는 장점이 있다.

이런 계산은 매우 빠르고 오직 사용자가 구매하거나 평점을 매긴 아이템의 수에만 의존적이다.

scalibiltiy: A Comparison

대용량 데이터 기반의 상용 서비스 환경에서는 추천 알고리즘은 반드시 비싼 계산을 오프라인으로 미리 해두어야한다. 결국 scalability의 핵심 key 는 offline similarity 계산이다.

cluster 의 경우 좋은 성능을 보이지 못했지만, item-item 의 경우 모든 item 간의 similarity 계산을 미리 할 수 있었고, 이러한 특성 덕분에 stable 한 profile 을 가지는 item 의 경우 item-item CF 가 user base 보다 scalability가 좋다고 할 수 있다.

전통적인 CF에서는 offline 계산이 없거나 적어서 온라인 계산은 고객수나 아이템 수에 의존적이다.
클러스터 모델은 대부분의 계산을 offline으로 하지만 추천 품질이 낮다. 품질을 높이기 위해 세그먼트 수를 늘리면 성능이 나빠진다.
검색 기반 모델은 키워드를 빌드한다. 카테고리나 저자에 대한 색인은 offline 계산이다. 하지만 추천 자체가 흥미롭지 않다. 또한 고객수나 아이템이 늘어나면 검색 성능이 저하된다.

따라서 알고리즘은 대용량 데이터 환경에서 학습 및 서비스가 가능하다.

해당 알고리즘이 매우 연관성이 높은 아이템을 추천해주기 때문에 품질이 뛰어나다.

전통적인 CF와 달리 해당 알고리즘은 제한된 사용자 기록을 가지고도 높은 품질의 추천을 제공한다.

Conclusion

: 앞으로 개인화 마케팅에 대한 추천 알고리즘을 보다 폭넓게 적용할 것으로 기대

References

CF 실습코드 : *https://github.com/yjeong5126/movie_recommender/tree/master/item_based_collaborative_filtering*

'Paper Review' Related Articles

헤매어도 한 걸음씩

헤매어도 한 걸음씩

[논문 리뷰] Amazon.com RecommendationsItem-to-Item Collaborative Filtering 본문

[논문 리뷰] Amazon.com RecommendationsItem-to-Item Collaborative Filtering

Problems

추천 문제를 해결하기 위한 일반적인 3가지 접근방식

1. Traditional Collaborative Filtering

2. Cluster Model

3. Search-Based Methods

Item-to-Item Collaborative Filtering

scalibiltiy: A Comparison

Conclusion

References

티스토리툴바