资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大数据算法学习：ItemCF（基于物品的协同过滤）

创作时间:

作者:

@小白创作中心

大数据算法学习：ItemCF（基于物品的协同过滤）

引用

CSDN

https://blog.csdn.net/sixpp/article/details/144362750

Item-based Collaborative Filtering (ItemCF)是一种推荐系统算法，基于物品之间的相似度来为用户推荐物品。与基于用户的协同过滤（UserCF）不同，ItemCF是通过分析用户之间的行为和物品之间的关系来进行推荐，认为如果一个用户喜欢某个物品，他可能也会喜欢与该物品相似的其他物品。

ItemCF的基本原理

ItemCF的推荐过程可以分为以下几步：

计算物品之间的相似度：根据用户对物品的评分，计算物品之间的相似度。常见的相似度度量方法包括余弦相似度、皮尔逊相关系数等。
根据物品相似度进行推荐：对于一个目标用户，推荐与他已评分过的物品相似度较高的物品。
生成推荐列表：基于上述预测，为用户生成个性化的推荐列表。

ItemCF的公式解析

物品相似度计算

最常见的相似度计算方法是余弦相似度，其计算公式为：

sim(i,j)=∑u∈Urui⋅ruj∑u∈Urui2⋅∑u∈Uruj2\text{sim}(i, j) = \frac{\sum_{u \in U} r_{ui} \cdot r_{uj}}{\sqrt{\sum_{u \in U} r_{ui}^2} \cdot \sqrt{\sum_{u \in U} r_{uj}^2}}

其中：

ruir_{ui} 表示用户 uu 对物品 ii 的评分。
rujr_{uj} 表示用户 uu 对物品 jj 的评分。
UU 表示对物品 ii 或物品 jj 评分的用户集合。

余弦相似度的思想是计算两个物品评分向量的夹角余弦，值越大表示两个物品越相似。

用户对物品的预测评分

给定物品间的相似度，我们可以使用以下公式来预测用户对未评分物品的评分：

r^ui=∑j∈N(i)sim(i,j)⋅ruj∑j∈N(i)∣sim(i,j)∣\hat{r}{ui} = \frac{\sum{j \in N(i)} \text{sim}(i, j) \cdot r_{uj}}{\sum_{j \in N(i)} |\text{sim}(i, j)|}

其中：

r^ui\hat{r}_{ui} 是用户 uu 对物品 ii 的预测评分。
N(i)N(i) 是与物品 ii 相似的物品集合，通常选择与物品 ii 最相似的 kk 个物品。
rujr_{uj} 是用户 uu 对物品 jj 的评分。
sim(i,j)\text{sim}(i, j) 是物品 ii 和物品 jj 之间的相似度。

推荐生成

根据每个用户的历史评分和物品的相似度矩阵，可以生成用户的推荐列表。通常，推荐未评分的物品中，预测评分最高的物品。

Python实现

以下是一个简单的基于余弦相似度的ItemCF推荐系统的Python实现。假设有一个评分矩阵，用户对物品进行了评分。

准备数据

import pandas as pd
import numpy as np

# 用户-物品评分矩阵
data = {
    'Item1': [5, 4, 0, 1, 0],
    'Item2': [4, 0, 0, 1, 2],
    'Item3': [0, 0, 0, 4, 5],
    'Item4': [2, 4, 5, 3, 0],
    'Item5': [0, 4, 3, 0, 1],
}
df = pd.DataFrame(data)
print(df)

计算物品之间的相似度

使用余弦相似度计算物品间的相似度。

from sklearn.metrics.pairwise import cosine_similarity

# 计算物品之间的相似度矩阵
item_similarity = cosine_similarity(df.T)  # 转置后计算相似度
item_similarity_df = pd.DataFrame(item_similarity, index=df.columns, columns=df.columns)
print(item_similarity_df)

预测用户对物品的评分

基于物品相似度和用户评分预测用户未评分物品的评分。

def predict_ratings(df, item_similarity_df):
    predicted_ratings = np.dot(df.fillna(0), item_similarity_df)
    norm = np.array([np.abs(item_similarity_df).sum(axis=1)])
    predicted_ratings = predicted_ratings / norm.T
    return pd.DataFrame(predicted_ratings, columns=df.columns, index=df.index)

predicted_ratings = predict_ratings(df, item_similarity_df)
print(predicted_ratings)

推荐生成

基于预测评分为每个用户生成推荐列表。

def recommend(predicted_ratings, user_index, top_n=3):
    user_ratings = predicted_ratings.iloc[user_index]
    recommended_items = user_ratings.sort_values(ascending=False).head(top_n)
    return recommended_items.index.tolist()

# 假设推荐第1个用户
recommended_items = recommend(predicted_ratings, user_index=0)
print("Recommended items for user 0:", recommended_items)