资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

从零开始：用Surprise库搭建电影推荐系统

创作时间:

作者:

@小白创作中心

从零开始：用Surprise库搭建电影推荐系统

引用

知乎

等

来源

https://zhuanlan.zhihu.com/p/139180752

https://blog.csdn.net/ITCLSJ/article/details/115465621

https://wenku.csdn.net/answer/2hsb5ndurr

https://surprise.readthedocs.io/

https://www.cnblogs.com/lzhc/p/9545134.html

在当今信息爆炸的时代，推荐系统已经成为各大互联网平台不可或缺的组成部分。从电商网站的商品推荐到流媒体平台的影视推荐，推荐系统通过分析用户行为和偏好，为用户提供个性化的内容推荐，极大地提升了用户体验。而Surprise库作为Python生态系统中一个优秀的推荐系统库，以其简单易用和强大的功能，成为了许多开发者构建推荐系统的首选工具。

本文将带你从零开始，使用Surprise库快速搭建一个简单的电影推荐系统。我们将从环境准备、数据加载、算法训练到效果评估，一步步完成整个系统的构建。

环境准备

在开始之前，确保你的开发环境中已经安装了Python。Surprise库支持Python 3.6及以上版本。接下来，使用pip安装Surprise库：

pip install scikit-surprise

数据准备

为了演示推荐系统的搭建过程，我们将使用著名的MovieLens数据集。MovieLens数据集包含了用户对电影的评分数据，非常适合用于推荐系统的研究和开发。你可以从MovieLens官网下载数据集。

下载完成后，解压数据集，重点关注ratings.csv文件，它包含了用户对电影的评分数据。数据集的格式如下：

userId,movieId,rating,timestamp
1,31,2.5,1260759144
1,1029,3.0,1260759179
...

接下来，我们需要将数据加载到Surprise库中。Surprise库提供了灵活的数据加载方式，可以处理各种格式的数据集。以下是加载数据的代码示例：

from surprise import Reader, Dataset

# 定义数据集的格式
reader = Reader(line_format='user item rating timestamp', sep=',', skip_lines=1)

# 加载数据集
data = Dataset.load_from_file('ml-latest-small/ratings.csv', reader=reader)

算法选择与训练

Surprise库支持多种推荐算法，包括协同过滤、矩阵分解等。对于初学者来说，基于用户的协同过滤算法是一个很好的起点。它通过计算用户之间的相似度，为用户推荐其他相似用户喜欢的物品。

from surprise import KNNBasic
from surprise.model_selection import cross_validate

# 初始化算法
algo = KNNBasic()

# 使用交叉验证评估算法性能
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

效果评估

在训练模型后，我们需要评估推荐系统的性能。常用的评估指标包括均方根误差（RMSE）和平均绝对误差（MAE）。Surprise库提供了方便的工具来计算这些指标。

from surprise import accuracy

# 训练模型
trainset = data.build_full_trainset()
algo.fit(trainset)

# 获取测试集
testset = trainset.build_testset()

# 进行预测
predictions = algo.test(testset)

# 计算RMSE
rmse = accuracy.rmse(predictions)
print(f"RMSE: {rmse}")

相似用户和物品推荐

推荐系统的核心功能之一就是找到相似的用户或物品。Surprise库提供了方便的接口来实现这一功能。

找到相似用户

def get_similar_users(user_id, k=5):
    inner_uid = trainset.to_inner_uid(user_id)
    user_similarities = algo.similar_users(inner_uid, k=k)
    similar_users = [trainset.to_raw_uid(inner_id) for inner_id in user_similarities]
    return similar_users

similar_users = get_similar_users(1)
print(f"Similar users to user 1: {similar_users}")

找到相似物品

def get_similar_items(item_id, k=5):
    inner_iid = trainset.to_inner_iid(item_id)
    item_similarities = algo.get_neighbors(inner_iid, k=k)
    similar_items = [trainset.to_raw_iid(inner_id) for inner_id in item_similarities]
    return similar_items

similar_items = get_similar_items(31)
print(f"Similar items to item 31: {similar_items}")