使用Python实现基于协同过滤的推荐系统

03-04 81阅读

󦘖

免费快速起号（微信号）

coolyzf

添加微信

在当今信息爆炸的时代，用户每天面临着海量的信息选择。无论是电影、音乐、书籍还是商品，如何为用户提供个性化的推荐成为了一个关键问题。推荐系统（Recommendation System）就是为了解决这一问题而诞生的技术。它通过分析用户的历史行为和偏好，预测用户可能感兴趣的内容，并为其提供个性化的推荐。

本文将介绍一种常见的推荐算法——协同过滤（Collaborative Filtering），并通过Python代码实现一个简单的基于用户-物品评分矩阵的推荐系统。我们将使用Pandas和Scikit-learn库来处理数据，并使用NumPy进行矩阵运算。

协同过滤简介

协同过滤是一种基于用户行为或物品特征的推荐算法，主要分为两种类型：

基于用户的协同过滤（User-based Collaborative Filtering）：根据用户之间的相似性来推荐物品。假设两个用户对某些物品有相似的评分，则他们对其他物品的评分也可能相似。

基于物品的协同过滤（Item-based Collaborative Filtering）：根据物品之间的相似性来推荐物品。假设两个物品被多个用户给予了相似的评分，则它们可能是相似的物品。

本文将重点介绍基于用户的协同过滤算法，并通过代码实现其核心功能。

数据准备

为了实现推荐系统，我们首先需要准备一个用户-物品评分矩阵。这个矩阵的每一行代表一个用户，每一列表示一个物品，矩阵中的元素是用户对物品的评分。通常，评分范围为1到5，表示用户对物品的喜爱程度。

我们可以从公开的数据集中获取用户-物品评分数据，例如MovieLens数据集。该数据集包含了大量的电影评分数据，适合用于推荐系统的实验。

导入必要的库

import pandas as pdimport numpy as npfrom sklearn.metrics.pairwise import cosine_similarityfrom sklearn.model_selection import train_test_split

加载数据

假设我们已经下载了MovieLens 100K数据集，并将其存储在本地文件中。我们可以使用Pandas读取数据并创建用户-物品评分矩阵。

# 读取用户评分数据ratings = pd.read_csv('ml-100k/u.data', sep='\t', names=['user_id', 'item_id', 'rating', 'timestamp'])# 读取电影信息movies = pd.read_csv('ml-100k/u.item', sep='|', encoding='latin-1', usecols=[0, 1], names=['item_id', 'title'])# 将评分数据与电影信息合并data = pd.merge(ratings, movies, on='item_id')# 创建用户-物品评分矩阵user_item_matrix = data.pivot_table(index='user_id', columns='title', values='rating')

处理缺失值

由于并非每个用户都对所有电影进行了评分，因此评分矩阵中会存在大量的缺失值（NaN）。我们需要对这些缺失值进行处理，通常可以使用均值填充或直接忽略缺失值。

# 填充缺失值为0user_item_matrix.fillna(0, inplace=True)# 或者只保留有评分的电影user_item_matrix = user_item_matrix.loc[:, (user_item_matrix != 0).any(axis=0)]

计算用户相似度

在基于用户的协同过滤中，我们需要计算用户之间的相似度。常用的方法包括余弦相似度、皮尔逊相关系数等。在这里，我们将使用余弦相似度来衡量用户之间的相似性。

# 计算用户之间的余弦相似度user_similarity = cosine_similarity(user_item_matrix)user_similarity_df = pd.DataFrame(user_similarity, index=user_item_matrix.index, columns=user_item_matrix.index)

查看用户相似度矩阵

print("用户相似度矩阵：")print(user_similarity_df.head())

实现推荐功能

有了用户相似度矩阵后，我们可以为每个用户生成推荐列表。具体步骤如下：

找到与目标用户最相似的前N个用户。获取这些相似用户对未评分物品的评分。根据相似度加权平均，计算目标用户对未评分物品的预测评分。按照预测评分排序，选择评分最高的K个物品作为推荐结果。

def recommend_movies(user_id, user_item_matrix, user_similarity_df, top_n=10):    # 获取目标用户的评分向量    user_ratings = user_item_matrix.loc[user_id]    # 找到目标用户未评分的电影    unrated_movies = user_ratings[user_ratings == 0].index    # 找到与目标用户最相似的前N个用户    similar_users = user_similarity_df[user_id].sort_values(ascending=False)[1:top_n+1].index    # 计算预测评分    predictions = {}    for movie in unrated_movies:        ratings = user_item_matrix.loc[similar_users, movie]        similarity_scores = user_similarity_df.loc[user_id, similar_users]        # 计算加权平均评分        weighted_sum = (ratings * similarity_scores).sum()        sum_of_similarities = similarity_scores.sum()        if sum_of_similarities > 0:            predicted_rating = weighted_sum / sum_of_similarities            predictions[movie] = predicted_rating    # 按预测评分排序，返回前K个推荐结果    recommendations = sorted(predictions.items(), key=lambda x: x[1], reverse=True)[:top_n]    return [movie for movie, _ in recommendations]# 测试推荐功能recommended_movies = recommend_movies(user_id=196, user_item_matrix=user_item_matrix, user_similarity_df=user_similarity_df)print("为用户196推荐的电影：", recommended_movies)

结果评估

为了评估推荐系统的性能，我们可以使用一些常见的评价指标，如均方根误差（RMSE）、准确率（Precision）、召回率（Recall）等。这里我们简单展示如何计算RMSE。

from sklearn.metrics import mean_squared_errorimport mathdef calculate_rmse(true_ratings, predicted_ratings):    mse = mean_squared_error(true_ratings, predicted_ratings)    rmse = math.sqrt(mse)    return rmse# 假设我们有一个测试集test_data = data.sample(frac=0.2, random_state=42)true_ratings = test_data['rating'].values# 对测试集中的用户进行预测predicted_ratings = []for _, row in test_data.iterrows():    user_id = row['user_id']    movie_title = row['title']    if movie_title in user_item_matrix.columns and user_id in user_item_matrix.index:        similar_users = user_similarity_df[user_id].sort_values(ascending=False)[1:10].index        ratings = user_item_matrix.loc[similar_users, movie_title]        similarity_scores = user_similarity_df.loc[user_id, similar_users]        weighted_sum = (ratings * similarity_scores).sum()        sum_of_similarities = similarity_scores.sum()        if sum_of_similarities > 0:            predicted_rating = weighted_sum / sum_of_similarities        else:            predicted_rating = 0        predicted_ratings.append(predicted_rating)    else:        predicted_ratings.append(0)rmse = calculate_rmse(true_ratings, predicted_ratings)print(f"RMSE: {rmse}")

总结

本文介绍了如何使用Python实现一个基于用户的协同过滤推荐系统。通过构建用户-物品评分矩阵，计算用户之间的相似度，并根据相似用户的行为为当前用户生成推荐列表，最终实现了个性化推荐的功能。虽然这是一个简单的推荐系统，但它展示了协同过滤的基本原理和技术实现方法。在实际应用中，推荐系统还可以结合更多的技术和优化手段，如矩阵分解、深度学习等，以提高推荐效果。

未来的工作可以进一步探索基于物品的协同过滤、混合推荐系统以及更复杂的模型，如隐语义模型（Latent Factor Model）和神经协同过滤（Neural Collaborative Filtering）。

免责声明：本文来自网站作者，不代表ixcun的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：aviv@vne.cc