大数据在互联网领域的应用x

时间:2022-08-15 15:51:30  热度:1°C
4/1 大数据在互联网领域的应用/推荐系统概述 协同过滤 协同过滤实践/推荐系统概述 推荐系统:通过分析用户的历史数据来了解用户的需求和兴趣,从而将用户感兴趣的信息、物品等主动推荐给用户。 推荐系统同搜索引擎有区别: 推荐系统是通过研究用户的兴趣偏好、进行个性化计算,帮助用户从海量信息中发掘自己潜在的需求。(PUSH) 搜索引擎以用户有明确的需求为前提,将需求转化为相应的关键词进行搜索。(PULL)/长尾理论:美国连线杂志主编Chris Anderson于2004年推出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式。 传统零售点由于摆货场地***,一般摆放热门商品(即热门推荐),遵循二八定律(80%的利润来源于20%的热门商品)。 电子商务网站销售的种类繁多,绝大多数商品都不热门。热门商品往往代表了用户的普遍需求,而长尾商品则代表了用户的个性化需求。推荐系统通过发掘用户的行为记录,找到用户的个性化需求,从而准确地将长尾商品准确地推荐给需要它的用户,实现用户和商家的双赢。互联网使得99%的商品都有机会进行销售,市场曲线中那条长长的尾部成为可以寄予厚望的、新的利润增长点。/推荐方法 专家推荐:本质上是人工推荐,其他推荐算法结果的补充。 基于统计的推荐:基于统计信息的推荐,如热门推荐,但对用户个性化偏好描述能力较弱。 基于内容的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容。关注物品本身的特征,通过物品自身的特征来找到相似的物品。 协同过滤推荐:利用用户的历史信息计算用户之间的距离,利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,然后对目标用户进行推荐。关注用户和物品间的联系,与物品自身特征没有太多关系。 混合推荐:单一的推荐算法往往无法取得良好的推荐效果,多数推荐系统会有机结合多种推荐算法。/图11-1 推荐系统基本架构/完整的推荐系统通常包括: 用户建模模块:根据用户行为数据和用户属性数据来分析用户的兴趣和需求。 推荐对象建模模块:根据交互数据和对象属性数据对推荐对象进行建模。 推荐算法模块:基于用户特征和物品特征,采用推荐算法计算得到用户可能感兴趣的对象,并根据推荐场景对推荐结果进行一定调整,最终将推荐结果展示给用户。/推荐系统的应用 推荐系统分为离线计算部分(较高准确度)/实时计算部分(快速响应,但相对较低的准确度) 亚马逊:推荐系统的鼻祖,渗透到网站的各个角落,实现了多个推荐场景,向用户实时推荐可能感兴趣、有潜在购买可能性的商品。 虾米音乐:根据用户的音乐收藏记录来分析用户的音乐偏好,从而进行推荐。一般是基于内容的推荐为主。/协同过滤 协同过滤分为基于用户的协同过滤与基于物品的协同过滤。 基于用户的协同过滤(UserCF) 该算法于1992年被提出,符合人们对于“趣味相投”的认知,即兴趣相似的用户往往有相同的物品喜好。 UserCF算法的实现主要包括两个步骤: 找到和目标用户兴趣相似的用户***。 找到该***中的用户所喜欢的、 且目标用户没有听说过的物品 推荐给目标用户。/图11-4 基于用户的协同过滤/实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度。 目前较多使用的相似度算法有: 泊松相关系数(Person Correlation Coefficient) 余弦相似度(Cosine-based Similarity) 调整余弦相似度(Adjusted Cosine Similarity) 给定用户u和用户v,令N(u)表示用户u感兴趣的物品***,令N(v)为用户v感兴趣的物品***,则使用余弦相似度进行计算用户相似度的公式为: 得到用户间的相似度后,再使用如下公式来度量用户u对物品i的兴趣程度Pui:/基于物品的协同过滤(ItemCF) Amzon和Netflix的推荐系统的基础是ItemCF算法。 ItemCF算法主要通过分析用户的行为记录来计算物品之间的相似度,给目标用户推荐那些和他们之前喜欢的物品相似的物品。 ItemCF算法与UserCF算法类似,计算也分为两步: 计算物品之间的相似度; 根据物品的相似度和用户的 历史行为,给用户生成推荐列表。/图11-6 基于物品的协同过滤/ItemCF算法通过建立用户到物品倒排表(每个用户喜欢的物品的列表)来计算物品相似度。/图1

免责声明:
1. 《大数据在互联网领域的应用x》内容来源于互联网,版权归原著者或相关公司所有。
2. 若《86561825文库网》收录的文本内容侵犯了您的权益或隐私,请立即通知我们删除。