基于分布式的推荐系统
基于分布式的推荐系统汇报人:导师:目录/CONTENTS01传统的协同过滤推荐算法02基于Hadoop的协同过滤推荐算法03总结01传统的协同过滤推荐算法基于用户的协同过滤推荐算法基本思想:俗话说“物以类聚、人以群分”,拿看电影这个例子来说,如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影,另外有个人也都喜欢这些电影,而且他还喜欢《钢铁侠》,则很有可能你也喜欢《钢铁侠》这部电影。所以说,当一个用户A需要个性化推荐时,可以先找到和他兴趣相似的用户群体G,然后把G喜欢的、并且A没有听说过的物品推荐给A,这就是基于用户的协同过滤算法。基于项目的协同过滤推荐算法基本思想:而基于项目(item-based)的协同过滤和基于用户的协同过滤类似,只不过这时我们转向找到物品和物品之间的相似度,只有找到了目标用户对某些物品的评分,那么我们就可以对相似度高的类似物品进行预测,将评分最高的若干个相似物品推荐给用户。比如你在网上买了一本机器学习相关的书,网站马上会推荐一堆机器学习,大数据相关的书给你,这里就明显用到了基于项目的协同过滤思想。基于模型的协同过滤推荐算法基本思想:基于模型的协同过滤作为目前最主流的协同过滤类型,其相关算法可以写一本书了,当然我们这里主要是对其思想做有一个归类概括。我们的问题是这样的m个物品,m个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。对于这个问题,用机器学习的思想来建模解决,主流的方法可以分为:用关联算法,聚类算法,分类算法,回归算法,矩阵分解,神经网络,图模型以及隐语义模型来解决。02基于Hadoop的协同过滤推荐算法在Hadoop分布式计算平台中对UserCF推荐算法进行MapReduce编程,得到基Hadoop的UserCF推荐算法,分为五个步骤完成分布式UserCF推荐算法:读取原始用户评分数据集数据,生成用户-项目评分矩阵UI;生成“项目-用户倒排”索引,计算用户与用户相互看过的同一项目数。例如UA:UB1,表示用户A和用户B同时看过一个电影;利用上一步生成的“项目-用户倒排表”计算用户与用户之间的相似度;生成最近邻,取最近邻个数k;利用第一步生成的UI矩阵与相似度矩阵相乘;累加得分计算最终结果并降序排序,遍历判断之前读取的原始数据集,删除之前用户关注过的历史项目,生成最终Top-N推荐。在Hadoop分布式计算平台中基于用户的协同过滤推荐算法在Hadoop平台对改进的ItemCF推荐算法MapReduce编程,得到基于Hadoop的ItemCF推荐算法,总共分为五个步骤:生成用户-项目评分矩阵;进行项目相似度矩阵计算;生成最近邻,取最近邻个数k;用第一步生成的评分矩阵UI与相似度矩阵相乘;累加得分计算最终结果并降序排序,遍历原始数据集,删除目标用户历史关注过的项目,根据k值确定最终TOP-N推荐。在Hadoop分布式计算平台中基于项目的协同过滤推荐算法1.首先把实验所用到的数据集按照一定比例分为两部分,分别作为训练集1D和测试集2D,训练集用来矩阵特征学习并构建模型,测试集用来评测Top-N推荐结果;2.其次在Hadoop分布式计算平台上对稀疏数据集进行用户评分预测,对稀疏的训练集1D填充得到完整的用户-项目评分集1D3.再次在阶段(2)基础聚类算法,构建CK-Means算法模型对稀疏数据集聚类处理,构建聚类集合;4.最后阶段利用传统余弦相似度计算聚类集合中数据,形成推荐候选集S,最终完成基于Model-CF的Top-N推荐。在Hadoop分布式计算平台中基于模型的协同过滤推荐算法03总结结合传统CF推荐算法和Hadoop平台,设计实现了基于Hadoop的分布式协同过滤推荐算法。建立在Hadoop平台下CF推荐算法思想。在Hadoop环境下填充稀疏数据集并最终得到完整的用户-项目评分矩阵。改进后的分布式CF推荐算法旨在解决部署在单物理机模式下的CF推荐算法的诸多弊端,传统CF推荐算法存有的可扩展性差、数据极度稀疏、冷启动等问题。从而更好地提高推荐系统性能和Top-N推荐准确率,使用户在海量信息中迅速得到自己感兴趣的信息资源。在当今的大数据时代,“信息超载”问题越来越严重。通过设计分布式协同过滤推荐算法,有效地解决了传统CF推荐算法的弊端,为个性化推荐系统提供准确、高效率的推荐打下了良好的基础。传统电子商务商品推荐系统采用单机方式工作模式,用一台计算机对所有用户的请求和商品数据进行管理,随着用户数量和商品数据的不断增多,单机工作模式的缺陷日益明显,主要表现在:电子商务商品推荐系统工作速度慢,在短时间内很难找到用户自己真正需要的商品。为了克服单机方式的电子商务商品推荐系统的缺陷,有学者设计了基于分布式处理技术的电子商务商品推荐系统。为了更高效地管理海量的产品信息及用户信息,提出基于分布式计算的智能推荐系统解决方案,提高海量数据挖掘和商业智能分析的能力,以较低的成本实现高性能计算,满足电子渠道业务需求。•速度快•运算量大分布式与推荐系统感谢聆听
提供基于分布式的推荐系统会员下载,编号:1701027049,格式为 xlsx,文件大小为14页,请使用软件:wps,office Excel 进行编辑,PPT模板中文字,图片,动画效果均可修改,PPT模板下载后图片无水印,更多精品PPT素材下载尽在某某PPT网。所有作品均是用户自行上传分享并拥有版权或使用权,仅供网友学习交流,未经上传用户书面授权,请勿作他用。若您的权利被侵害,请联系963098962@qq.com进行删除处理。