基于apriori算法的电影影讯推荐系统的设计和实现的文献综述
摘要: Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。本课题将通过使用基于Apriori算法上做出改进的算法用到电影推荐上,从大量电影打分数据形成的大数据集中找到可用于电影推荐的关联规则。 我们先利用Apriori算法寻找数据中的频繁项集, 然后根据找到的频繁项集,生成关联规则。 在剩余数据—测试集上进行测试,利用交叉检验方法对每条规则的效果进行更为充分的评估。以达到高效率的推荐结果。
关键词:Apriori算法; 数据挖掘; 电影推荐; 大数据集
- 前言
对客户进行产品推荐是大数据集中的一项主要技术。 例如网上商店就基于此向客户有针对性地推荐他们可能会喜爱的产品。显然一个优秀的推荐算法对提高销量是大有脾益的,并且据统计每年至少有上亿用户进行网上购物,因此,应用好的算法尤为重要。而这个问题可通过关联规则挖掘算法来解决。关联规则挖掘算法是数据挖掘领域非常经典的算法,它主要通过对商品的销售记录进行分析,挖掘出 用户经常购买的商品的规律,如经常买牛奶的用户同时也会去买面包。利用挖掘得到的规则就可以采取不同的销售策略。最后,根据这个寻找出潜在的规律发现提高销售额的路径。
- 历史发展:
别看近几年大数据的兴起,数据分析和统计学才渐渐进入公众的视野,实际上,数据分析这门学问已经有着非常悠久的历史。而统计学本身就是一门很古老的科学,最早可以追溯到亚里士多德时代,在两千多年的发展中,统计学经历了“城邦政情”“政治算数”和“统计分析科学”这3个重要的发展阶段。至此,人们已经发现万事万物之间可能存在着各种各样的关系,并且这种关系是可以探寻并应用的。
数据挖掘方法有很多,如关联规则、分类等,这些挖掘方法中关联规则是应用最为广泛的方法。20世纪90年代,Agrawal等人首次提出了该方法, 随后便用它去分析销售数据。通过对数据的分析,挖掘出一些有价值的购买模式和规则,并借助这些规则对销售方法与货物的摆放等进行改进,从而做出正确的商业决策。在关联规则中最具代表性的算法就是Apriori算法,该算法是基于发现频繁项目集的关联规则算法。目前,关联规则挖掘技术在诸多领域中都被广泛的应用,如保险、金融界等。而当今随着爱看电影的人越来越多,对于向用户推荐电影影讯,借助关联规则挖掘用户观影数据中有价值的规律,从而使推荐系统的精确性和命中率更高,这对改善用户体验将是一项十分有价值和有意义的工作。
- 现状分析:
国外在数据挖掘方面起步比国内早,自然而然地,成果也颇为丰富,其中最具代表性的算法就是关联规则算法,因此对此进行研究很有必要,1994年,Apriori算法由AgrawaI和Swami等人提出,接着他们将该算法用于挖掘事务库,对各项集之间的规则进行挖掘。时间再往后移,Park JS引进了DHP算法,通过散列表得到候选集。随后Savasere等人又提出了一种基于划分的Partition算法,此法缩小了内存需求又提高了并行性。而另一个人 Toivonen则对Apriori算法寻找频繁项集的过程做了改进,然而实验结果表明虽然它在较大的数据库中奏效,但也不可避免地会产生一些风险,即结果的准确度不高。因此 Abuzanona MA等人又发明了一种新的挖掘算法,该算法对挖掘大型事物库的相关规则颇见成效。此算法延伸到电影行业,国外现在已经形成了几个比较著名的推荐系统:Jinni、IMDB、 Criticker-7 、Movielens' 、Nanocrowdl、RottenTomatoesf ;这些推荐系统在满足用户基本的检索与推荐需求的前提下,还提供更多新颖科学有效的方法及工具赢得了更多的用户使用量。
与国外的研究成果相比,国内对于数据挖掘的研究要晚一些,但同样也在快速的发展。譬如黄建明,赵文静等人为克服经典Apriori存在的一些缺陷,提出在一个十字链表上对事物数据进行映射的改进算法。张华飞则提出了一种基于逆序转换的模式匹配算法,对于大型数据库的处理效果极好。白似雪等人利用有向图改进了计算候选集支持度的方法,提高了运行效率。顾琳,黎敬涛等人引进了一种0—1矩阵算法。在最大限度上改进减少数据库访问次数的问题,同时也减少了候选项集。吴琪在连接与剪枝的步骤中结合了云计算中的Map映射以及Reduce归约这两个概念,在很大程度上充实了 Apriori算法的内容。对关联规则挖掘进行研究的主要目的是借助它去挖掘更多有价值的知识。
基于此,国内的影视推荐系统,成熟的有比如爱奇艺,优酷,土豆,乐视等,可是总体上来说还是存在一些问题,比如推荐功能不完善,视频推荐泛化性能相对较差等,因此,只有日益迭代更新推荐算法才能有效提升推荐效率。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。