《基于Apriori算法的欺诈检测模型研究》文献综述
摘 要:随着通信和互联网技术的飞速发展,其便利在拓展人际交流、丰富人们生活的同时,也给一些不法分子提供了新的诈骗手段——利用通信信息进行诈骗,呈现出'互联网 诈骗'的新特征,更是渗透干扰工作生活的各领域。关联规则被认为是数据挖掘中最有效的研究模型,能够发现相关项目之间潜在有用的关系,从而为决策者提供决策支持或为政策法规的制定提供依据。基于此,以诈骗案件为例,为了检测和预防欺诈,从事务交易数据库中抽取信息,分析网上银行交易的一般特性,以便得出易受骗人群,对于辅助破案有所帮助。
关键词:关联规则;数据挖掘;网络诈骗;欺诈检测;欺诈预防
- 关联规则方法学
(一)关联规则挖掘算法
给定一个项目集I和一个事务集T,每个事务是项目的子集,每个事务具有唯一的事务标识符,关联规则挖掘就是从事务数据集中挖掘出A=gt;C的蕴含式,其中,AI,CI并且Acap;Cne;empty;,A称为前项项集,C称为后项项集,挖掘关联规则,如果没有限制,挖掘出来的规则是大量的,可能也是无用的,基于此,考察关联规则的属性,关联规则属性的两个重要参数是支持度和置信度,支持度support(A=gt;C)=P(AC)=P(Acup;C),就是项目集Acup;C的支持度,即为A和C同时出现的可能性,规则的置信度为包含A事务的同时也包含C的百分比,即confidence(A=gt;C)=P(C|A)=support(Acup;C)/support(A),置信度反映了包含A的事务中,出现C的条件概率,关联规则的支持度和置信度分别反映了发现的关联规则的重要性和可信程度。通常,只有支持度和置信度都较高的关联规则才是用户感兴趣的、有用的关联规则。关联规则挖掘的主要问题是事务数据库规模大,如何提高算法的执行效率非常关键,如何快速有效地找出事务数据库中的频繁项目集,通常采用迭代的方法产生频繁项目集,扫描数据库的每个事务,并按照事务数目确定的最小支持度找出所有的频繁项目集。但是在挖掘过程中需要注意,要充分地理解数据,明确实现的目标,数据准备工作也是非常重要,它将直接影响到问题的复杂度和实现目标,同时要选择适当的最小支持度和最小置信度,根据对目标的估计,如果将支持度和置信度设置过小,将会发现大量无用的关联规则,将影响执行的效率,而且很难发现有用的关联规则;如果设置过大,又有可能找不到规则。
(二)模糊关联规则挖掘算法
模糊关联规则挖掘将数据库记录进行模糊化,确定各个数量型属性的隶属函数,通过模糊集合把属性分为多个语义项目,得到每条事务上的各个语义项目的隶属度取值,对模糊以后的数据库记录进行挖掘,可以分为两个阶段,第1阶段,通过用户设定最小支持度阀值,发现所有模糊频繁项集合;第2阶段,针对每个模糊频繁项集,发现所有可能的模糊关联规则,从中选取项目支持度和项目置信度大于给定的阀值条件的规则。其中,每个隶属函数的确定会对模糊关联规则的挖掘有着重要的影响。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。