文献综述
论文题目: 基于聚类分析的江苏省林产品配送中
1 聚类分析研究现状
人们常常通过分类来研究一个新事物:寻找一些可以用于描述它的特征,然后将它与其他已知的对象进行比较。根据某些标准或规则判断他们之间的相似性(或相异性),进而将它纳入知识体系。而聚类是人们将数据归类或分组到不同类别的一种重要手段,在图像分割、生物信息处理、刻画用户画像、恶意行为检测、商品推荐 等诸多领域都有着广泛的应用。
聚类,又称之为无监督分类,目标是将一个有限未标注数据集分成多组对象,称为子簇,使得子簇内对象之间的相似度大于不同子簇对象之间的相似度。聚类算法让相似的对象聚合在一起,以期望发现数据集合中潜藏的内在数据结构,进而可以对划分出来的每一子簇进行研究,发现每个子簇的性质及特点,而不是杂乱无序的研究全体对象。
在聚类算法领域,有的学者通过定义一个更符合问题实际的相似度函数来增强聚类算法的效果。比如,马氏距离函数考虑到了数据不同的维度之间可能并非独立,而是具有相关性,有国外学者讨论了马氏距离函数在高维数据空间中的应用山。国内有学者研究如何通过统计分析来找到最优距离函数2。还有学者提出了自适应距离函数Hausdorff函数。
近几十年来,涌现了许许多多的聚类算法。有的算法通过迭代分割数据集获得聚类,较为知名的有k-means、k-modes、 k-medoids、 CLARANSI、AP算法。有的算法以同簇数据点的紧密性为导向,可以向任意方向延伸,能够发现连通的稠密的对象集合,如DBSCAN、OPTICS、 DENCLUE算法。有的算法将特征空间划分成网格结构,在这些网格,上进行聚类,如STING、CLIQUE算法。有的算法可以构建出一种树状的层次结构,蕴含着多层级的聚类信息,如包括ROCK、BIRCH、Chameleon、CURE算法。还有些算法基于概率模型设计,如EM算法; 有些算法引入了模糊集理论,如Fuzzy C-Means算法;有些算法以图的视角看待数据,如谱聚类方法、CLICK算法。
- 国外研究
在国外,Lloyd(1957)基于划分的思想首次提出了K-Means聚类算法,MacQueen(1967)亦对K-Means算法进行了研究;由于K-Means聚类算法通常会在获得一个局部最优值时终止,且只适合于数值型数据的聚类,只能发现聚类结果为凸形的数据集,Kaufman(1990)和Rousseeuw(1990)分别提出了K中心点算法PAM和
CLARA;Huang(1998)亦针对K-Means算法存在的不足之处进行改进提出了一种适合于分类属性数据的K-Modes算法;Ng和Han(1994)针对大型应用的研究提出了
CLARANS算法;Ester, Kriegel和Xu(1995)采用有效的空间存取方法,进一步改进了CLARANS的性能;Day和Edelsbrunner(1984)对凝聚层次聚类算法进行了早期综述,Kaufman和Rousseeuw(1990)提出了分裂层次聚类算法(DIANA); Zhang,Ramakrishnan和Livny(1996)使用CF树进行层次聚类,提出了BIRCH聚类算法;Guha,Rastogi和Shim(1998)通过复杂的链接分析、变换和最近邻分析提出了CURE聚类算法; Ester,Kriegel,Sander和Xu(1996)抛弃了距离这一概念,基于密度的思想提出了新的聚类算法DBSCAN;Ankerst,Breunig,Kriegel和Sander(1999)为了减少算法对输入参数的依赖性提出了一种簇排序方法OPTICS,大大方便了基于密度的聚类:Wang,Yang和Muntz(1997)基于网格的思想提出了多分辨率方法STING;
Sheikholeslami,Chatterjee和Zhang(1998)提出了一种通过小波变换来变换原特征空间的多分辨率的聚类算法WaveCluster;Dempster, Laird和Rubin(1977)基于模型思想提出了聚类算法EM;即期望最大算法;Agrawal,Gehrke,Gunopulos和Raghavan(1998)针对高维数据的聚类问题提出了称为CLIQUE的基于Apriori思想的维增长子空间聚类算法。
- 国内研究
国内对数据挖掘亦有几十年的研究历史,对聚类分析算法的研究也很深入:孔锐,张国宜,施泽生,郭立等人(2004)通过将核学习思想应用到K-Means聚类算法中,提出了一种核K-Means聚类算法进而提高了K-Means算法的运算速度;徐义峰,陈春明,徐云青等人(2008)针对K-Means聚类算法中有关随机选择初始聚类中心的缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的方法,进而提高了K-Means算法的聚类准确度;刘靖明,韩丽川,侯立文等人(2005)基于粒子群理论提出了一种新的聚类算法;杨博,刘大有,Liu Jiming,金弟,马海宾等人(2009)对复杂网络的结构进行分析,将聚类算法应用到复杂网络的特殊结构,实现对复杂网络的聚类分析;姚清耘,刘功申,李翔等人(2008)基于向量空间模型提出了针对于文本数据的聚类分析算法LP;杨燕,靳蕃,Mohamed Kamel等人(2004)基于蚁群理论将多种聚类算法进行组合,来模仿多蚁群的协作性能,对数据进行独立且并行的聚类分析,进而大大改善聚类质量。
2 中转站选址研究
- 国外研究
在国外,对物流中心选址问题的研究已有几十年的历史,对各种类型物流中心的选址问题在理论和实践方面都取得了很高的成就,逐步建立了许多具有实际应用价值的模型和方法。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。