基于Adaboost的文本分类算法文献综述

 2022-11-09 11:39:20

文 献 综 述

摘要

我们正处在一个信息爆炸的时代。网络的迅猛发展,网页,电子邮件,数据库,聊天室和数字图书馆等电子文本正在成几何级数不断增长,面对如此庞大而且急剧膨胀的信息海洋,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。目前,随着从事自然语言处理工作者对分类器以及分类策略与优化方案的不断深入研究,文本分类在精准度上已经得到不断地提高。基于此,本课题拟探索基于adaboost的文本分类算法,依靠文本分类基本流程以及adaboost框架,实现一个较为准确的文本分类系统。

关键词:文本分类;分类器;adaboost

正文

文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类。文本自动分类的任务是:在给定的分类体系中,根据文本的内容自动地将 文本关联到类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类 别的文本映射到已有的类别中,用数学公式表示为:

f:A→B (1.1)

其中,A表示未标明类别的待分类的文本集合,B表示分类体系中已确定的类别集合。

关于文本分类,国外当前流行的文本分类方法有 Rocchio 法及其变异方法、k 近邻(KNN )、决策树、朴素贝叶斯、贝叶斯网络、支持向量机(SVM)等方法。这些方法在英文以及欧洲语种文本自动分类上有广泛的研究,而且很多研究表明 KNN 和 SVM 是英文文本分类的最好方法。国外很多研究人员对英文文本分类领域的各个问题都有相当深入的研究,对几种流行的方法进行了大量的对比研究。Susan Dumais 等学者对这5种方法进行了专门的比较研究。

然而,国内自动分类研究起步较晚,始于 20 世纪 80 年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。我国自动分类的研究大体上正在经历从可行性探讨--辅助分类--自动分类系统的发展阶段。关于中文文本分类的研究相对较少,国内的研究基本上是在英文文本分类研究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中文之上,继而形成中文文本自动分类研究体系。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。