文献综述(或调研报告):
本课题涉及内容主要为自然语言处理,包括非结构化文本的表征、文本的标注处理以及机器学习算法的的选择与使用。
1.非结构化文本的预处理
1.1 实体的提取[6]
目前开放式信息抽取技术多以实体为核心。实体是指独立存在的事物,不同类型的实体一般具 有不同的属性,同一类的实体一般具有大致相同的属性,只是其属性值会有所不同。非结构化实体属性值抽取是对一个给定的实体,从非结构化文本中抽取出实体的属性及其属性值形成结构化数据。若给定一个实体A,将其属性值看作实体B,属性看作他们间的关系,非结构化属性抽取是实体关系抽取任务,目标是给定实体,从非结构化文本中抽取出(实体,属性,属性值)三元组。
1.2 文本的标注[4]
Swee Kiat Lim对文章进行的标注主要目的是将描述恶意软件操作和行为的重要单词短语映射到相关的MAEC词汇表。一般分为3个步骤:使用词条标签对文本中的单词短语进行标注、对已经标注过的单词短语之间的关系进行标注、对已经标注过的单词短语的具体属性进行标注(关联到MAEC)。
2. 提取出的特征的表示方法[4][6]
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。