文献综述
单词是语言中重要的基本元素。
一个单词可以代表一个信息单元,有着指代名称、功能、动作、性质等作用。
在语言的进化史中,不断有新的单词涌现,也有许多单词随着时代的变迁而边缘化直至消失。
根据统计,《汉语词典》中包含的汉语单词数目在37万左右,《牛津英语词典》中的词汇约有17万。
理解单词对于分析语言结构和语义具有重要的作用。
因此,在机器阅读理解算法中,模型通常需要首先对语句和文本进行单词分拆和解析。
分词(tokenization)的任务是将文本以单词为基本单元进行划分。
由于许多词语存在词型的重叠,以及组合词的运用,解决歧义性是分词任务中的一个挑战。
经过近30年的探究,中文分词从提出到现在,已经提出了很多方法,如规则分词、统计分词和混合分词。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。