文献综述(或调研报告):
本课题调研也主要从三个方面展开,即插件部分、爬虫部分、数据处理和推荐部分。
1.插件部分:插件依附于浏览器,我们希望插件能应用在一个普遍通用的浏览器上,根据百度流量研究院[1]统计,Chrome浏览器[2]从2018.01.01到2019.01.31的市场份额为46.65%,可以说是当下全世界最通用的浏览器,因此我们选择在Chrome浏览器上进行插件开发。Chrome浏览器插件开发文档[3]是我们进行开发的重要指导,其中说明了插件其实是压缩在一起的一组文件,包括HTML、CSS、JavaScript脚本、图片文件及其他任何需要的文件。这样的定义从本质上来说,一个谷歌插件其实就是web页面,除了web页面所具备的基本功能,更重要的是,它们还可以使用所有chrome浏览器提供的API,这些API是制作插件不可或缺的一部分。
再说到插件制作需要的技术,HTML是用来描述网页的一种语言,它不是一种编程语言,而是一种标记语言,通过标签来描述页面。CSS则是一种用来表现HTML的语言,主要用于修饰网页。这两种语言都是必须且易学的,但是用来动态修饰页面的JavaScript却是拥有很多的库可以使用,其中最流行的是jQuery[4],jQuery是一个快速、简洁的JS框架,jQuery的核心特性可以总结为:具有独特的链式语法和短小清晰的多功能接口;具有高效灵活的css选择器,并且可对CSS选择器进行扩展;拥有便捷的插件扩展机制和丰富的插件。jQuery使得JS变得更容易,开源且有完善的文档,在制作插件时,我们也选择这一框架进行开发。
2.爬虫部分:当前的网络爬虫(Crawler)[5]主要分为全网爬虫(Scalable Web Crawler)、聚焦网络爬虫(Focused Crawler)、增量式网络爬虫(Incremental Web Crawler)。
全网爬虫是指从一些种子URL扩充到整个Web,主要为门户站点搜索和大型 Web 服务提供商采集数据。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。考虑三种爬虫的特点,我们的需求是在网页上爬取特定内容,比如用户关注列表、用户消息等,因此爬虫部分列属于聚焦网络爬虫。
爬虫常用语言为Python和Java,这两种语言爬虫都拥有很多优秀的框架,选择哪个都是可以的,本论文考虑后台也通过Java来写,因此爬虫部分也一并使用Java语言。
3.数据处理和推荐部分:数据首先需要进行存储,目前以MySQL、SQL Server、Oracle为首的关系型数据库[6]几乎霸占了数据库市场,SQL Server的优点是对Excel等软件有良好的ODBC接口,Oracle则是关系型数据库中速度和安全性做的最好的,银行和金融类公司都用的Oracle,但是SQL Server和Oracle都是收费的,Oracle费用还不低。由于免费开源的原因,MySQL也成为了很多公司的选择,MySQL在Web应用上具有体积小、速度快、成本低等特点,本论文作为一个小型应用,我们将选择MySQL作为数据库。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。