文献综述
一、前言
随着大数据时代和人工智能的不断发展,数据分析这一行业已经引起了各行各业的广泛重视。据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。数据已经成为一种人造的新能源,为了发掘海量数据中所隐藏的规律,我们需要借助编程语言和数据分析软件进行数据挖掘,采用算法建立恰当的模型,可视化地展示出数据中隐含的规律,从而为人们的生产生活、商业活动等提供决策和建议。因此数据分析领域出现了Excel、R、Python、Statistical Analysis System (SAS)等一系列工具,在数据分析的过程中,这些工具帮助数据分析师高效地从海量数据中发现问题,验证假设,搭建模型,预测未来。
图1 The size of the global data circle 2025
二、国内外的数据分析研究现状
国外为了数据分析研制了各种各样的产品,这些产品都拥有广大的用户群体。SAS是由北卡罗来纳州立大学两位生物统计学研究生编写及制定的,最早只是一个数学统计软件,于1976年由Jim Goodnight及John Sall博士等人成立统计分析系统公司,并且正式推出相关软件。SAS把数据存取、管理、分析和展现有机地融为一体。Excel电子表格是Micrsoft推出的Office系列产品之一,是一个功能强大的电子表格软件。凭借着其对用户友好的界面和简单易上手的特性,在中小企业的数据管理,分析中得到了广泛应用。
Python和R都是开源软件,是两个免费的自由软件,使用者们均可以不断改善和丰富Python和R语言在数据分析方面的功能。R语言中各类统计函数皆可以调用,从而令使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。在数据分析和交互、探索性计算及数据可视化等方面,相对于以上提到的工具,Python凭借着丰富的数据分析类库(如Pandas,Numpy, Matplotlib),越来越受到人们的欢迎。它的优势在于其胶水语言的特性,一些在底层使用C语言写的算法封装在Python包里,呈现非常高效的性能 (Python的数据挖掘包Orange canve 中的决策树能够10秒钟分析50万用户,而R语言则需要数个小时甚至更久,并可能将8G内存全部占满)。Pandas是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,能够简单、直观地处理关系型、标记型数据。它为 Python 提供了高性能、易使用的数据结构与数据分析工具。NumPy是使用Python进行科学计算的数组处理软件包。它提供了高性能的多维数组对象和工具来处理数组。Matplotlib是用于绘制各种图形的Python库,通过Matplotlib可以用Python来绘制各种绘图。
表1 Python main data analysis library
三、研究主要成果
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。