基于Python的微信朋友圈关系数据分析与实现的文献综述
摘要:随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决这个问题,产生了自动提取网页的网络爬虫技术。而Python这样的简单编程语言,则使用少量编程技能就可以爬取复杂的网站。为了对微信朋友圈的好友的信息进行数据分析,从而促进对好友的爱好和价值取向的了解,因此,本论文将探讨基于python的微信朋友圈关系数据分析与实现这个内容。本论文将好友上网行为数据项进行预处理,对不同类别进行描述,并且用聚类进行分析,从而根据结果得出好友上网行为的规律。
关键词:爬虫 python 数据挖掘 数据分析
- 背景及意义
随着大数据时代的到来,数据量呈几何倍增长。网络爬虫技术可以有效准确地抓取目标数据,可以节省大量的资源,对信息检索起着十分重要的作用。基于python的网络爬虫技术,具有很高的前瞻性,有一定的研究价值。基于python的微信朋友圈关系数据分析与实现这个课题是为了研究微信好友尽可能多的爱好和价值取向,将朋友圈朋友关注的内容,通过自然语言处理、文本分析等科学技术对收集到的数据进行加工和分析研究,从而得到规律,此研究有利于对微信好友的特性更加了解,促进沟通。
本论文将python爬虫技术应用于微信朋友圈数据收集,并用数据挖掘中的关联规则挖掘技术对数据进行分析、对比,从中发现微信好友的爱好和价值去向的规律。
2.国内外研究现状
20世纪90年代初,Guido van rossum创建了python,并且python还被逐渐广泛应用于系统管理任务的处理和web编程。由于Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python来教授程序设计课程。例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用Python语言讲授。众多开源的科学计算软件包都提供了Python的调用接口,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。
近几年,大数据、人工智能、机器学习越来越受国人关注,以至于普通人都对其有所耳闻。而Python语言简单,且拥有庞大的外部库,这些库能够轻松实现不可思议的功能。其中有一个ithcat库,它是一个开源的微信个人号接口,使用python调用微信成为简单的事情,使用不到三十行的代码,就可以完成一个能够处理所有信息的微信机器人。微信在我国是一个全国性的聊天交流软件,能够显示出每个人的兴趣爱好,有人选择在朋友圈里记录生活的点滴,有人选择在朋友圈里展示观点的异同。基于对微信好友的地域分布以及爱好的好奇,CSDN等各种计算机网站上,很多技术小哥由于对微信用户上网行为的好奇,于是用python的itchat进行微信好友信息的获取并进行分析,并实操了一把。其中的分析过程也运用到了另外一种技术,数据挖掘。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。