基于移动轨迹挖掘的用户行为研究综述
摘要:在新兴科技高速发展的时代,大数据的产生改变了研究者对已知世界的研究视角和分析表达方式。而轨迹数据作为信息产业时代下衍生的具备地理空间性质的新型地理大数据,其庞大的数据资源使得在时间和空间尺度上拥有丰富度极大的可挖掘信息,因此如何高效地分析和提取轨迹信息中的有效内容,研究用户的行为规律、活动模式及其相关性关系等成为地理信息科学及其他相关学科进行地理信息应用和服务的重要研究内容。特别是在研究人类的行为特征并获取运动和时空相关的未知知识的应用领域中,基于轨迹数据的信息挖掘成为了当下研究的热点和应用增长点。本文主要对人类行为研究中常用的移动对象数据集进行阐述并综述了轨迹数据挖掘在用户行为分析领域中的典型应用,最后对轨迹数据挖掘的发展和面临的挑战做出大胆的猜想。
关键字:新型地理大数据; 轨迹数据挖掘; 用户行为特征; 用户行为分析应用;
引言
传统的概念上,对用户的行为分析主要是建立在互联网的操作日志上的数据挖掘[1][2],提取用户访问网站的行为规律并应用于网络营销的决策中[3]。基于网络数据的行为特征分析有着广泛而常见的应用,而随着研究手段的多样化、技术水平的提高以及领域的扩大,用户行为分析已经实现了从网络世界到现实世界的跨越[4]。在2007年的亚太地区的知识发现与数据挖掘会议上的报告中,移动对象的数据挖掘已经被作为数据挖掘研究前沿之一[5]。但是长久以来,在进行现实行为的分析研究中,现实个体的信息获取手段主要是通过传统的人工记录和实地调查等,因此其活动周期性长、精度低、连续性和完整性差等特点使得大规模有效地长时间观测和记录人类活动轨迹的精度难以保证,具有局限性。近年来,随着地理信息科学学科的出现、无线传感器技术以及信息通讯技术的快速发展和计算机技术水平的提高,使得全球范围内的移动用户能够得到较为准确的定位和有效追踪,且能够通过信号接收设备在定位终端接收大量的用户轨迹数据。通过这些技术获得的轨迹数据不仅拥有极其丰富的可挖掘信息,而且其独特的地理特性使得轨迹数据的挖掘展现出巨大的研究潜力[6]。
移动轨迹蕴含了大量的信息,通过数据挖据[7],不仅可以获得轨迹自身的特性(如移动方向、移动速度和移动路线),还可以分析移动对象的活动特性(如驻留点、到访频度)和区域环境状况(如路况、商业状况),因此在城市计算、社交网络、行为预测等领域中有很大的应用前景。轨迹数据挖掘具体体现在利用通过卫星定位技术和信息通讯设备获取的大量位置信息,进行数据挖掘后将分析与应用领域延伸到配置有时空坐标的现实地理环境中。由于轨迹数据的获取本身就是基于用户的移动,因此轨道数据中隐含了丰富的用户行为信息和空间结构信息。在研究中,基于大量的用户个体行为,在各类相关学科的支持下,以建立宏观和微观之间的相互关系为指导思想,发现宏观的人类移动模式,再构建基于微观的个体模拟模型[8],继而反向应用到用户行为相关领域的预测和决策中。图 1描述了基于获取的行为数据,围绕用户个体空间的研究结构框架。研究需要基于移动通信设备的基站或者GNSS的海量移动轨迹大数据进行采集、加工、处理和管理,通过对数据的预处理以及必要的数据管理索引与检索形成系统规整且无噪的有效数据[9],再利用挖掘隐含的模式以及轨迹类别对特定的区域进行宏观分析和处理,进而通过相关性构建基于个体的基本模型,模拟并探究个体行为及其相互之间的关系。从图中可以看到,挖掘的本质是基于人类行为数据,将数据转化为对客观世界活动主体的规律描述,最终重新应用到人类行为领域的研究过程。
图 1 用户行为轨迹数据分析技术架构
用户轨迹数据集分类
轨迹数据是时空环境下,通过对一个或多个移动对象运动过程的采样所获得的数据信息,这些采样点数据信息根据采样先后按序构成了轨迹数据。用户轨迹数据作为大数据的一种,获取的手段和途径各式各样,导致其数据格式和类型具备多样化结构,但是确定的是轨迹数据一般都包括以下基本信息:数据源ID、位置经度、位置纬度、时间等[10]。轨迹数据根据移动对象通常可以分为人的移动轨迹、交通工具移动轨迹、动物移动轨迹等。但是在人类社会活动研究中,按照采样方式和触发机制的不同,将用户的轨迹数据分为以下两种类型:①基于时间采样的轨迹数据,即传感器按照等时间间隔对移动用户进行轨迹采集;②基于事件触发活动轨迹,即收集移动用户触发传感器事件时的位置记录形成的轨迹[11]。下面按照不同的轨迹类型进行阐述。
基于时间采样的轨迹数据
基于时间采样的轨迹数据主要是传感器或者接收终端按照事先的设定,在等时间间隔内对对象的位置进行记录的过程。例如:安装有GPS定位服务的终端在固定的频率内获取了终端机所在位置的经纬度信息以及时间信息等;配备有定位装置的交通工具,实时获得汽车驾驶员的瞬时经纬度信息甚至是驾驶方向。基于时间采样的轨迹数据由于其采样方式,使运动数据具备了较强的连续性,在研究过程中能够完整地获得移动路径,减少轨迹发生中的不确定因素的干扰,较为完整地确定活动的范围。特别是在个体间的行为分析以及群体推荐的服务功能的研究中,基于时间采样的轨迹数据是研究的主要数据类型。基于时间采样的数据具有数量大、连续性好的特点,但是由于是以时间间隔为采样形式的记录方式,会造成数据冗余,存储资源浪费的情况。在配备有GPS服务的汽车在出行中,通常会出现车辆运行的状态或者位置并没有改变,但是仍旧对其进行位置数据收集的情况,很容易造成数据的大量累积和泛滥。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。