本文共 1743 字,大约阅读时间需要 5 分钟。
本节书摘来自华章出版社《移动数据挖掘》一 书中的第1章,第1.4节,作者连德富 张富峥 王英子 袁晶 谢幸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
在这些挑战之下,本书将主要以人的轨迹数据,特别是移动社交网络的位置数据为中心,结合人的基本信息及社交网络等相关信息来研究个人与群体的移动模式特性,具体包括用户移动建模、基于移动数据的用户画像及个性化兴趣地点推荐等。
● 在介绍移动数据的挖掘内容之前,我们先会介绍移动数据的预处理方法。数据预处理通常是数据挖掘的第一步,也是非常重要的一步,它可能会影响到后续挖掘算法在移动数据中的准确性或可用性。在移动数据预处理的章节(第2章)中,我们会介绍缺失数据的补全和噪声数据的清除,这些主要针对用户室内定位数据的丢失或漂移问题,以及由于业务本身造成的数据缺失问题等等。那些连续收集的GPS轨迹数据通常存在大量冗余,因而需要利用聚类算法进行重要位置或事件的检测,比如路径轨迹中停留时间较长的地点。但是这些被提取出来的重要位置一般没有语义信息,如何基于有监督学习的算法利用诸如兴趣点、可开展活动的信息对这些重要位置进行标记或命名,也是预处理部分需要介绍的内容。● 对人类移动模式的理解是自然科学的重要内容,它对于交通规划、疾病传播、城市规划等具有重要的作用。人类移动模式的理解主要在于了解人类移动背后的规律,并在此基础上对人类的移动进行建模,从而预测人类的未来移动。第3章将从人类动力学角度和数据挖掘两个角度来阐述对人类移动模式的理解。人类动力学角度是将每个个体当作物理学中的粒子,基于粒子的物理移动模型(比如连续的随机游走模型)来建模研究人类的移动行为,具有很强的物理学意义和解释性。而基于数据挖掘的移动模型则是从数据出发,利用如马尔可夫模型或时间规律性模型来分析用户的移动特性。此外,该章还会介绍移动模式中的时空聚类特性,以及如何度量社交网络对于移动行为特性的影响。然而,根据宋超明等人[114]的分析,在数据较为完整的基站轨迹数据中,用户行为的可预测性虽然高达93%,但是仍然存在7%的不规律行为(文中称为地点探索行为)。为此,该章也会阐述对这类移动行为的分析和预测,同时介绍统一的算法框架来同时预测规律性行为和探索行为。● 不同用户的移动模型均会有所差别,但也存在很多共性。这种共性可能是他们共同的属性或特质决定的,使得从用户的移动模型去推导用户的基本属性或特质成为可能。因此,在第4章中,将介绍基于移动数据的用户画像,利用分类算法或回归算法对用户的显性属性和隐性属性进行预测。其中的显性属性是指年龄、性别、教育背景等基本信息,而隐性属性则是指一些心理特性,比如消费冲动心理、新颖性探索特性,等等。对这类问题的研究使得提出准确率更高的预测算法成为可能。另外,不管是隐性属性还是显性属性,出于隐私的考虑,人们都不会轻易地将其分享出来,因而用户画像可以为精准的移动广告和精准营销提供重要的依据。也就是说,系统可以根据移动行为的特性来投放相应的广告。● 针对移动数据的挖掘,我们不仅可以刻画人们的时空规律性,而且还可以学习人们的兴趣偏好,进而推荐适合他们的未访问过的兴趣地点。这种兴趣的挖掘一般是通过聚类等降维技术或协同过滤等学习方法来实现的。在第5章中,首先会根据兴趣地点推荐问题重点介绍协同过滤方法在移动数据上的应用研究。由于地点是内嵌在地理空间中的,人们对地点的访问存在空间聚集效应,即符合地理学第一定律——“任何事物都相关,只是相近的事物关联得更紧密”,我们将重点考虑地理影响力的建模。如果将地点的物理位置作为地点内容信息,地理建模就是一种基于内容的推荐方法。除了地理信息以外,被推荐的地点通常还有其他很多的诸如评论等的文本信息,那么如何针对这些文本信息进行基于内容的推荐?最后,将介绍统一的兴趣地点的推荐模型,来同时考虑这些重要的要素。主要包括介绍如何基于这些用户属性和地点的内容属性实现在移动数据不完整的情况下(冷启动)的推荐问题,这一点与第4章从移动模型预测用户属性的出发点刚好相反。另外,地点的推荐应该是在一定的情境,比如说特定时间之下完成的,因此情境感知的地点推荐方法也是该章的重要内容之一。转载地址:http://icvul.baihongyu.com/