带三点水的男孩名字雷锋网 AI 科技评论:本文为阿里巴巴提供的 KDD 2018 解读。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。
过去 30 年,随着高质量实验技术和互联网高速连接的出现,越来越大量的数据已经可以自动化的生产和传输。随之而来是,工业界、学术界、甚至个人都必须面对大型数据处理的挑战,如何从这些大量高维异构的数据中挖掘有价值的信息,一直是数据挖掘从业人员们在解决的问题。「数据挖掘」,通常也为「数据库中的知识发现」,是一个充分利用各种统计、机器学习、人工智能模型和与之相适应的计算平台,去试图自动解释大型数据集的一个跨领域交叉学科。KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 正是这个领域的会议。从实际数据和与之相关的业务以及 KDD 被接收的文章,我们可以总结出数据挖掘的几个比较重要的发展趋势:
? 多模态数据挖掘:随着技术可以更加有效地从多种渠道收集数据,比如音频、视频、文字、图像等,这也是现在越来越被重视的一个方向,而数据本身也更更加有效的以各种方式进行存储。如何进行跨领域的有效建模,比如多任务学习 (multi-task learning),迁移学习 (transfer learning),强化学习(reinforcement learning)等,都是重点的发展模型。
? 全域数据挖掘:该方法涉及从移动设备和 IoT 设备等挖掘数据以获得关于个人的信息。尽管在这种类型中存在诸如复杂性、隐私性、成本等的若干挑战,但是该方法在各种行业中具有很大的机会,特别是在研究人机交互方面。
? 分布式数据挖掘:这种类型的数据挖掘越来越受欢迎,因为它涉及挖掘存储在不同公司或不同组织的大量信息,并且任何的算法也已经很难在单机版对全网数据进行训练和推理。此外适应度更高的算法也可以用于从不同提取数据,并根据它们提供适当的见解和报告。
? 时空数据挖掘:这是一种新的趋势类型的数据挖掘,其包括从有周期性和季节性趋势的,天文和地理数据中提取信息,其中还包括从外太空获取的图像。这种类型的数据挖掘可以诸如距离和拓扑的各个方面,其主要用于动态的地理信息系统和其他应用,这种做法也有助于分析在正常系列事件之外发生的随机事件。与我们密切相关的问题也是越来越普及,比如新零售,如何有效结合动态的线上线下数据对访问顾客的购买模式和行为进行建模,就是一个非常有挑战的时空数据模型问题。