? 图计算模型在大数据公司,尤其是 IT 公司常流行的一大类模型,因为是很多实际问题的最直接的解决方法。图计算大致可以分为同构图(homogeneous graph)和异构图(heterogeneous graph),后者是在节点或者边的种类大于等于 2 的情况下。此外知识图谱也是异构图中的一种重要应用,即一种基于语义学的图模型(a semantic graphical model)。除了了传统的图计算模型,如大家熟知的 LPA、 Random Walk 及各种变形、CC 等,随着深度学习的大量成功落地,Graph Embedding 也变得越来越流行。简单说来,Graph Embedding 也是通过深度学习模型对节点或者边进行 feature engineering。近几年,随着数据的多样化,数据量的大幅度提升和算力的突破性进展,图计算的发展和应用有井喷之势,各大公司也相应推出图计算平台,例如 Google Pregel, Facebook Giraph,腾讯星图,华为 GES 等。
其中超大规模图数据挖掘也可以认为是前面几个趋势的一个汇总,也将是未来 3~5 年年数据挖掘的一个大的集中爆发点。比如 DeepMind、谷歌大脑、MIT 等 27 位作者最近推出重磅论文,表示单纯的深度学习已经成熟,而基于图计算的深度学习将端到端学习与归纳推理相结合,有望解决深度学习无法进行关系推理的问题。超大规模图计算在大数据公司发挥着越来越重要的作用,尤其是以深度学习和图计算结合的大规模图表征为代表的系列算法。
超大规模图计算在大数据公司发挥着越来越重要的作用,尤其是以深度学习和图计算结合的大规模图表征为代表的系列算法在阿里的诸多业务场景都取得了阶段性。阿里巴巴生态体系的数据是极其丰富多样的,涵盖着从购物、出行到娱乐、支付等各个方面信息。比如个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的商品或者服务,但是传统的推荐系统容易出现稀疏性、冷启动和信息重复性的问题,而知识图谱作为大规模图表征的一类重要模型正在成为一种新兴类型的推荐辅助信息,可以将自然人的全域信息有效的结合起来,真正挖掘、理解每个人的需求,在每个业务域推出消费者真正感兴趣的潜在商品。我们正在致力于研发新一代推荐系统,可以高效的对于超过几十亿节点,千亿的边进行推理分析。基于这个挑战,我们正竭力力寻找能够在信息检索、分布式计算、大规模系统设计、机器学习、人工智能、自然语言处理等相关领域带来新鲜的工程师和科学家。对于这个课题感兴趣的同学欢迎和笔者进行更深入讨论。
在网络平台上,稀有数据通常是最有价值的。罕见的类别分析对于防止计算机网络入侵,发现社交上的热门话题以及检测欺诈性在线交易至关重要。但是,找到这些数据可能会很困难。就像大海捞针中的谚语一样,它们通常隐藏在正据点之间并且与正据点不可分割,并且标记罕见的类别示例非常昂贵。为了有效地分析数据集中的罕见类别,算法必须是快速学习者。阿里巴巴的技术团队与亚利桑那州立大学和腾讯医学人工智能实验室合作,创建了 SPARC,这是一个自定进度的框架,以互利的方式逐步学习罕见的面向类别的网络表示和表征模型。