阿里巴巴技术团队观察到,访问记录中的一个或两个 ID 的 ID 转换可能会不时发生,但很少发生在所有三个 ID 中。受此观察的,他们使用三个 ID(IMEI,IMSI,UTDID)的组合(他们称之为「IDSET」)来可靠地识别来自特定移动设备的访问记录。给出了 IDSET 的示例记录由 IDSET 标识,即 IMEI,IMSI 和 UTDID 的组合。基于 IDSET 的概念,他们引入了移动访问记录解决(MARR)问题。MARR 问题的目的是识别每个访问记录的物理设备,因为每个访问记录由一个特定的移动设备生成。该团队的目标是根据设备对访问记录进行分组,该设备可用于为设备用户生成配置文件。考虑到数据集的庞大规模和较差的数据质量主要是由于 ID 转移问题,MARR 是一个非常具有挑战性的问题。因此,该团队还提出了一个稀疏标识符链接图(SPI-Graph),并附带丰富的移动设备分析数据,以准确地将移动访问记录与设备进行匹配(当数据集中的某些预期值丢失时,数据被视为「稀疏」,这是一般大规模数据分析中的常见现象)。到目前为止,大规模实际数据集的广泛实验结果验证了团队算法的有效性和效率。这些结果还意味着团队现在希望调查他们如何进一步将特定设备的移动访问记录分组到访问会话中,从而更好地表征用户配置文件。
随着越来越多的实际应用程序,机器学习(ML)系统最近成为一种有前途的在线欺诈检测工具。然而,在大多数 ML 任务处理固定数据集的情况下,欺诈检测对能够在时能够适应的智能人类行为者起作用,这意味着 ML 模型在移位数据集中易于变得静止。以前建立更能抵抗变化对手的探测器的努力依赖于诸如分类和特征识别增强,死记硬背对抗训练和深度神经网络应用之类的方法。每一个都有其自身的局限性,但一个主要的反复出现的问题是「黑匣子」难题。研究人员通常无法获取有关这些方法的内部运作的详细信息,否认他们可以帮助他们进一步发展这些方法的重要见解。现在,阿里巴巴的研究人员已经开发了一种对抗训练方法,该方法基于对 ML 模型运作的研究,运用其机制的知识来产生更强大的对手,供他们训练。除了提高探测器的批发稳健性之外,从最少的计算资源中产生具有挑战性的新对手的努力有助于真正的欺诈犯罪者在被发现后可能从给定适应的方式。建立在垃圾邮件发送者基本上是人类代理人的前提下,他们在适应时花费的资源有限,该方法展示了如何根据先前的定位来预测未来的「方向」。
ML 欺诈检测系统依靠分类器来过滤内容,将一些垃圾邮件发送者实例视为高可信度,将其他实例视为低可信度实例,具体取决于它们被正确标记的概率。当大量垃圾邮件发送者实体落入其低信任区域时,分类器变得容易受到,因为即使对垃圾邮件发送者这样的易于逃避(EP)样本的微小变化也可能导致其错误分类为内容。出于研究目的,阿里巴巴团队将这些 EP 样品作为「种子」处理,用于生成强大的对抗样品,用于探测器培训。然后,他们试图确定种子最容易受到影响的方向,以逃避分类机制,从而以最小的努力绕过检测。利用这些发现,他们生成的对手非常模仿真实的恶意行为,减少了有效训练更强检测机制所需的者总数。通过使用 ML 机制的知识来分析其对沿其边界引入的每个对手的响应,该团队派生出特定于每个实例的本地解释器功能。通过这些信息,他们更新了整体机制,以更好地考虑试验期间引入的个别垃圾邮件的演变。
基于对 Yelp Review 和 Twitter 帖子数据的实验,仔细的对手选择证明在产生更具挑战性的模拟方面是有效的,在试验期间提供了关于分类器中的弱点的大量信息。然后,这些研究结果被用于为各种制定有效的防御策略,这些策略可用于加强未来检测框架的有效性。展望未来,阿里巴巴正在寻求扩展其垃圾邮件检测工作,以处理实例之间关系链接的高维原始数据和数据集。
文章由325棋牌提供发布