这篇论文的作者酒井哲来自日本的早稻田大学,也是信息检索界的著名学者。他的这篇文章具有两层实用价值:第一,文章系统地分析了过去十年SIGIR和ACM Transactions on Information Systems(TOIS),信息检索领域的两大发表平台中的绝大多数文章使用Hypothesis Testing的情况;第二,文章总结了不少实用的Hypothesis Testing工具,以及一系列关于这些工具的讨论,特别是针对这些工具在不同论文中的使用。
总体看来,结果不是那么乐观。也就是说,过去10年SIGIR和TOIS的很多结果可能并不是那么站得住脚。当然,实践在慢慢改变。
这篇文章来自雅虎研究院的Query Understanding组。目的是从Query Logs里面提取和商品有关的Entity,文章专注于品牌名和产品名。总体说来,Query的Entity Extraction是提取Query相关Feature的重要环节。与以前的思不同的是,这篇文章提出的是彻底的无监督方法,也就是借助所谓的Adaptor Grammars(想深入了解Adaptor Grammars的朋友看相关论文,这篇文章里有简单的介绍,但不是很透彻)。
简单说来,Adaptor Grammars就是一个Nonparametric版的Probabilistic Context-free Grammar。用户可以通过定义一组简单的规则或者叫Grammar来算法发现类似的规则。当然,较真的朋友,可能会觉得这样的规则也是一部分监督信息。但是,定义这样的规则还是比要给单个数据点标注信息来得容易。
文章里的Adaptor Grammars是通过MCMC来学习的,作者们也提出了使用Variational Inference来加速的可能。从算法部分来看,这篇文章并没有对Adaptor Grammars进行大的改进,亮点是把这个算法应用到这个场景。从实验效果来看,Adaptor Grammars还是不错的,能够识别非常多的品牌和产品名。
当然,文章不是仅仅限于这么一个简单的思,而是提出了一个叫BROOF的框架,很多算法的变种都可以在这个框架里实现。比如Weak Learner的Weight如何确定,是否选择使用Validation Set等,有兴趣的读者可以去看看文章的细节。
文章比较了提出的框架和很多知名算法的性能,比如AdaRank、LambdaRank、RankSVM等等。选用的数据集是LETOR 2003、2004和Yahoo Learning to Rank数据集。结果还是比较引人注目的,基本上在所有的数据集上,提出的算法性能不是最好,就是和最好的算法持平。
作者中的Torsten Suel研究方向就是Query Processing和Index Construction,是这方面的专家。文章讨论的问题非常具有实际意义。首先,现代的搜索引擎和推荐系统多数采用Cascade Ranker的模式。也就是说,Candidate Set经过多轮的选择、排序、过滤,每一个阶段都比前一个阶段可能更复杂,Model的层次更高。关于Cascade Ranker的详细阐述,这篇文章的Related Work和Reference(惊人的59篇)都常不错的资源宝库。