回到文章本身,这篇文章探讨的是在Cascade Ranker的第一阶段如何利用Boolean Filter来达到最佳的选择效果。第一阶段之所以那么重要,是因为这个阶段Evaluate的文档个数是最多的,也是最需要效率的地方。值得注意的是,这篇文章探讨的是所谓Unsafe的方法,也就是第一部分有可能漏掉高质量的文档。具体而言,是建立两层结构的Index,在Offline的情况下就筛选出一些可能是高分的文档。其中第一层的Index有一个Single-Term和Pairwise-Term的结构,这两个结构都保持一定数量的高分文档;第二层Index用来查看剩下的一些分数。这里面要解决的问题是,如何选择第一层的深度,然后究竟在一个Query进来的情况下,如何选择Look-up的径。需要注意的是,文章提供的还是偏向于Web Search的情况,要想推广到一般意义的Index,可能还需要额外的工作。
推荐: