搜索结果多样化研究综述

搜索结果多样化研究综述

论文摘要

基于传统信息检索技术的搜索引擎一般按照用户提交的查询获得一系列搜索结果,经过相关性排序之后返回给用户.相关研究表明,用户提交给搜索引擎的查询通常是短查询,且经常具有歧义性和宽泛性.另外,不同的用户在使用同一个查询词时,其查询需求也往往是不同的.此时若搜索引擎只进行相关性排序,则会面临搜索结果冗余性过大、无法有效覆盖用户意图的问题,对用户体验产生负面影响.为了满足用户需求,现有的搜索引擎在搜索排序过程中必须有效应对查询歧义性问题.搜索结果多样化是解决这个问题的方法之一,其目标是尽量提升搜索结果的多样性,让搜索结果尽可能多地覆盖不同用户的查询意图,以确保至少有一个结果可以命中实际的用户需求.和传统的搜索排序模型仅考虑文档和查询的相关性不同,多样化排序模型还需要进一步考虑文档的新颖性或者结果集对不同用户意图的覆盖度.现有的多样化算法,根据是否显式地衡量查询包含潜在用户意图所对应的子话题,可以分为隐式多样化模型和显式多样化模型.隐式多样化模型通常只考虑文档之间的相似性,即认为一份结果文档集中的每一个结果文档,彼此之间的不相似度越高,多样化程度越高;而显式多样化模型则显式地考虑不同查询所对应的不同用户意图(以子话题表示),通过衡量结果文档集对不同子话题覆盖的广度来衡量整体的多样化程度.根据多样化特征是人工指定的还是通过监督式学习自动获取的,可以分为启发式模型和学习式模型(也称为非监督式模型和监督式模型).启发式模型使用人工指定的文档相似度或子话题覆盖程度等相关特征来判断每一个文档对多样化的贡献,而学习式模型则可以通过监督式学习,自动地学习到最优化的多样化指标.这两种分类方法相互正交,理论上显式多样化模型优于隐式多样化模型,监督式模型优于非监督式模型,但实际上模型的具体表现也可能受到训练数据总量、子话题质量等其他因素影响.另外,最近学界对强化学习的研究也对信息检索领域产生了一定的影响,由于多样化排序过程也可以被视为一个依次选择每一个候选文档的决策过程,因此也有学者将强化学习引入了搜索结果多样化领域.本文介绍了搜索结果多样化的定义,并对现有多样化算法进行分类整理,详细介绍了每个类别中的代表性方法.我们还进一步介绍了搜索结果多样性评价方法,并给出了一系列方法的对照实验结果.最后,我们对搜索结果多样化技术研究的方向进行了展望.

论文目录

  • 1 引言
  • 2 搜索结果多样化的定义
  •   (1)基于内容(Content-based)的定义
  •   (2)基于新颖性(Novelty-based)的定义
  •   (3)基于覆盖度(Coverage-based)的定义
  • 3 搜索结果多样化算法
  •   3.1 隐式多样化排序方法
  •   3.2 显式多样化排序方法
  •     3.2.1 显式多样化排序的子话题抽取
  •     3.2.2 显式多样化排序模型
  •       3.2.2. 1 xQuAD模型
  •       3.2.2. 2 PM2模型
  •       3.2.2. 3 基于子话题多层级分类方法的HxQuAD和HPM2模型
  •       3.2.2. 4 针对短文本流的多样化
  •   3.3 基于监督式学习的多样化排序模型
  •     3.3.1 学习式排序模型概述
  •     3.3.2 关系排序模型(R-LTR)与PAMM模型
  •     3.3.3 使用神经张量网络(NTN)抽取新颖性特征
  •     3.3.4 基于注意力机制的显式多样化学习方法
  •     3.3.5 小结
  •   3.4 将强化学习应用到搜索结果多样化中
  •   3.5 搜索结果个性多样化
  • 4 搜索结果多样化的主要评价指标
  • 5 搜索结果多样化实验结果与分析
  • 6 搜索结果多样化在实际部署的大型分布式系统中的性能评估
  • 7 未来研究方向
  • Background
  • 文章来源

    类型: 期刊论文

    作者: 窦志成,秦绪博,文继荣

    关键词: 信息检索,用户意图,多样化,个性化,强化学习

    来源: 计算机学报 2019年12期

    年度: 2019

    分类: 信息科技

    专业: 计算机软件及计算机应用

    单位: 中国人民大学信息学院,大数据管理与分析方法研究北京市重点实验室

    基金: 国家重点研发计划(2018YFC0830703),国家自然科学基金(61872370)资助

    分类号: TP391.3

    页码: 2591-2613

    总页数: 23

    文件大小: 755K

    下载量: 543

    相关论文文献

    标签:;  ;  ;  ;  ;  

    搜索结果多样化研究综述
    下载Doc文档

    猜你喜欢