科普专栏 多重检索模型助力解决法律领域检索难题
您当前的位置 : 首页 > 波胆平台下载 > 热点动态

科普专栏 多重检索模型助力解决法律领域检索难题

2023-09-06 热点动态

  ,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结为查询项和文档的匹配,问答系统能归结为问题和候选答案的匹配,对话系统能归结为对话和回复的匹配。针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。

  文本匹配系统总体上分为三个部分:查询处理部分、粗排召回部分和精排部分所组成。其中查询处理部分依据需求对用户输入的查询文本进预处理,最终生成检索领域专用语言,输入粗排召回部分的检索数据库。粗排召回部分由检索数据库和粗排召回模型组成。检索数据库采用倒排索引数据结构,该种数据结构可以极大地降低检索时精准匹配召回操作的时间复杂度。粗排召回模型一般与检索数据库中的对应数据结构相结合,从大规模数据中实现高速的数据召回,输出小规模的候选集后到精排部分。精排部分包含精排模型,负责对候选集合进行精确排序,将与用户输入查询最相关的数据优先呈现给用户。示意图如下:

  传统检索模型的特点为使用人工构造的匹配特征,基于这些特征建立查询文本和文档的相关性的数学模型。

  最常用的查询文本与文档的匹配特征为词频数、文档频数、文本长度。最具代表性的模型有:词频数-逆文档频数(Term Frequency–Inverse Document Frequency,TF-IDF)模型、BM25(Best Match 25)模型等。TF-IDF的思想为:一个单词与文档的相关程度与其在文档中出现的的频数(TF)成正比、与语料库中包含该词的文档数(逆文档频数,IDF)成反比。因此一个单词与文档的相关度表示为TF×IDF。BM25在TF-IDF的基础上做出了改进,(1)通过超参控制词频数的上限,解决词频无限增长的问题;(2)通过超参数控制文章长度对相关度得分的影响。BM25模型由于其简单、快速、有效和可解释性较强的特点,至今仍被大多数检索系统所采用。

  BM25模型存在一些问题:第一,特征过于简单,语义理解能力不强。基本思想都为将文档建模为一个“词袋”模型,其语义仅与词袋中的词汇数量有关,忽略了词与词之间的位置关系。但在自然语言中,词汇之间的位置关系也是一个重要的语义特征,这就导致模型在较为精细的语义检索任务上效果较差。第二,容易受到噪声的干扰。因为BM25依赖于人工设计的特征,当查询文本或文档中含有一些噪声,如无意义的虚词、标点符号等,就会导致词频、文档长度等特征提取不准,因此导致相关性得分计算不准。虽然通过过滤停用词等技术使得噪声的影响有所减少,但仍难以避免。

  深度检索模型根据模型本身的结构特点,可大致分为基于交互的检索模型和基于表示的检索模型。

  基于表示的深度检索模型,利用了深度神经网络模型分别提取查询文本和候选文档的语义特征向量,将它们从语义空间映射到向量空间,然后利用向量空间中向量之间的关系计算相关性得分,常用的方式有:向量间的余弦距离、向量间的欧几里得距离、向量间的内积等,或者定义更复杂的相关性得分计算函数。

  基于交互的深度检索模型相对于基于表示的模型,将查询文本和候选文档同时输入同一个深度神经网络,而不是分别单独输入,目的是为了满足非常精细化的语义匹配的需求,利用深度学习强大的特征提取能力,直接提取交互特征,最终输出相似度得分。

  如上图左所示,基于表示的检索模型,将查询文本Q和候选文本D分别输入特征向量提取模型Φ,得到特征向量vQ、vD。如上图右所示,在基于交互的模型中,查询文本Q和候选文本D同时输入同一个模型 ϕ 提取交互特征向量x,然后经过输出网络fout(x)得到相关性得分。

  随着预训练语言BERT的出现,大部分的深度检索模型采用了基于BERT或BERT变体的框架。模型通过掩膜语言模型(Masked Language Model,MLM)(可理解为完型填空)任务在大量的无监督语料上进行预训练,从而预先学习丰富的文本语义特征。基于“预训练+精调”的BERT模型训练范式,简称精调(Finetune)范式,使得许多自然语言处理任务效果得到了明显的提升,如文本分类、序列标注、文本生成等,在众多垂直领域得到了广泛的应用,例如法律,专利等。

  法律领域中有多种任务可以归结为文本匹配问题,例如案例检索,法规检索,智能问答等。在处理实际的任务时,应该要依据数据特点和数据规模选择正真适合的模型和系统架构。例如在类案检索中,整体架构分为三个部分:数据处理部分、粗排召回部分和精排部分。数据处理部分包括分词、生成词向量、生成文本向量等步骤。粗排召回的方式能采用多路召回,例如使用基于向量的召回方式和基于词频统计的召回方式相结合。每一路召回需要尽可能的保持独立性与互斥性,从而在保证各路能够并行召回的同时,增加召回的多样性。精排能够使用基于表示的方式也能够使用基于交互的方式。根据案例文本很长的特点,为了避免截断数据带来的信息丢失问题,可以选用专门处理长文本的模型,例如BigBird。也能够使用分段交互最后再聚合的方式,例如BERT-PLI。

  目前大多数法律案例或文本检索系统都具备三个部分,有些省去了精排部分,直接用基于词匹配或者向量匹配的召回模型的排序结果作为最终的输出结果。根据以上描述,法律案例检索系统的核心技术主要为相关性排序模型。粗排召回部分多采用传统的检索模型与深度检索模型相结合的方式。精排模型多采用基于BERT或BERT变体的深度检索模型,实际使用时可采用基于交互的检索模型或基于表示的检索模型。