Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.33 KB

2407.11418.md

File metadata and controls

20 lines (15 loc) · 2.33 KB

背景

  • 背景
    论文讨论了现有的语言模型(LMs)在进行大规模语义查询时缺乏高级抽象的问题。

  • 已有的工作 已有的系统和框架无法高效地处理需要大批量语义处理的应用,它们通常限制于数据检索和生成,缺乏针对结构化和非结构化数据的复杂语义查询模式,以及在多个文档上进行语义聚合或转换的能力。

核心贡献

  • 提出了一种名为LOTUS的查询引擎
    • 挑战1:如何表达语义查询 论文通过定义语义操作符来解决这一挑战,提出了一种声明式编程接口,它通过可组合的基于AI的操作扩展了关系模型,以促进对数据集进行语义查询。

    • 挑战2:如何设计高效准确的底层查询系统 LOTUS通过提供多种算法和优化实现语义操作符,同时抽象掉了模型的上下文长度限制和算法选择等底层细节。实现了诸如语义筛选、联接、排序、聚合和投影等操作,这些操作符允许用自然语言表达式进行编程。

实现与部署

LOTUS在真实应用场景中的有效性得到了证明,包括事实核查、极端多标签分类和搜索。相较于已有方法,LOTUS展示了高度的表达性,可以使用较少的开发开销捕获跨不同应用的最新查询管道。例如,在FEVER数据集上,LOTUS可以用几行代码复现最新的事实核查管道FacTool,并通过简单地更换操作符,实现了9.5%的精度提高和7至34倍的执行时间降低。在BioDEX数据集上的极端多标签分类任务中,LOTUS使用其联接操作符复现了最高质量的结果,同时提供了一种800倍于朴素联接算法速度的高效算法。在搜索和排名应用中,LOTUS通过简单的操作符组合,实现了比标准检索器和重新排序器高5.9至49.4%的nDCG@10,同时还提供了比先前基于LM的排名方法高1.67至10倍的查询效率。LOTUS已在GitHub上公开。

总结

本文提出了LOTUS系统,该系统通过定义语义操作符来启用基于自然语言的查询,并通过高效的算法和优化实现了快速准确的查询执行。LOTUS在多个真实世界的应用案例中展示了其应用的广泛性和高性能,对改进基于LMs的大规模语义分析和查询系统具有重要意义。