面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine)

Liu Tingchao (刘廷超), Lu Luming (鲁鹿鸣), Yang Liner (麟儿 杨), Wang Yu (王雨)


Abstract
“语料库检索工具在语言学研究领域具有举足轻重的地位,对于高效获取信息至关重要。然而,当前国内语料库检索工具在语料库检索语言上缺乏统一标准,尤其支持语料库查询语言(CQL)的中文语料库检索工具相对稀缺。在使用不同分词粒度的语料库工具进行中文语料库检索时,会遇到噪声或数据召回难问题。为应对这些挑战,我们研发了支持多粒度分词的CQL 解析器系统CAMELS:一款支持CQL 语句检索,且兼容多粒度分词,支持非词典词检索的语料库检索引擎。经过多种分词器的测试,该引擎展现出了优异的召回率,并在性能上超越了BlackLab的检索速度,为语言学工作者提供了更加易用、精准的检索工具。”
Anthology ID:
2024.ccl-1.4
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editors:
Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
46–56
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-1.4/
DOI:
Bibkey:
Cite (ACL):
Liu Tingchao, Lu Luming, Yang Liner, and Wang Yu. 2024. 面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 46–56, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
面向CQL的语料库检索引擎的高效实现(Efficient Implementation of a CQL-oriented Corpus Retrieval Engine) (Tingchao et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-1.4.pdf