我校自然语言处理团队在《Mathematics》发表重要成果
近日,ky.com信息工程学院自然语言处理科研团队在古诗词的自动笺注领域取得重要进展。相关成果以“Combining Lexicon Definitions and the Retrieval‑Augmented Generation of a Large Language Model for the Automatic Annotation of Ancient Chinese Poetry”为题发表于国际数学科学领域重要期刊Mathematics(SCI 收录)。论文第一作者为南京师范大学文学院博士生李佳斌,ky.com信息工程学院院长曲维光教授为本文通讯作者,南京师范大学和ky.com为共同通讯作者单位。
论文链接如下:https://www.mdpi.com/2227-7390/13/12/2023
1. 研究背景
古诗词是中华传统文化的瑰宝,既承载着深厚的历史文化内涵,又展现了丰富的艺术技巧。古诗中蕴含的深刻思想与美学价值,不仅是文学研究的重要内容,也对现代社会的文化传承和审美教育具有重要意义。然而,由于古诗词的语言与现代汉语存在较大差异,诗中常涉及典故、借代、语义偏转等组块,现代读者在阅读和理解古诗词时往往面临诸多障碍,严重影响了古诗词的普及和传承。然而,人工笺注效率低下,难以满足海量文本的处理需求。此外,人工笺注难以避免因笺注者而导致的笺注质量参差不齐。随着人工智能技术的快速发展,针对古诗词的自动笺注研究已成为突破传统笺注瓶颈的必然选择。
2. 文章概述
该研究提出了一种融合词典检索与大语言模型检索增强的古诗词自动笺注范式。该方法利用大模型的语境理解能力动态选择词汇义项,并通过结合词典最大匹配(BMM)与深度学习模型(BERT+BiLSTM+CRF)的自动切分技术引入词典先验加权机制,提升对典故、专有名词等复杂语块的切分准确率,从而减少对人工切分的依赖。对于词典中未收录的组块,使用RAG模块用于注释生成。系统从领域知识库中检索相关信息,引入重排序机制提升检索质量,并基于这些信息生成释义。实验结果表明,该方法在自动笺注任务中表现优异,显著优于人类专家、通用大语言模型、及古汉语预训练模型的笺注性能;在古诗重要语义组块的笺注上,微平均正确率达到94.33%。该自动笺注研究对于深化古诗词解析与智能化教学应用具有重要意义。
3. 图文导读
图1展示了自动笺注研究框架。笺注时,首先使用BMM_BBC切分模块对待笺注文本进行切分。接着,对每个切分后的组块在语言资源中检索是否存在相关的释义。当存在时,调用大模型进行义项消歧。当某个组块为未登录组块时,则使用RAG检索增强模块生成注释信息。

图1 自动笺注研究框架
融合BMM和BBC模型的分词结果时,根据BMM分词得到的标签序列,对应地调整模型的初始发射得分矩阵P,使得模型在解码时更倾向于根据设定的规则融合BMM切分的结果,从而结合两种方法的优势。

图2 BMM_BBC组块切分模块
RAG模块的核心思想是通过检索外部知识库(如词典、鉴赏书籍等)来增强生成模型的输出能力,从而为未登录组块生成准确且上下文相关的笺注信息。本文中,RAG检索增强生成模块的流程如图3所示。

图3 RAG检索增强模块
4. 结论
本文提出了一种面向古诗自动笺注的检索增强研究范式。该方法通过深度融合古诗领域词典知识,为多种语义组块提供了精准且多层次的释义信息。与仅依赖通用大语言模型或纯文本生成的自动笺注方法相比,本方案在处理古诗词中常见的典故、意象及语义偏转等多样化组块时,能够有效降低语义模糊与信息缺失的风险,显著提升了笺注质量与可控性。
5. 作者简介
李佳斌,南京师范大学文学院博士生。研究方向为古诗词领域自然语言处理,在中文核心期刊《图书馆论坛》发表文章,主持江苏省研究生科研与实践创新计划1项。
曲维光,博士,博导,现任ky.com信息工程学院院长,主攻自然语言处理与计算语言学领域,主持国家自然科学基金3项、国家社科重大项目子课题3项、江苏省社科基金2项(含重点项目1项)、江苏省教育厅社科基金1项。先后获得江苏省第十一届哲学社科奖二等奖,江苏省教育厅第七届哲学社科奖二等奖,江苏省教学成果二等奖2项(排名第二)。
首页