近日,国际人工智能领域顶级会议AAAI 2026(Association for the Advancement of Artificial Intelligence)公布了论文评审结果,山东建筑大学计算机与人工智能学院有6篇论文被该会议录用。AAAI(Association for the Advancement of Artificial Intelligence)是国际人工智能领域历史最为悠久、影响力最为广泛的顶级学术会议之一,同时也是中国计算机学会(CCF)和中国人工智能学会(CAA)推荐的A类国际学术会议。AAAI向来以严格的录用标准著称,其录用的论文也反映了当前人工智能前沿的发展趋势。此次学院有6篇论文被录用,彰显了我院在人工智能领域的科研实力在逐步提升。
录用论文简介
论文一:An LLM-Assisted Belief Rule Base Model for Explainable Decision Classification
作者:Lixian Xu, Jun Liu, Aftab Ali, Li Zou*, Dehu Yu*, Peng Shi
论文概述:
传统置信规则库(BRB)模型在可解释性与不确定性推理上具独特优势,但规则构建高度依赖专家经验,易引发规则冗余、参数难优化及扩展性受限等问题。为此,本文提出大语言模型辅助的置信规则库(LLM-BRB)分类框架。该框架借助 LLM 的语义理解与知识生成能力,实现置信规则先验结构自动化生成,通过语义一致性约束和信度归一化机制,保障规则库的逻辑一致性与可解释性。同时,结合证据推理(ER)融合方法整合多规则推理结果,增强模型稳健性。实验表明,相较于传统 BRB 模型及主流机器学习方法,LLM-BRB 在保持高度可解释性的前提下,分类性能显著提升,彰显了 “AI + Logic” 范式在构建可解释、可信决策模型中的巨大潜力。
论文二:Distilling Neural Knowledge into Interpretable Belief Rule Bases
作者:Xinlei Cao, Pengsen Liu,Jun Liu,Bilal Ahmed Lodhi,Dongqiangyang,Yunan Liu,Peng Su, Li Zou*, Peng Shi
论文概述:
深度学习在图像识别、自然语言处理等领域实现突破性进展,但“黑箱”特性制约其可解释性与可信度。置信规则库(BRB)作为符号推理方法,推理结构透明可解释,却严重依赖人工定义规则与参数,大规模数据场景下扩展性不足。本文提出创新神经符号融合框架——规则蒸馏,以深度神经网络为教师模型,引导参数化BRB学生模型训练。规则权重、属性权重、规则中心及后件置信分布均为可训练参数,通过梯度下降自动优化,同时教师模型生成的软标签提供持续监督,助力学生模型学习复杂类别分布。实验结果显示,参数化BRB既有效承袭教师模型的预测能力,又保持可解释性,还实现了更快收敛速度与更强泛化性能。
论文三:PEOCH: Online Cross-Modal Hashing With Semi-supervised Streaming Data Driving Prototype Evolution
作者:Xiao Kang, Xingbo Liu* , Shuo Pan, Xuening Zhang, Xiushan Nie, Yilong Yin
论文概述:
针对流媒体多模态数据增长带来的数据分布漂移、模态鸿沟及标注稀缺三大挑战,论文提出在线跨模态哈希方法PEOCH。PEOCH 构建半监督流数据驱动的原型演化框架,可为标注与未标注数据同步生成精准稳定的哈希码。同时,该方法设计协同优化架构保障原型随整体流数据持续演化,引入融合判别性与平滑性约束的弹性正则器提升原型可靠性,且提供理论证明确保原型更新稳定性。实验显示,PEOCH 在三个标准数据集上全面超越现有最优方法,为流式跨模态检索提供了新解决方案。
论文四:TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs
作者:Yunxiao Wang, Meng Liu*, Wenqi Liu, Xuemeng Song, Bin Wen*, Fan Yang, Tingting Gao, Di Zhang, Guorui Zhou, Liqiang Nie
论文概述:
尽管大型语言模型在视频问答等任务中已取得显著成效,但其在时间理解方面仍存在不足。为了解决这一局限性,本文精心设计了一个专门用于时序指令微调的数据集,旨在从五个关键维度提升对时间的理解能力。同时,为了减少对昂贵时间标注的依赖,本文引入了一种多任务提示微调方法,该方法能够将时间敏感型任务无缝整合到现有的指令数据集中,而无需额外进行标注。此外,本文还开发了一个新颖的时间敏感型视频理解基准,不仅填补了现有基准在维度覆盖方面的空白,还严格排除了潜在数据捷径,从而确保更准确的评估。大量实验结果表明,本文的方法显著提高了视频语言模型对时间理解能力,同时避免了对数据捷径的依赖。
论文五:Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding
作者:Haoyu Zhang, Qiaohui Chu, Meng Liu*, Haoxiang Shi, Yaowei Wang, Liqiang Nie*
论文概述:
随着机器人和可穿戴设备的发展,AI助理需要像人类一样理解真实环境,特别是来自第一人称视角的视频。但现有多模态大模型主要依赖第三视角训练,对第一视角画面理解能力不足,同时数据采集成本高,导致模型性能受限。为解决这些问题,本文提出将第三人称知识迁移到第一人称场景中,让模型能够“站在人的视角思考”。首先构建了一个包含110万条同步的第一、第三人称视频与文本描述对,为模型学习两种视角间的对应关系提供基础。在此基础上,设计了一个三阶段的渐进式学习策略,让模型先观察教师示范,再在教师指导下练习,最后独立完成任务。大量实验表明,现有模型在处理第一人称视频方面普遍表现不足,而本文方法在多个任务上均取得显著提升。
论文六:Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation
作者:Qiaohui Chu, Haoyu Zhang, Meng Liu∗, Yisen Feng, Haoxiang Shi, Liqiang Nie*
论文概述:
第一视角视频的长时动作预测在人机交互、辅助技术等应用中至关重要,但现有方法存在三个关键局限:1)未能充分利用手-物体交互中的细粒度视觉线索;2)忽视了动词与名词之间的语义关联;3)缺乏显式的认知推理,限制了模型的泛化能力和长时预测能力。为此,本文提出统一的两阶段框架 INSIGHT:首先从手物交互区域提取语义丰富的特征,并利用动名词共现矩阵增强动作表征;随后构建基于强化学习的显式认知推理模块,通过“视觉感知→意图推断→动作预测”这一结构化流程模拟显式认知推理。实验结果显示,INSIGHT 在多个主流基准上取得领先性能,充分证明其有效性和强大的泛化能力。
审稿:聂秀山 编辑:李嘉麒 编审:张之稳 终审:李展