异策略模仿-强化学习序列推荐算法

Off-policy imitation-reinforcement learning for sequential recommendation
刘珈麟1,2
贺泽宇3
李俊1
1. 中国科学院 计算机网络信息中心, 北京 100045
2. 中国科学院大学, 北京 100045
3. 北京信息科技大学 计算机学院, 北京 100101

摘要

最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。

基金项目

国家自然科学基金资助项目(61672490,61602436)
中国科学院对外合作重点项目(241711KYSB20180002)
国家重大研发计划子课题(2022YFC3320900)

出版信息

DOI: 10.19734/j.issn.1001-3695.2023.10.0447
出版期卷: 《计算机应用研究》 印刷出版, 2024年第41卷 第5期
所属栏目: 算法研究探讨
出版页码: 1349-1355
文章编号: 1001-3695(2024)05-010-1349-07

发布历史

[2024-01-16] 优先出版
[2024-05-05] 印刷出版

引用本文

刘珈麟, 贺泽宇, 李俊. 异策略模仿-强化学习序列推荐算法 [J]. 计算机应用研究, 2024, 41 (5): 1349-1355. (Liu Jialin, He Zeyu, Li Jun. Off-policy imitation-reinforcement learning for sequential recommendation [J]. Application Research of Computers, 2024, 41 (5): 1349-1355. )

关于期刊

  • 计算机应用研究 月刊
  • Application Research of Computers
  • 刊号 ISSN 1001-3695
    CN  51-1196/TP

《计算机应用研究》创刊于1984年,是由四川省科技厅所属四川省计算机研究院主办的计算技术类学术刊物。

《计算机应用研究》瞄准本学科领域迫切需要的前沿技术,及时反映国内外计算机应用研究的主流技术、热点技术及最新发展趋势。主要刊载内容包括本学科领域高水平的学术论文、本学科最新科研成果和重大应用成果。栏目内容涉及计算机学科新理论、计算机基础理论、算法理论研究、算法设计与分析、区块链技术、系统软件与软件工程技术、模式识别与人工智能、体系结构、先进计算、并行处理、数据库技术、计算机网络与通信技术、信息安全技术、计算机图像图形学及其最新热点应用技术。

《计算机应用研究》拥有众多高层次读者、作者,读者对象主要为从事计算机学科领域高、中级研究人员及工程技术人员,各高等院校计算机专业及相关专业的师生。多年来《计算机应用研究》的总被引频次及Web下载率一直名列本学科同类学术刊物前茅,所刊发的学术论文以其新颖性、学术性、前瞻性、导向性、实用性而备受广大读者的喜爱。


收录和评价

  • 第二届国家期刊奖百种重点期刊
  • 中国期刊方阵双效期刊
  • 全国中文核心期刊(北大2023年版)
  • 中国科技核心期刊
  • 中国科学引文数据库(CSCD)来源期刊
  • RCCSE中国核心学术期刊
  • 中国计算机学会会刊
  • 2020—2022年科技期刊世界影响力指数(WJCI)报告收录期刊
  • 中国科技期刊精品数据库全文来源期刊
  • 中国学术期刊综合评价数据库来源期刊
  • 《中国期刊网》《中国学术期刊(光盘版)》来源期刊
  • 2017—2019年中国国际影响力优秀学术期刊(自然科学与工程技术)
  • 中国精品科技期刊顶尖学术论文(F5000)项目来源期刊
  • 《中国工程技术电子信息网》《电子科技文献数据库》来源期刊
  • 英国《科学文摘》(INSPEC)来源期刊
  • 《日本科学技术振兴机构数据库》(JST)来源期刊
  • 俄罗斯《文摘杂志》(AJ, VINITI)来源期刊
  • 美国《艾博思科学术数据库》(EBSCO)全文来源期刊
  • 美国《剑桥科学文摘(自然科学)》(CSA(NS))核心期刊
  • 波兰《哥白尼索引》(IC)来源期刊
  • 美国《乌利希期刊指南(网络版)》(Ulrichsweb)收录期刊