[专题征文] 多模态大模型发展与应用
近两年,基于大规模语料训练的大语言模型在自然语言理解和生成方面展现出了卓越的性能;基于大规模图像、视频等数据训练的视觉大模型也在视觉语义理解和生成方面表现出色。近期,谷歌率先发布了Gemini,成为业界第一个原生的多模态大模型,可以泛化并无缝地理解和操作文本、代码、音频、图像和视频等不同类型的信息。多模态大模型无疑将成为未来的研究热点,其中涉及不少多模态相关问题的研究,比如如何将新模态引入到已经预先训练好的多模态模型中、在特定的应用领域进一步探索知识增强型多模态、基于提示学习的多模态训练、如何细粒度地挖掘多模态信息、跨模态的耦合和解耦问题等。
多模态大模型在大模型的基础上,充分利用不同媒体数据的信息提取出更加丰富、全面的特征,从而更进一步地提高了模型的性能和泛化能力。基于通用域数据训练的多模态大模型具有丰富的常识知识,但缺乏垂直领域的专业知识,垂直领域多模态大模型的应用仍面临较大挑战。因此,如何利用具有强大泛化能力的多模态大模型来解决各垂直领域的专业问题也成为了研究和应用的热点。上海交大 & 上海AI Lab 发布了全球首个开源的多模态医疗基础模型RadFM,在性能和多功能性方面都超越了现有的GPT-4V模型,能够在多种医疗场景中有效运用,包括但不限于医疗影像诊断、影像视觉问答、诊断推理等。因此,如何借助领域知识,让垂直领域多模态大模型学会记忆、利用、融合领域知识需要新的解决方法并成为研究热点。
为了推进多模态大模型的发展与应用研究,《计算机应用研究》特设“多模态大模型发展与应用”专题。专题旨在围绕多模态大模型的发展与应用,探讨多模态与大模型的融合理论、方法和技术,并进一步探究多模态大模型在垂直领域的应用实践,以期形成一套高效的多模态大模型发展与应用的新思路、新技术和新系统,促进多模态大模型技术在重点关键领域的深入应用。
本专题诚邀国内外专家学者和研究人员投稿,展现多模态大模型理论与技术方面的高水平研究成果,分享在多模态大模型发展与应用中取得的实质性进展,并进一步探讨和解决多模态大模型技术在垂直领域应用中的机遇和挑战。
征文主题包括但不限于以下几个方面:
- 多模态大模型的基础理论和方法
- 多模态大模型的算力问题研究
- 多模态大模型的评估方法研究
- 多模态大模型的安全性问题研究
- 基于增量学习的新模态学习研究
- 基于提示学习的多模态学习研究
- 细粒度多模态信息的挖掘技术
- 跨模态的耦合和解耦研究
- 与知识增强协同的多模态方法研究
- 垂直领域多模态大模型的构建与应用
征文要求
- 论文必须具有原创性、学术性、科学性、准确性、规范性和可读性,所述内容应为作者独立或与他人合作完成的研究成果,且未在国内外公开发行的刊物或会议上发表过,不存在一稿多投问题。
- 论文一律用word格式排版,格式请参照《计算机应用研究》提供的“论文写作模板”以及近期已发表的论文。
- 投稿请通过《计算机应用研究》官方网站(https://www.arocmag.com/ )完成,并在投稿时提供联系方式。请在投稿栏目项选择“多模态大模型发展与应用专题”或在论文标题后注明“(多模态大模型发展与应用专题)”字样,以标识为本专题投稿。
- 收稿截止时间为2025年2月28日。
- 稿件经评审确定采用后,将在2个月内网络首发出版,6~8个月纸质见刊。
联系方式
- 办公地址
- 四川省成都市武候区成科西路3号
- 电话
- 028-85249567
- journal@arocmag.com
*最终解释权归《计算机应用研究》编辑部所有