中国农业大学信息与电气工程学院

学术报告

信电号角系列学术报告:融合预训练知识的图像文本机器翻译

发布日期：2023-09-07 浏览次数：

报告人: 张亚萍副研究员，中国科学院自动化研究所模式识别国家重点实验室

报告时间：2023年09月09日（周六） 10:30-12:00

报告地点：信电楼539报告厅

联系人: 薛一鸣 13910905472 邮箱：xueym@cau.edu.cn

报告简介：

图像文本机器翻译旨在将嵌入图像中的源语言文本翻译成目标语言文本。区别于传统的机器翻译输入是纯文本，图像文本的文字是嵌入在图像里的，对图像文本进行翻译需要模型准确感知文字在图像中的区域，并按照语言排版逻辑提取出嵌入在图片中的文本信息。图像文本机器翻译的现有研究工作多使用光学字符识别（OCR）和神经机器翻译（NMT）级联模型实现。以图像感知为基础的OCR和以文本为处理对象的NMT技术研究相对独立，未能充分利用图像文本翻译的数据特点，忽略了图像文本中的跨模态信息关联，严重制约了图像文本翻译技术的广泛应用。针对上述问题，我们研究了融合预训练知识的端到端图像文本机器翻译，探索图像文本和语言文本之间的有效语义特征表达与融合，从图像文本翻译的特征表示、特征关联、框架建模等三个角度出发，建立视觉和文本之间的双向信息流，学习共享语义空间，有效提升图像文本机器翻译的性能。

报告人简介：

张亚萍，博士，中国科学院自动化研究所副研究员，主要研究方向为图像文本跨模态理解与生成、序列建模、OCR翻译，在IEEE trans. on TIP、CVPR、ICDAR等国际高水平期刊会议上发表多篇论文，申请多项国家发明专利，曾获语音领域国际顶会ICASSP 2018最佳学生论文奖，并多次在AAAI、ICME等国际权威学术会议担任程序委员会委员等职务。主持国家自然科学基金青年基金项目一项, 参与多项国家自然科学基金重点项目、国家重点研发计划重点专项和横向研发课题。

学术报告

信电号角系列学术报告:融合预训练知识的图像文本机器翻译

最新信息