科大讯飞荣膺ECCV OOV-ST挑战赛文字识别赛道冠军
中证网讯(王珞)近日,在三大计算机视觉顶级会议之一的2022 ECCV(欧洲计算机视觉会议)上,科大讯飞荣膺2022 OOV-ST挑战赛(The ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding )文字识别赛道冠军,取得了OOV场景和综合场景双指标第一的佳绩。
与以往文本识别比赛不同,OOV-ST挑战赛中测试集的词语从未出现在训练集中,参赛的文本识别系统相当于进行了“闭卷考试”,而且考的还是之前没有学过的内容,难度大大升级。此次比赛夺冠展现了科大讯飞在图文识别领域上的技术实力,这也是科大讯飞连续第五年在图文识别国际比赛上夺冠。
OOV-ST挑战赛是由谷歌、亚马逊和巴塞罗那自治大学共同举办的首个针对集外泛化问题的场景文字理解赛事,较全面地定义了面向集外字词的比赛任务,并提出了相应的数据集。这就要求模型具备较高的集外场景泛化性。此次比赛吸引了包括字节跳动、好未来、NAVER/LINE、清华大学、东京大学等国内外知名公司、机构和高校参赛。
科大讯飞研究院所参与的文本识别赛道中,OOV-ST挑战赛以鲁棒性和泛化性为考察目标,重点要求参赛者方案具备对训练阶段从未见过的“位置词语词汇”的识别能力,同时要求参赛者所提交的解决方案能够兼顾集内已知词汇的识别效果,这就要求模型具备较高的集外场景泛化性。
人类能够通过学习简单样本快速提升知识水平,并具备较好的迁移能力——例如人类通过学习汉字的笔画和偏旁部首知识,就能完成对新汉字的辨认和转写。而这种能力是当前神经网络模型的薄弱项,也是本次比赛的核心考察项。
为此,科大讯飞研究院提出了基于视觉语言自适应权衡的VLADM(Vision-Language Adaptive Mutual Decoder)方案,在复杂场景上取得了集外词59.61%、综合指标70.31%的句正确率效果,最终夺冠。此次比赛所涉及的文字识别能力和集外词识别技术,目前已经在讯飞翻译机、讯飞AI学习机等产品中落地应用,为人们的工作、学习和生活提供了更多便利。
未来,讯飞研究院将在图文识别领域的相关技术上持续发力,并结合实际落地应用探索更多技术赋能场景,让机器拥有更犀利的“眼睛”和智慧的“头脑”。