同时读懂40种语言 人工智能助力跨语言交流
2021-11-05 光明网
一段包含中文、英语、韩语、日语、阿拉伯语、越南语等40种语言的文字如何理解?大多数人做不到的事情,经过训练的人工智能机器却能做到。 在近日举办的世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列榜首,刷新世界记录。 XTREME评测旨在全面考察模型的多语言理解与跨语言迁移能力。与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,并且包含句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务。 那么,机器是如何做到多语言理解的?比赛负责人、哈工大讯飞联合实验室核心技术研究员杨子清介绍,他们通过自主研发的跨语言对比学习技术,利用知识蒸馏技术进行自监督学习和知识迁移,鼓励模型学习不同语言中的语义相似性,与此同时,还创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。 “这就意味着,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过类比学会这门语言,减少了收集语料、语音标注等大量工作。”杨子清补充解释。 除了多语言,科大讯飞还在少数民族语言处理方面推出了预训练模型CINO(Chinese mINOrity pre-trained language model)。 杨子清介绍,“少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。” 国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。“希望未来能够进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。”杨子清说。(思牧)
|