让计算机、智能手机这样的机器像人一样来理解和使用语言,这是语言信息处理专家们的梦想。然而,相较于英文而言,中文表达缺少词与词之间的空格,人名首字母大写这类明显的表层语法特征,使得机器识别和表达中文信息时困难更多。12月23日至24日,中文信息学会在京举行第八次全国会员代表大会暨学会成立35周年学术会议,专家们解读了让机器“说”中文的研究进展。
让中国人与机器自由交流
中国中文信息学会理事长、哈尔滨工业大学教授李生说:“中文信息处理就包含对中文(汉语,少数民族语言)的编码、音、形、义等方面的计算机自动处理。”
实际上,在计算机问世并迅速引发席卷全球的信息技术革命时,由于其使用英文语言,如何进行汉字编码、存储、输入和输出一度成为计算机在中国普及和推广的“拦路虎”。此后,在速记专家唐亚伟发明亚伟中文速录机,北京大学王选院士等人研究出汉字照排和印刷技术研究,并解决了巨量汉字字形信息存储和输出等问题之后,电脑才与汉字“兼容”。
如今,随着IBM的沃森超级计算机、谷歌的阿尔法围棋、百度的小度机器人、微软小冰,以及苹果的Siri等人机交互系统走进人们的日常生活,能与人类用“语言”交流的应用已经无处不在,且更加智能,而这些现代科技催生的智能“机器”在中国的推广应用,始终存在将英文语言转化为中文形式的需求。对此,与会专家们表示,中文语言处理的目标就是让机器像人一样来理解和生成中文,让中国人可以用自己的语言与机器进行自由交流。
机器“说”中文需独立发展理论
让智能机器“说”中文,最大的难点是什么?李生说:“中文处理与英文有诸多差异,但是其最核心的区别在于中文重义合,英文重形合。”这使得中文表达相比英文缺少明显的表层语法特征,例如词与词之间的空格,人名等单词的首字母大写等,这种差异导致机器处理许多语法层面的任务时,中文比英文要更困难一些。
“中英文之间的差异甚至已经体现在人脑对语言信息的处理上,而这已经得到了神经科学的证实。”李生说,这一点美国科学院院刊曾刊发论文进行论述,“中文信息处理领域内的很多资深科学家也强调需要正视中英文差异,独立发展中文的处理理论。”
“要最终达到机器理解中文的目的,还有很多尚未解决的难题。”中国科学院自动化所研究院宗成庆说,中文信息处理是多学科交叉的复杂问题,仅歧义消解这一难题就已经让自然语言处理研究者左支右绌,力不从心。
“更何况人类运用语言还有多种多样的表现手法,诸如隐喻、幽默、夸张、双关、影射等,它们对自然语言理解研究都有深刻的影响。”而目前对有些问题刚开始研究,有些甚至尚未触及。对此,宗成庆认为,要实现机器对语言的理解,必须首先解开人类理解语言机制的秘密,这是有关人类认知机理、智能本质的科学难题。
中文信息处理让人们更“聪明”
能够进行各种语言互译的计算机软件是人们如今常用的语言处理工具。但经过多年的发展,机器翻译仍然不能让人十分满意。在该学术会议上发布的2016年《中文信息处理发展报告》中指出,在“信、达、雅”这三个语言翻译的不同层次上,目前的机器翻译还基本挣扎在“信”的阶段。未来,机器翻译质量的提高还有赖于基于神经网络技术的翻译方法等的发展进步。
对此,李生表示,以互联网、大数据和深度学习为标志的海量信息时代的到来,也给信息检索、语音技术、文字识别、自动问答、机器翻译等中文信息处理领域带来了新的挑战和机遇。
他举例说,人工智能技术给中文信息处理带来了诸如手机语音助手等许多新应用场景,这其中又产生了大量的用户反馈数据,这些海量的数据则促进了基于中文的知识图谱建立和深度学习等新技术的应用和发展。李生认为,这些变革会极大地将人们从中文记录、翻译、文字识别等机械劳动中解放出来,同时也会提升人们的认知能力。他说:“总之,借助中文信息处理技术的诸多进步,我们会了解得更多,变得更‘聪明’。”