从心灵感应到对疾病完全免疫,社交网络Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)曾对未来做出过许多大胆预言。现在,扎克伯格的梦想之一即将成为现实,即计算机可用通俗易懂的英语向用户解读图片中的内容。
扎克伯格认为,这种机器将对人机交互产生深远影响,特别是对那些存在视力障碍的人来说更是如此。他说:“如果我们能够制造这样一种计算机:它能够理解图片中的内容,并且向看不到图片的盲人进行描述,这是相当惊人的。而这也是我们正在追求的目标,我希望能够在10年内实现。”
但在过去一年中,来自多伦多大学、蒙特利尔大学、斯坦福大学以及谷歌的研究团队已经在开发人工智能项目上取得重大进展,他们研发的人工智能程序可以观察图片,确定哪些东西最重要,并用精确而清楚的预言描述它。
这种进展建立于图片识别算法之上,这些算法现在已经被广泛应用,比如Google Images和其他面部识别软件。这个领域正不断取得进步。它不仅可识别物体,也能将这个物体置入周围环境中,并对其进行描述。
图一:本希奥等人研发的机器可正确识别和描述图片中的内容,其中白色区域参照区,划线部分为正确匹配的词汇。
蒙特利尔大学人工智能研究员约书亚·本希奥(Yoshua Bengio)说:“最近我看到的最令人印象深刻的事情就是这些深度学习系统的能力大幅提高,它们可以理解图片内容,并使用自然预言描述它。”本希奥及其同事最近开发出一台机器,可以观察和描述图片。他们上周在国际机器学习大会山展示了自己的成果。
本希奥说,这台机器可描述出图片中相当精确的细节,通过在图像中寻找关联最密切的区域,从而生成相关语句。这听起来似乎不像重大突破,因为即使小孩儿也能轻松描述出图片上的内容。但是要取得这种成果实际上需要孩子掌握多种认知技能,包括看到物体、识别它们、了解物体与其周围其他物体之间的关系、条理清晰地描述所看到的内容等。
对于人工智能来说,这是相当艰巨的任务,因为它需要将视觉和自然语言结合,不同于专门的人工智能研究。此外,机器需要了解什么是焦点。据美国验光学会称,婴儿在5个月大的时候开始识别颜色和聚焦于小型物体。小孩子知道重点观看小女孩,因为她是图片中的主要角色。但是人工智能不一定具备这种能力,特别是涉及到平面、2D照片时,主要角色可能是相框内的任何东西。
为了帮助机器识别图片中的主要角色,研究人员用数以千计的图片训练它们。本希奥和同事们用12万张图片训练他们的机器,现在其已经可识别出图片中的物体,同时在描述过程中对图片中的相关部分进行聚焦。
图二:在模拟中,当机器生成每个词汇后,其注意力就会变化,从而反映出图片中相关部分之间的关系。
可是,当机器聚焦于错误目标,或当图片上有多个人物,抑或是图像看起来十分复杂时,机器的表现就会直线下降。在下列图片中,这台机器描述顶部中间图片为“一名女子手里抱着钟”,因为它错误地将这名女子衣服上的图标当成真正的钟表。
图三:机器也有犯错的时候。
此外,这台机器还可能错误识别对象。举例来说,上面左侧上图中的长颈鹿被误认为“站在森林中的白色大鸟”。