科大讯飞吴江照:AI的能力如何与不同行业更好地结合?

发表于讨论求助 2019-01-11 06:57:57

人工智能面临3次浪潮和2次寒冬。第一次浪潮，是1956年Dartmouth（达特矛斯）会议过后，有一个神经网络软件的兴起，把过去一些简单程序或算法解决不了的问题解决了。但是经过一段时间，发现当时的算法和数据没有达到一定的程度，所以导致在1980年的时候，第一次人工智能的冬天到来了。

大概在1990年左右，又迎来了第二次黄金期，主要是因为Hopfield网络（神经网络）带有历史记忆的网络，以及BP五算法的演进，同时计算能力和数据能力得到进一步增强，所以90年代的时候黄金期又来了。

顶峰是当时日本宣布做第五代计算机，不仅让我们计算机具备能做一些存储和计算的任务。同时还能像人一样去自主学习，当时提的目标很好，但是很遗憾，因为这个项目的投入，以及当时技术方面的原因，也没有做起来。随着第五代计算机的失败，意味着第二次人工智能的冬天又来临了。

2006年，国外当时提出深度学习的概念，这就迎来了第三次人工智能的兴起。伴随着各种DNN、CNN这些算法的演进，把人工智能推向今天这样一个台阶，大家可以看到人工智能确实在改变我们一些生活。从我们自己真真切切做人工智能行业角度来看，人工智能真的已经到达一个真正爆发的前夜了。

一、人工智能的3个层面

人工智能有不同的层面，从我们视角来看，主要有三个大的层面：

运算智能。目前计算机帮我们人类做的一些事情，就是计算机存一些数据、完成一些计算任务；

感知智能和运动智能。感知智能是让计算机或一些硬件能听会说、能看会认，能做一些简单的图像，识别出图像里的内容，能够识别出是人还是物体，能够识别出是哪一个人，都属于感知智能的一个范畴。运动智能是让机器能够像人一样跑起来，这是非常具有研究意义的领域。

认知智能。也是我们将要去做的，而且是最难的人工智能层面。

运算智能

如果比运算能力和存储能力的话，人类肯定不是计算机的对手，计算机现在存的数据绝对是人脑所不能比拟的，虽然人脑只被开发出了一部分。前面有演讲嘉宾提到AlphaGo，AlphaGo做的一些事情也比较简单，就是需要了人类围棋的规则。但是它学习的方式跟人不一样，一共学习16万盘人类下棋的一些具体数据，同时基于16万盘数据，自己又生成3000万盘数据，进行自我学习，最后再基于深度学习网络做了基于感知和计算相结合的一套算法，去和李世石PK，并且把他PK掉了。这是我们认为计算智能。

感知智能

包括自动驾驶技术，通过摄像头能够感知周围一些物体；最常用的语音识别，说话就能够识别出文字，目前进步非常快，跟人类基本上非常接近，而且在某些领域是超越人类的。比如我们说的绕口令，对于普通人来讲，基本听不明白说什么，但是让计算机听的话，很容易听出来说的内容。

认知智能

说到认知智能，离不开语音。《人类简史》提到就是智人为什么最终能够取代其他的动物，成为整个地球的主宰，就是因为智人后来慢慢演进过程中形成自己的语言，使这些知识和传承能够保留下来。

语音区分了人和动物，目前整个行业都要解决这样一个非常严峻的问题。美国，包括图灵测试，最新的一些测试，都是在做这个认知方面的测试，看人工智能这样一个阶段到底现在进步到什么阶段，能不能和人脑认知相媲美。

人工智能现在整个行业大家做的方式都比较接近，都是通过深度神经网络+大数据，通过高性能计算平台，训练模型。

二、人工智能的运用

今天我主要讲人工智能目前和我们真正在生活中、工作中有哪些息息相关的应用，让大家感受一下人工智能扑面而来的气息。

1、语音合成

新一代语音合成技术《奥巴马来啦》，这是把奥巴马声音拿过来，不断训练，获得奥巴马的声音模型，以后不需要奥巴马说这些内容了，当然我们也没有请奥巴马帮我们录这些素材。这是人工智能典型应用，很多场景下大家都能听到。比如之前我们和高德合作的高德导航里的林志玲声音就是通过这种方式做出来的声音。

2、手游

手游，场景比较特殊，如果打游戏过程中需要说一句话的话，而且希望别人能看到，如果用传统输入方式非常痛苦，要打很久，也许等你打完之后，想喷人家的心情已经没有了，这时候语音能够解决问题。可以用不着语音去说，说完了以后，别人在另外一侧，变成文字，人家可以立即看到，这样在游戏过程中对于游戏参与者来讲都能够很快获得输入的快感。这是AI在手游行业的结合点。

3、娱乐方面

AI在泛娱乐方面结合点非常多，比如电视盒子，以前家里找遥控器，找到过后，需要看什么节目时，乱按一通，可能从第一个频道找到最后一个频道，才能找到电视节目。现在有了电视盒子，直接说就可以了。

4、智能会议

媒体很多时候要做速记、翻译，这个行业以前非常火，每一次去开一些大会时，这些人员必不可少，但是今年7月份，参加亚马逊夏季峰会时，就用了我们讯飞听见实时翻译系统，在上面主持人说英文，我们可以实时显示出来，同时转成中文。

这个能力对于各个行业非常有用，不管是在开峰会性质，还是在家里开一些会议，也许不需要会议记录员了，未来还有一个优势，能够做摘要。一个会议，不管开半个小时还是一个小时，这么长内容里，如何把一些主要内容摘出来，形成一些结论性的东西，现在必须要人去字，但是未来这一块我们也可以通过AI去做，真正把这样一个会议后的整理工作从以前需要人做，到现在变成计算机做。AI+智能会议是能够促进速记和同传行业的发展。

5、旅游

国外都会面临几个窘境，去了几个国家，如果通英文还好，可能和印度人说英文，彼此都说不清楚，还有路痴、流量不够。有了这样一个翻译机，把语音和翻译结合在一起，能够很好解决这样一个出国的问题。同时在我们国家一些比较偏远的地区，沟通也是问题，医生下乡诊断时，有时候群众和他进行沟通时非常困难，有这样一个产品就可以很好实现人与人之间的沟通。

6、医疗

我们说不上移动互联网兴起的时候，觉得移动互联网能改变医疗行业，解决医患关系紧张的局面。做了一段时间以后，发现并没有改善，因为医疗行业根本性的原因是医生非常稀有的资源仍然还是很稀缺，没办法改变这样一个情况。特别是现在有一些医生不是主任医师，肯定经验方面会差一点，但是有一些专业的病，如果因为这个方面的原因贻误的话是非常可惜的。

如果我们通过AI能力解决专家医师专家资源稀缺问题的话，这种资源非常广。现在有智能影像远程诊断，以前去医院拍一个CT片子，要排队很久，未来不需要，AI已经能够看一张肺结核的片子，并且能够准确找出病灶的位置。

同时还能做一些辅助诊疗，比如病人口述病情时，计算机通过AI能力分析，可以大致给出一个范围，可能是在什么样的疾病区间里，同时给出一些建议，怎么样做更进一步的化验，才能确诊这样一个疾病。这对于整个医疗行业稀缺资源来说，是一个非常大的促进作用。

要通过医师从业资格证才能成为医生，AI目前也能够通过医师资格考试，国家考试，AI能够直接考上，相当于能够拿到这个资格证。AI+医疗，未来目标肯定是要瞄准解决医患关系紧张的路子去的。

7、教育

教育也是整个社会或国家普遍关注的问题。

比如普通话考试。在十年前，国内普通话考试都是一对一的，以前的考试就是搬一张桌子，学生坐这边，老师坐对面，等你说完了之后，老师给你打个分，碰到老师心情不好的话，可能就过不了。现在全国所有省份都通过机考，好处是代替人的考试。

同时还有自动阅卷，我们现在做了一个新的技术就是自动阅卷，不是涂涂答题卡，现在通过作文，首先要认得它，他写的字不是标准的楷体，需要变成一个计算机能够认识的文本，同时要做一些分析，比如作文的文章立意对不对，有没有用一些优美的词句。

自动答卷技术目前在这方面做得比老师要好，我们当地有一个地级市的安庆一中做了这个测试，几万个学生的作文阅卷，平均比老师阅卷准确性要高，而且我们分数也具有一定的分段。在教育方面，未来目标要实现快乐教学。

AI在各个领域的内容基本就这些，AI已经颠覆很多行业了，比如保安行业。随着旷视科技做的一些安全方面的技术不断演进，至少未来AI能够替代保安一些工作。

AI现在和以前完全不一样，以前都是在说概念，现在整个AI已经应用到我们实际生活中了：

每个行业都会被AI颠覆，就像移动互联网会颠覆传统行业一样，AI的这种颠覆会更加彻底，不像以前移动互联网+医疗只能解决挂号难的问题，解决不了资源稀缺的问题。

AI会代替很多低技术性工作，但是短期内还是无法取代一些高技术性的岗位。以同声传译为例，一些比较高端的会议上，AI能力目前还达不到人的高度，能解决一些普通的问题，但是解决不了一些高精尖的问题。所以这些场景下，AI更多解决低层面的问题，人需要解决一些高层面的问题，更多是人机协作，让整个AI服务于人的整个生活。

（本文转自“投中网”）

发表

签到

26906人签到看排名