行業(yè)資訊

Technical column

最后更新

熱門點擊

張鈸院士：人工智能技術已進入第三代

時間:2019-06-14 　發(fā)布者：sdszbzz　

近日，中科院院士、清華大學人工智能研究院院長張鈸教授接受記者采訪時認為，目前基于深度學習的人工智能在技術上已經(jīng)觸及天花板。從長遠來看，必須得走人類智能這條路，最終要發(fā)展人機協(xié)同，人類和機器和諧共處的世界。未來需要建立可解釋、魯棒性的人工智能理論和方法，發(fā)展安全、可靠和可信的人工智能技術。

在Alphago與韓國圍棋選手李世石對戰(zhàn)獲勝三年過后，一些跡象逐漸顯現(xiàn)，張鈸院士認為到了一個合適的時點，并接受了此次的專訪。

深度學習目前人工智能最受關注的領域，但并不是人工智能研究的全部。張鈸認為盡管產(chǎn)業(yè)層面還有空間，但目前基于深度學習的人工智能在技術上已經(jīng)觸及天花板，此前由這一技術路線帶來的“奇跡”在Alphago獲勝后未再出現(xiàn)，而且估計未來也很難繼續(xù)大量出現(xiàn)。技術改良很難徹底解決目前階段人工智能的根本性缺陷，而這些缺陷決定了其應用的空間被局限在特定的領域——大部分都集中在圖像識別、語音識別兩方面。

同時，在張鈸看來，目前全世界的企業(yè)界和部分學界對于深度學習技術的判斷過于樂觀，人工智能迫切需要推動到新的階段，而這注定將會是一個漫長的過程，有賴于與數(shù)學、腦科學等結合實現(xiàn)底層理論的突破。

作為中國少有的經(jīng)歷了兩個人工智能技術階段的研究者，張鈸在過去數(shù)年鮮少接受采訪，其中一個原因在于他對目前人工智能技術發(fā)展現(xiàn)狀的估計持有部分不同看法，在時機未到之時，張鈸謹慎的認為這些看法并不方便通過大眾媒體進行傳播，即使傳播也很難獲得認同。

一、“奇跡并沒有發(fā)生，按照我的估計，也不會繼續(xù)大量發(fā)生”

經(jīng)濟觀察報：您是如何估計和評價目前人工智能發(fā)展的現(xiàn)狀？

張鈸：這一輪人工智能熱潮是本世紀初興起的。首先是出現(xiàn)在學術界。學術界過去對人工智能是冷遇的，但是多層神經(jīng)網(wǎng)絡的出現(xiàn)帶來了一些改變，神經(jīng)網(wǎng)絡的理論在上世紀50年代就有了，但是一直處于淺層的應用狀態(tài)，人們沒有想到多層會帶來什么新的變化。

真正引起大家注意的就是2012年斯坦福的實驗（注：2012年谷歌和斯坦福利用多層神經(jīng)網(wǎng)絡和大量數(shù)據(jù)進行圖像識別的實驗），過去實驗的圖像樣本數(shù)最多是“萬”這個級別，斯坦福用了1000萬，用多層神經(jīng)網(wǎng)絡來做，結果發(fā)現(xiàn)在人臉、人體、貓臉三個圖像類別中，這個模型的識別率大概有7%-10%的提高。

這給大家非常大的震動，因為通常識別率要提高1%要做好多努力，現(xiàn)在只是把層數(shù)增加了，竟然發(fā)生兩大變化，一個是識別率提高這么多；第二個是能處理這么大數(shù)據(jù)。這兩個變化給大家非常大的鼓舞，何況在2012年之前，人工智能沒有解決過實際問題。

經(jīng)濟觀察報：這種突破的原因是什么？

張鈸：現(xiàn)在分析下來是三個原因，大家也都非常清楚了，一個大數(shù)據(jù)、一個是計算能力、一個是算法。認識到之后，一夜之間業(yè)內(nèi)業(yè)外對深度學習都非常震動，然后就發(fā)生了三件歷史性的事件。

第一件事是2015年12月，微軟通過152層的深度網(wǎng)絡，將圖像識別錯誤率降至3.57%，低于人類的誤識率5.1%；第二件事，2016年微軟做的語音識別，其詞錯率5.9%，和專業(yè)速記員水平一樣；第三件事：Alphago打敗韓國圍棋選手李世石。

通過人工智能，利用深度學習、大數(shù)據(jù)這兩個工具，在一定條件下、一定領域內(nèi)竟然能夠超過人類，這三件事情給大家極大的鼓舞。

特別是對于業(yè)外的人，都認為我只要掌握了大數(shù)據(jù)，利用深度學習說不定還能搞出奇跡來，于是大家做了很多很多預測，比如在多短時間內(nèi)計算機會在什么事情上能超過人。

但實際上，在這個之后，奇跡并沒有發(fā)生，按照我的估計，今后也不會大量發(fā)生。準確一點說，今后或許會在個別領域取得進展，但是不會像之前預計的那樣全面開花。特別是中國市場樂觀的認為“中國市場大、數(shù)據(jù)多，運用又不受限制，所以將來奇跡一定會發(fā)生在中國”。

結果很多企業(yè)在做的時候發(fā)現(xiàn)，不是那么回事。從目前的情況來看效果最好的事情還是這兩件：圖像識別、語音識別。我看了一下，中國人工智能領域20個獨角獸30個準獨角獸企業(yè)，近80%都跟圖像識別或者語音識別有關系。

經(jīng)濟觀察報：為什么會出現(xiàn)這樣的情況？或者說在這么長時間后，我們對人工智能目前能做什么有一個清晰的認識了嗎？

張鈸：人工智能在圍棋上戰(zhàn)勝人類后產(chǎn)生了這種恐慌，“大師才能做的事，人工智能居然能做，我的工作這么平凡，肯定會被機器所替代”。這里需要考慮一下它的局限性，我一直在各種各樣的會上談到不要過于樂觀。

人工智能能做的那三件事（語音識別、圖像識別、圍棋）是因為它滿足了五個條件，就是說只要滿足了這五個條件，計算機就能做好，只要有任何一個或者多個條件不滿足，計算機做起來就困難了。

第一個是必須具備充足的數(shù)據(jù)，充足不僅僅是說數(shù)量大，還要多樣性，不能殘缺等。

第二個是確定性。

第三個是最重要的，需要完全的信息，圍棋就是完全信息博弈，牌類是不完全信息博弈，圍棋雖然復雜，但本質(zhì)上只需要計算速度快，不要靠什么智能，可是在日常生活中，我們所有的決策都是在不完全信息下做的。

第四個是靜態(tài)，包括按確定性的規(guī)律演化，就是可預測性問題，在復雜路況下的自動駕駛就不滿足這一條；實際上它既不滿足確定性，也不滿足完全信息。

第五個就是特定領域，如果領域太寬他做不了。單任務，即下棋的人工智能軟件就是下棋，做不了別的。

經(jīng)濟觀察報：就是說在滿足這五個條件的前提下，目前的人工智能是勝任部分工作的？

張鈸：如果你的工作符合這五個條件，絕對會被計算機替代，符合這五個條件的工作特點很明顯，就是四個字“照章辦事”，不需要靈活性，比如出納員、收銀員。如果你的工作富有靈活性和創(chuàng)造性，計算機絕對不可能完全代替，當然部分代替是可能的，因為其中肯定也有一些簡單和重復性的內(nèi)容。如果認識到這一條就會認識到人工智能仍處于發(fā)展階段的初期。不是像有些人估計的那樣“人工智能技術已經(jīng)完全成熟，而進入發(fā)展應用的階段”。

二、“深度學習技術，從應用角度已經(jīng)接近天花板了”

經(jīng)濟觀察報：我們應該怎么去定義目前的深度學習技術路線，它是基于概率學的一個事物嗎？

張鈸：現(xiàn)在的深度學習本質(zhì)是基于概率統(tǒng)計，什么叫做概率統(tǒng)計？沒有那么玄，深度學習是尋找那些重復出現(xiàn)的模式，因此重復多了就被認為是規(guī)律（真理），因此謊言重復一千遍就被認為真理，所以為什么大數(shù)據(jù)有時會做出非?；奶频慕Y果，因為不管對不對，只要重復多了它就會按照這個規(guī)律走，就是誰說多了就是誰。

我常常講我們現(xiàn)在還沒有進入人工智能的核心問題，其實人工智能的核心是知識表示、不確定性推理這些，因為人類智慧的源泉在哪？在知識、經(jīng)驗、推理能力，這是人類理性的根本?，F(xiàn)在形成的人工智能系統(tǒng)都非常脆弱容易受攻擊或者欺騙，需要大量的數(shù)據(jù)，而且不可解釋，存在非常嚴重的缺陷，這個缺陷是本質(zhì)的，由其方法本身引起的。

經(jīng)濟觀察報：就是說通過改良的方式無法徹底解決？比如我們再增加神經(jīng)網(wǎng)絡層數(shù)和復雜性或者再提升數(shù)據(jù)的量級，會解決它的缺陷嗎？

張鈸：改良是不行的，深度學習的本質(zhì)就是利用沒有加工處理過的數(shù)據(jù)用概率學習的“黑箱”處理方法來尋找它的規(guī)律，這個方法本身通常無法找到“有意義”的規(guī)律，它只能找到重復出現(xiàn)的模式，也就是說，你光靠數(shù)據(jù)，是無法達到真正的智能。

此外，深度學習只是目前人工智能技術的一部分，人工智能還有更大更寬的領域需要去研究，知識表示、不確定性處理、人機交互，等等一大片地方，不能說深度學習就是人工智能，深度學習只是人工智能的一部分。一直到去年人工智能大會交流的論文還是三分之一是機器學習方面，三分之二是其他方面。

經(jīng)濟觀察報：學界在這上面還是有一個比較清晰的認識？

張鈸：我可以這么說，全世界的學界大多數(shù)有清晰的認識；全世界的企業(yè)界大多持過于樂觀的估計。

為什么出現(xiàn)這樣的情況呢？因為從事過早期人工智能研究的人，大多已經(jīng)故去或者年老，已經(jīng)沒有話語權?，F(xiàn)在活躍在人工智能研究第一線的都是深度學習、大數(shù)據(jù)興起以后加入的，他們對人工智能的了解不夠全面。

經(jīng)濟觀察報：如果說每一個技術路線都有一個“技術潛力”，那么在深度學習方面，我們已經(jīng)把這個潛力用了多少？

張鈸：科學研究是很難精確估計的，但是深度學習如果從應用角度，不去改變它，我覺得已經(jīng)接近天花板了，就是說你要想再出現(xiàn)奇跡的可能性比較小了。

經(jīng)濟觀察報：那基于此，目前商業(yè)公司在底層技術和產(chǎn)業(yè)應用上還是有很大的空間嗎？

張鈸：只要選好合適的應用場景，利用成熟的人工智能技術去做應用，還有較大的空間。目前在學術界圍繞克服深度學習存在的問題，正展開深入的研究工作，希望企業(yè)界，特別是中小企業(yè)要密切注視研究工作的進展，及時地將新技術應用到自己的產(chǎn)品中。當然像谷歌、BAT這樣規(guī)模的企業(yè)，他們都會去從事相關的研究工作，他們會把研究、開發(fā)與應用結合起來。

經(jīng)濟觀察報：有一種觀點認為我們強調(diào)的“白盒”（可理解性）它實際上是從人的思維來強調(diào)的，但是通過大數(shù)據(jù)、概率統(tǒng)計工具離散到連續(xù)的投射，它實際上是機器的思維，你不一定需要它給你一個解釋，只要正確的答案就可以了？

張鈸：目前有兩種意見，一種觀點認為智能化的道路是多條的，不是只有一條路能通向智能，我們通過自然進化產(chǎn)生了自然智能，那么我們?yōu)槭裁床荒芡ㄟ^機器產(chǎn)生機器智能？這個智能和自然智能不會是完全一樣的，條條大路通羅馬，我們通過自然進化獲得的智能也不見得是最佳的。這個觀點我贊成，機器智能與人類不相同，其實是有好處的，恰恰可以互補，發(fā)揮各自的長處。

但是從長遠來看，必須得走人類智能這條路，為什么？因為我們最終是要發(fā)展人機協(xié)同，人類和機器和諧共處的世界。我們不是說將來什么事情都讓機器去管去做，人類在一邊享受。我們要走人機共生這條路，這樣機器的智能就必須和人類一樣，不然沒法共處，機器做出來的事情，我們不能理解，我們的意圖機器也不知道，二者怎么能合作？

經(jīng)濟觀察報：就是必須具有可解釋性？

張鈸：是，就是可解釋性，你要它做決策，你不理解它，飛機就讓它開，誰敢坐這架飛機？所以目前的階段，車和飛機還是不能完全讓機器開的。為什么司機坐在上面我們放心？因為我們和他同命運，要撞死一塊撞死，機器和你可不是同一命運，它撞不死，你撞死了。

有的人非常脫離實際的去想這個問題，這是不對頭的，人類怎么會去那樣發(fā)展機器呢（注：指把人類的命運全部交給機器）？人類不會去那么發(fā)展的，有些人在那邊擔憂什么機器人統(tǒng)治人類，我說這最多只能算遠慮。

經(jīng)濟觀察報：所以圖靈的論文中也說這種觀點“不值一駁”。

張鈸：是，那是遠慮，我們目前還有很多近憂，發(fā)展人工智能必須要考慮安全問題，這已是現(xiàn)實問題。

你看語音合成，利用現(xiàn)有的技術可以做到以假亂真，和真人基本沒有差別?，F(xiàn)在看來這種技術不能推廣應用，因為一旦推廣就全亂套了，只要搞一段用語音合成技術做成的假錄音，就可以讓任何一位名人身敗名裂。這些都是非常危險的技術。人工智能的治理已經(jīng)提到日程上了。

三、“我們培養(yǎng)不出愛因斯坦、培養(yǎng)不出圖靈”

經(jīng)濟觀察報：一種觀點認為中國有更多的數(shù)據(jù)和更多的工程師，這種規(guī)模能倒推帶來基礎研究層面的突破或者決定技術的路線？

張鈸：這里混淆了好多概念，科學、技術、工程。科技水平需要三個標準來衡量，一個是科研水平、一個是技術水平、一個是工程實踐能力，或者產(chǎn)業(yè)化能力。

我們中國什么情況？從工程角度來看，在一些領域我們“接近世界水平”；技術水平我用的詞是“較大差距”，因為不少東西還是外國會做我們不會做；科研究領域我用的詞是“很大差距”，科學研究就是原創(chuàng)，實際上，所有人工智能領域的原創(chuàng)成果都是美國人做出來的，人工智能領域圖靈獎得主共十一人，十個美國人，一個加拿大人。

經(jīng)濟觀察報：數(shù)據(jù)顯示中國在人工智能領域的論文發(fā)表量和被引用次數(shù)都已經(jīng)進入前列位置，這是否說明中國人工智能科學研究領域的突破？

張鈸：如果單從論文來看研究水平，基本反映在三個指標上：數(shù)量、平均引用率、單篇最高引用率。拿人工智能來講，中國研究者論文的數(shù)量和平均引用率都還不錯，但是單篇最高引用率和世界差距就很大，而這個指標恰恰是反映你的原創(chuàng)能力。

也就是說深度學習這個領域，我們的平均水平達到世界水平了，但是最高水平和世界差距還是很大的。不過還是要肯定的，我們應用上發(fā)展比較快。

經(jīng)濟觀察報：清華在這方面有什么優(yōu)勢嗎？

張鈸：在人工智能重要的會議雜志上，這十年期間論文數(shù)量、平均質(zhì)量CMU（美國卡耐基梅隆大學）排第一，清華大學排第二。我們培養(yǎng)的人，在計算機這個領域，清華的本科、博士生都是世界一流的。

目前我們的跟蹤能力是比較強的，一旦有人起個頭，我們能迅速跟上去。但是很可惜，我們?nèi)狈敿馊宋铮才囵B(yǎng)不出頂尖的人才，如愛因斯坦、圖靈等。

我個人認為原因之一，可能與中國的文化有點關系，我們的從眾心理很嚴重，比如在人工智能領域，深度學習很熱，發(fā)表的論文作者中幾乎70%是華人，但是其他非熱門領域，包括不確定性推理、知識表示等幾乎沒有華人作者。這就是從眾扎堆，不愿意去探索“無人區(qū)”。

當然也不要著急，科學研究本來就是富人干的事情，是富國干的事情，我們還是發(fā)展中國家，科學研究起點比較低，暫時落后是難免的，我們會迎頭趕上。

四、“低潮會發(fā)生，但不會像過去那樣”

經(jīng)濟觀察報：如果說深度學習已進天花板，那么人工智能未來的前進方向?qū)谀模?/span>

張鈸：最近我們準備提出一個新的概念，就是第三代人工智能的概念，人工智能實際上經(jīng)歷過兩代，第一代就是符號推理，第二代就是目前的概率學習（或深度學習），我們認為現(xiàn)在正在進入人工智能的第三代。原因很明顯，第一代、第二代都有很大的局限性。

經(jīng)濟觀察報：你所說的第三代人工智能技術是有明確的實現(xiàn)方向或者特點嗎？

張鈸：我們現(xiàn)在提出的是要建立可解釋、魯棒性（注：可以理解為穩(wěn)健性）的人工智能理論和方法，發(fā)展安全、可靠和可信的人工智能技術。

經(jīng)濟觀察報：這樣的技術可能要等很久？

張鈸：是啊，很難預計，我們也很著急。

經(jīng)濟觀察報：是不是還得回歸到數(shù)學等理論層面里再去找新的方法？

張鈸：這個目前我們有兩條路，一個是和數(shù)學結合，一個是和腦科學結合。你想想如果沒有新的數(shù)學工具，沒有來自于腦科學啟發(fā)下的新思路，哪來的新理論？另一方面是要把數(shù)據(jù)驅(qū)動和知識驅(qū)動結合起來，因為通過數(shù)學、腦科學上尋求突破是比較艱難的，前面這件事現(xiàn)在則完全能夠做。

經(jīng)濟觀察報：這個結合是指之前幾十年人工智能的經(jīng)驗統(tǒng)合到一塊？

張鈸：是的，至少有一個方向就是要把第一代和第二代結合，利用各自的優(yōu)勢。但是這兩個結合很困難，因為他們在不同空間中操作，一個是向量空間，一個是符號空間，也需要有新的數(shù)學工具的加入。

經(jīng)濟觀察報：看人工智能歷史，每一代技術之間有很長的間隔期，第三代人工智能技術也會這樣嗎？

張鈸：我認為會更長，因為需要攻堅，因為遇到的問題更困難。

經(jīng)濟觀察報：會不會再過10年、20年，人工智能在學界或者公眾心中，又變成一個“隱學”，就像70、80年代那樣，大眾又不會再經(jīng)常提起來這個詞？

張鈸：低潮會發(fā)生，但不會像過去那樣，原因在哪？因為有大數(shù)據(jù)、互聯(lián)網(wǎng)和強大的計算資源，這些都會支撐人工智能繼續(xù)走下去，盡管有的時候還只是表面上的繁榮。

附：在2018 全球人工智能與機器人峰會上，清華大學人工智能研究院院長張鈸院士做題為“走向真正的人工智能”（Towards A Real Artifitial Intelligence）的大會報告。以下為報告全文，供大家學習交流。

張鈸院士：走向真正的人工智能

我今天要講的中心思想就是：我們現(xiàn)在離真正的人工智能還有一段很長的路。為了講清這個思想，我必須回答下面三個問題：

第一，什么叫做真正的人工智能？我們的目標是什么？

第二，為什么我們需要真正的人工智能？

第三，我們?nèi)绾巫呦蛘嬲娜斯ぶ悄埽?/span>

我現(xiàn)在回答這三個問題。

首先我們?nèi)绾卧u價目前人工智能取得的成果，我們的評價很簡單，針對這5件事：

第一是深藍打敗人類國際象棋冠軍；第二是 IBM 在電視知識競賽中打敗了美國的前兩個冠軍，這兩件事是一種類型，后面的三件事是另外一種類型；即2015年微軟在 ImageNet 上做圖象識別，它的誤識率略低于人類。還有百度、訊飛也都宣布在單句的中文語音識別上，它的誤識率也略低于人類。還有一個是大家非常熟悉的 AlphaGo 打敗了李世石。這5件事情都是機器在一定的范圍內(nèi)超過了人類，我們?nèi)绾蝸碓u價這5件事？

大家一致認為這5件事之所以成功，是由于前面三個因素，一是大數(shù)據(jù)，二是計算能力提高，第三是有非常好的人工智能算法。這三個因素大家都討論得非常多了，沒必要我再來說，我現(xiàn)在要說的最后一個因素是被大家所忽略的，這個因素是說，這所有的成果必須建立在一個合適的應用場景下。這件事雖然領域很不一樣，但是它們都滿足完全一樣的條件，或滿足下面的5個限制，首先你必須有豐富的數(shù)據(jù)或者豐富的知識，如果這兩件東西沒有，或者很少，你不用來談人工智能，因為你無法實現(xiàn)無米之炊。人工智能唯一的兩個資源，一個是數(shù)據(jù)，一個是知識。還有確定性信息、完全信息、靜態(tài)的、單任務和有限領域。這5個條件里面任何一個條件不滿足，現(xiàn)在的人工智能做起來就非常困難了。

大家想想這5個限制條件下的應用場景是什么樣的應用場景？就是照章辦事，不需要任何靈活性，這顯然不是智能的核心。

我們現(xiàn)在分析一下上述5個場景。下象棋是完全信息博弈，信息完全和確定，沒有問題。其次，它遵循著完全確定的游戲規(guī)則演化，我們把這種情況也叫做靜態(tài)。Watson 機器人也是這樣，Watson 是什么樣的對話問題呢？它為什么選擇知識競賽呢？我們知道知識競賽提的問題都沒有二義性，都是明確的，它的答案總是唯一性的。所以這樣的問答對機器人來講是非常容易的。它涉及的領域雖然比較寬，但也是有限的，包括大家覺得很玄乎的圍棋，也完全符合上面 5 個條件，所以對計算機來說也是很容易的。目前計算機打麻將就不行，因為牌類是不完全信息博弈，所以比棋類要難。總之，我們對目前人工智能取得的成果要有一個正確的評價。

目前的人工智能技術在以下領域都可以找到它的應用，它們是交通、服務、教育、娛樂等等，但我要強調(diào)是這些領域里面只有滿足上述 5 個條件的事情，計算機做起來才會容易，如果不滿足這些條件，計算機就做起來就困難了。大家常常關心什么樣的工作會被機器所替代，我可以明確告訴大家，滿足這 5 個條件的工作，總有一天會被計算機取代，就是那些照章辦事，不需要任何靈活性的工作，比如說出納員、收銀員等等。在座的所有工作都不可能被計算機完全代替，但不排斥你的工作中有一部分會被計算機取代，老師、企業(yè)家等的工作不可能被計算機完全代替。

為什么有這5個限制？原因在于我們現(xiàn)在的人工智能是沒有理解的人工智能。

我們先看符號模型，理性行為的模型，舉 Watson 的例子，它是個對話系統(tǒng)，我們現(xiàn)在所有做的對話系統(tǒng)都跟這個差不多，但是 Watson 做得更好些，它里面有知識庫，有推理機制。沃森除了專家知識之外，還有大量互聯(lián)網(wǎng)上大眾的知識，還運用了多推理機制。請看，這就是 Watson 系統(tǒng)的體系結構。它里面有哪些知識呢？有很多，包括百科全書、有線新聞、文學作品等等。所有的知識用紙質(zhì)來表示有 2 億頁，用存儲量表示達到了 4TB。它能回答什么問題呢？用它的例子來說明。第一個問題，1974 年 9 月 8 日誰被總統(tǒng)赦免？這對美國人來講很好回答，同樣對計算機來講也很好回答，你用這幾個關鍵字「1974 年 9 月 8 日」、「被總統(tǒng)赦免」，就能在文獻里頭查出來是誰，他就是尼克松。也就是說根據(jù)問題中的關鍵字，可以在已有的文獻里頭直接找到答案，這就是一般的網(wǎng)絡檢索方法。

第二個問題，熒光粉受到電子撞擊以后，它的電磁能以什么方式釋放出來？我們用「熒光粉」、「電子撞擊」、「釋放電磁能」等關鍵詞，也可以找到答案：「光或者光子」。這種方法就是平時網(wǎng)絡搜索的原理，應該說沒有什么智能。

回答下面的問題就需要「智能」了，跟智利陸地邊界最長的是哪個國家？跟智利有陸地邊界的國家可以檢索到，它們是阿根廷和玻利維亞，但是誰的邊境長？通常查不到。Watson 具備一定的推理能力，它從邊界間發(fā)生的事件、邊界的地理位置等等，經(jīng)過分析推理以后就可以找出答案，它就是阿根廷。下一個問題也屬于這種性質(zhì)，跟美國沒有外交關系的國家中哪個最靠北，跟美國沒有外交關系的國家有 4 個，只要檢索就行了，但是哪個國家最靠北，沒有直接答案，但可以從其它信息中推導出來，比如各個國家所處的緯度、氣候寒冷的程度等等分析出來，答案是北朝鮮。

智能體現(xiàn)在推理能力上。但是很不幸，現(xiàn)在的對話系統(tǒng)推理能力都很差。Watson 系統(tǒng)好一些，但也很有限。換句話說，我們現(xiàn)在的對話系統(tǒng)離真正的智能還很遠。

我們通過索菲亞機器人就可以看出來，索菲亞的對話是面向開放領域，你可以隨便提問，問題就暴露出來了。大家在電視上看到索菲亞侃侃而談，問什么問題都能答得很好，這里面有玄機，如果你的問題是預先提出來的，因為里頭有答案，因此回答得非常好，在電視上給大家演示的都是這種情況。

如果我們臨時提問題，問題就出來了。這是一個中國記者給索菲亞提的 4 個問題，它只答對了一個。「你幾歲了」，這個問題很簡單，它答不上來，它的回答是「你好，你看起來不錯」，答非所問，因為它不理解你所問的問題。只有第二個問題它是有準備的，里面有答案，所以答得很好?！改愕睦习迨钦l」，這個肯定它有準備。第三個問題，「你能回答多少問題呢」？它說「請繼續(xù)」，沒聽懂！。再問第四個問題，「你希望我問你什么問題呢」？它說「你經(jīng)常在北京做戶外活動嗎」？這就告訴我們說，現(xiàn)代的問答系統(tǒng)基本上沒有理解，只有少數(shù)有少量的理解，像 Watson 這樣算是比較好的。

為什么會這樣？也就是說我們現(xiàn)在的人工智能基本方法有缺陷，我們必須走向具有理解的 AI，這才是真正的人工智能。我這里提出的概念跟強人工智能有什么區(qū)別？首先我們說它在這點上是相同的，我們都試圖去準確地描述人類的智能行為，希望人工智能跟人類的智能相近，這也是強人工智能的一個目標，但是強人工智能只是從概念上提出來，并沒有從方法上提出怎么解決。大家知道強人工智能提出了一個最主要的概念，就是通用人工智能。怎么個通用法？它沒有回答。我們現(xiàn)在提出來的有理解的人工智能是可操作的，不只是概念，這是我們跟強人工智能的區(qū)別。

人機對話的時候，機器為什么不能理解人們提的問題。我們看一個例子就知道了，我們在知識庫里把「特朗普是美國總統(tǒng)」這個事實，用「特朗普-總統(tǒng)-美國」這三元組存在計算機里面，如果你提的問題是「誰是美國總統(tǒng)」？機器馬上回答出來：「特朗普」。但是你如果問其它有關的問題，如「特朗普是一個人嗎」？「特朗普是一個美國人嗎」？「美國有沒有總統(tǒng)」？它都回答不了。它太傻了，任何一個小學生，你只要告訴他特朗普是美國總統(tǒng)，后面這幾個問題他們絕對回答得出來。機器為什么回答不了后面的三個問題呢？就是這個系統(tǒng)太笨了，沒有常識，也沒有常識推理。既然特朗普是美國的總統(tǒng)，美國當然有總統(tǒng)，但是它連這一點常識的推理能力都沒有。所以要解決這個問題，必須在系統(tǒng)中加上常識庫、常識推理，沒有做到這一步，人機對話系統(tǒng)中機器不可能具有理解能力。但是大家知道，建立常識庫是一項「AI 的曼哈頓工程」。大家想想常識庫多么不好建，怎么告訴計算機，什么叫吃飯，怎么告訴計算機，什么叫睡覺，什么叫做睡不著覺，什么叫做夢，這些對人工智能來說都非常難，美國在 1984 年就搞了這樣一個常識庫的工程，做到現(xiàn)在還沒完全做出來?？梢?，要走向真正的人工智能，有理解的人工智能，是一條很漫長的路。

這里介紹一點我們現(xiàn)在做的工作，加入常識以后，對話的性能會不會有所改善。我們的基本做法是建立一個常識圖譜，用這個圖譜幫助理解提出的「問題」，同時利用常識圖譜幫助產(chǎn)生合適的答案。

下面就涉及到具體怎么做了，我不詳細說了，我就說結果，結果是有了常識以后，性能有了顯著的改善，對話的質(zhì)量提高了。這篇文章已經(jīng)發(fā)表，有興趣可以去閱讀。

另外是準符號模型，深度學習、神經(jīng)網(wǎng)絡主要用來模擬感性行為，感性行為是一般很難采用符號模型，因為感性（感覺）沒法精確描述。比如「馬」，怎么告訴計算機什么叫做馬？你說馬有四條腿，什么叫做腿？你說細長的叫做腿，什么叫細？什么叫做長？沒法告訴機器，因此不能用符號模型。目前用的辦法就是我們現(xiàn)在說的神經(jīng)網(wǎng)絡或者準符號模型，也就是用人類同樣的辦法，學習、訓練。我不告訴機器什么叫做馬，只是給不同的馬的圖片給它看，進行訓練。訓練完以后，然后再用沒見過的馬的圖片給它看，說對了，就是識別正確了，說不對就是識別不正確，如果 90% 是對的，就說明它的識別率是 90%。后來從淺層的神經(jīng)網(wǎng)絡又發(fā)展到多層的神經(jīng)網(wǎng)絡，從淺層發(fā)展到多層有兩個本質(zhì)性的變化，一個本質(zhì)性的變化就是輸入，深層網(wǎng)絡一般不用人工選擇的特征，用原始數(shù)據(jù)就行。所以深度學習的應用門檻降低了，你不要有專業(yè)知識，把原始數(shù)據(jù)輸進去就行了。第二個是它的性能提高很多，所以現(xiàn)在深度學習用得很多，原因就在這個地方。

通過數(shù)據(jù)驅(qū)動建立的系統(tǒng)能不能算是有智能呢？必須打一個很大的問號，就是說你做出來的人臉識別系統(tǒng)甚至識別率會比人還高，但是我們還不能說它有智能，為什么呢？這種通過數(shù)據(jù)驅(qū)動做出來的系統(tǒng)，它的性能跟人類差別非常大，魯棒性很差，很容易受干擾，會發(fā)生重大的錯誤，需要大量的訓練樣本。我們剛才已經(jīng)說過，給定一個圖像庫我們可以做到機器的識別率比人還要高，也就是說它可以識別各種各樣的物體，但是這樣的系統(tǒng)，我如果用這個噪聲輸給它，我可以讓它識別成為知更鳥，我用另外的噪聲輸給它，可以讓它識別成為獵豹。換句話講，這樣的系統(tǒng)只是一個機械的分類器，根本不是感知系統(tǒng)。也就是說它盡管把各種各樣動物分得很清楚，但是它不認識這個動物，它盡管可以把獵豹跟知更鳥分開，但是它本質(zhì)上不認識知更鳥和獵豹，它只到達了感覺的水平，并沒有達到感知的水平，它只是「感」，沒有上升到「知」。我們的結論是，只依靠深度學習很難到達真正的智能。這是很嚴峻的結論，因為如果有這樣的問題，在決策系統(tǒng)里頭是不能用這樣的系統(tǒng)，因為它會犯大錯。我在很多場合講過，人類的最大的優(yōu)點是「小錯不斷、大錯不犯」，機器最大的缺點是「小錯不犯，一犯就犯大錯」。這在決策系統(tǒng)里頭是不允許的，這就顯示人跟機器的截然不同，人非常聰明，所以他做什么事都很靈活，這就使得他很容易犯各種各樣的小錯。但是他很理性，很難發(fā)生大錯。計算機很笨，但是很認真，小錯誤絕對不會犯，但是它一犯就是天大的錯誤。剛才把那個把噪聲看成知更鳥，這不是大錯嗎？你把敵人的大炮看成一匹馬，不是大錯嗎？但是人類不會發(fā)生這種錯誤，人類只會把騾看成驢，但是計算機的識別系統(tǒng)會把驢看成一塊石頭。原因在哪兒？原因還是 AI 的理解能力問題。

我們看這個自動駕駛，過去講得很多，而且講得很樂觀，我們看看問題在什么地方。我們現(xiàn)在是這樣做，我們通過數(shù)據(jù)驅(qū)動的學習方法，學習不同場景下的圖象分割，并判別是車輛還是行人、道路等，然后建立三維模型，在三維模型上規(guī)劃行駛路徑。現(xiàn)在用硬件已經(jīng)可以做到實時，請問大家，這樣能不能解決問題？如果路況比較簡單，行人、車輛很少，勉強可以用。復雜的路況就用不了。什么原因？非常簡單，好多人總結出這個經(jīng)驗，行人或者司機都會有意無意破壞交通規(guī)則，包括外國人也一樣，中國人更嚴重一點。這就使得數(shù)據(jù)驅(qū)動方法失效，比如說我們可以用數(shù)據(jù)驅(qū)動方法來了解各種各樣行人的行為，我們可以通過大量進行訓練，都訓練完以后，如果出現(xiàn)新的情況呢？計算機能理解這是人從底下鉆過來，很危險嗎？所以你不可能把所有情況都訓練到。自動駕駛不可能對付突發(fā)事件，如果這個突發(fā)事件它沒見過，它就解決不了。怎么來解決這個問題呢？實際上就是要解決從「Without」到「With」理解的問題。人工智能現(xiàn)在有兩種基本方法，一種是用符號模型來模擬理性行為，符號模型可以表達信息的內(nèi)容，所以它是在一個語義的符號空間里頭，但是非常不幸，這個離散的符號表示，數(shù)學工具很難用，很多數(shù)學工具用不上去，所以它發(fā)展很慢。在模擬感性行為的時候，我們用的是特征空間的向量，向量就是數(shù)，可以把所有的數(shù)學工具都用上，優(yōu)化的工具、概率統(tǒng)計的工具全部用上。所以數(shù)據(jù)驅(qū)動方法這幾年發(fā)展非?？?，再難的問題，下圍棋非常難吧，計算機也可以「算」出來。但是它有一個非常大的缺陷，它是在特征空間里，缺乏語義。我們用數(shù)據(jù)去訓練一個模型，所謂「黑箱學習法」，加上你的數(shù)據(jù)質(zhì)量不高，很難學出有用的東西。什么叫概率統(tǒng)計？重復多了就是真理。如果數(shù)據(jù)質(zhì)量差，充滿了「謊言」。謊言重復多了，就變成真理了。

我們現(xiàn)在想出的解決辦法是這樣的，就是把這兩個空間投射到一個空間去，這個空間叫做語義的向量空間。也就是說我們把符號變成向量，同時把特征空間的向量變成語義空間的向量。怎么做？一是通過 Embedding（嵌入）把符號變成向量，盡量保持語義不變，可惜現(xiàn)在的方法都會引起語義的丟失，我們只能在投射的過程中讓語義丟失得少。第二方面做的工作比較少，就是 Raising（提升），把特征空間提升到語義空間去，這主要靠學科交叉，靠跟神經(jīng)科學的結合。只有這些問題解決以后，我們才能夠建立一個統(tǒng)一的理論，因為過去的感知和認知是不同的處理方法，大家說不到一塊，如果我們能夠投射到同一空間去，我們就可以建立一個統(tǒng)一的理論框架，這是我們的目標。在語義空間處理就可以解決理解問題，但是這項工作是非常艱巨的。

介紹一項我們現(xiàn)在做的工作。人工神經(jīng)網(wǎng)絡為什么不能得到語義信息呢？人腦的神經(jīng)網(wǎng)絡為什么可以呢？差別就在這里，我們現(xiàn)在用的人工神經(jīng)網(wǎng)絡太簡單了，我們正想辦法把腦神經(jīng)網(wǎng)絡的許多結構與功能加進去，我們這里只用了「稀疏發(fā)電」這一性質(zhì)，就可以看出一些效果，人臉、大象或者鳥的輪廓，神經(jīng)網(wǎng)絡可以把它提取出來。

還有一個辦法就是把數(shù)據(jù)驅(qū)動跟知識驅(qū)動結合起來。剛才講了，人的智能沒法通過單純的大數(shù)據(jù)學習把它學出來，那怎么辦？很簡單，加上知識，讓它有推理的能力，做決策的能力，這樣就能解決突發(fā)事件。我們現(xiàn)在做的工作就是把這些結合起來，這是我們的基本思路，知識也好，數(shù)據(jù)也好，都投射到同一空間，然后都用同樣的數(shù)學方法進行處理，這方面我們已經(jīng)做了不少工作。

最后做一個總結，我們從這個坐標看人工智能，橫軸代表領域的寬窄，從單領域到多領域、到開放領域?？v軸代表信息的確定性與完全性，從完全到不完全、從確定到不確定。在左下角代表最容易的，就是剛才講的符合 5 個條件的，現(xiàn)在人工智能在這部分解決得非常好，我們用白色來表示它，AlphaGo 在這里，深藍在這里，工業(yè)機器人在這里?，F(xiàn)在我們正在向灰色地區(qū)去走，打牌，信息不完全，現(xiàn)在打德州撲克，一人對一人，計算機能戰(zhàn)勝人類，多人對弈，計算機還不行，這是灰色地帶，我們還可以做，為什么可以做？盡管打牌是不確定的，但是它在概率意義下是確定的，你拿的這副牌的概率，可以算出來，同花的概率是多少，排成順的概率是多少，既然概率能算出來，最終人類肯定會被計算機打敗。Watson 在右邊，它的領域比較寬，但是它是確定性的，所以是在灰色的區(qū)域。往右上方去就比較難了，自動駕駛、服務機器人、大數(shù)據(jù)分析，它是一個大框，有的簡單，有的困難，就自動駕駛來講，專用道、行車很少，路況簡單等，在白色或者灰色區(qū)，如果路況復雜就到了黃色區(qū)域，黃色區(qū)現(xiàn)在計算機還解決不好。最遠的在哪兒呢？右上角，圖靈測試。大家對圖靈測試有很多誤解，其實圖靈測試是開領域問答，很難！索菲亞做得怎么樣？很糟糕。自然語言理解也在這里，復雜環(huán)境下的決策在偏左一點的地方，這也是很難的。所以我們?nèi)斯ぶ悄墁F(xiàn)在是從左下角往右上角走，我們現(xiàn)在處在出發(fā)點附近。有的人想把它用一些名詞來區(qū)分人工智能的不同發(fā)展階段，有專家問我，你的看法怎么樣？我建議不要用新詞，用新詞往往說不清，很麻煩，有的人說現(xiàn)在是弱人工智能，以后是強人工智能，也有人說現(xiàn)在叫增強智能（Augmented Intelligence）也是 AI……概念太多說不清，還是簡單一點，「我們正在通往真正 AI 的路上」，現(xiàn)在走得并不遠，在出發(fā)點附近，人工智能永遠在路上，大家要有思想準備，這就是人工智能的魅力。大家為什么這么重視人工智能？因為我們永遠在路上，這就吸引我們?nèi)ソ鉀Q這些問題，這些問題一旦解決了，人類的社會進步、人類的生活就會發(fā)生本質(zhì)上的改變。

最后我用中文寫最后一段作為總結，可惜我翻譯不了。

周穆王西巡狩，路遇匠人名偃師。翌日偃師謁見王，偕來一個假人?！岗叢礁┭觯湃艘病??！割I其顱，則歌合律；捧其手，則舞應節(jié)。千變?nèi)f化，惟意所適。王以為實人也，與盛姫內(nèi)御并觀之，技將終，倡者瞬其目而招王之左右侍妾。王大怒，要殺這個偃師。偃師大懾，立剖其倡者以示王，皆傅會革、木、膠、漆、白、黑、丹、青之所為。穆王始悅，詔貳車載之以歸。

這是 3000 年前我們古人對機器人的想象，看看現(xiàn)在的人工智能做得怎么樣呢？索菲亞是我們現(xiàn)在達到的水平，可是她不會唱歌、不會跳舞，只會說英文，周王也聽不懂，肯定沒有印象?，F(xiàn)在我們假設索菲亞「瞬其目而招王之左右侍妾」，向周王的姨太太們送去秋波，王會如何呢？我認為沒反應，因為索菲亞是女的，他用不著吃醋。但是我們假設索菲亞「瞬其目而招王」，向大王送去秋波，王會大悅，立即神魂顛倒，墜入愛河？我認為不會，因為索菲亞根本不像人，它最近才剛剛安上手腳，走路都不利索，怎么行呢？所以我的結論是，「索菲亞通不過穆王的測試，當然它更通不過圖靈測試」。

我們的結論是什么？人工智能剛剛起步，離真正的 AI 還很遙遠，大家共同努力吧，我們?nèi)沃氐肋h。

（以上言論僅代表個人觀點，與本網(wǎng)站立場無關）

信息來源：世界創(chuàng)新大會

何洋/整理