1. <tt id="3i53o"></tt>
    <legend id="3i53o"></legend>
    行業(yè)資訊
    Technical column

    張鈸院士:人工智能技術已進入第三代

    時間:2019-06-14  發(fā)布者:sdszbzz 

    近日,中科院院士、清華大學人工智能研究院院長張鈸教授接受記者采訪時認為,目前基于深度學習的人工智能在技術上已經(jīng)觸及天花板。從長遠來看,必須得走人類智能這條路,最終要發(fā)展人機協(xié)同,人類和機器和諧共處的世界。未來需要建立可解釋、魯棒性的人工智能理論和方法,發(fā)展安全、可靠和可信的人工智能技術。

    在Alphago與韓國圍棋選手李世石對戰(zhàn)獲勝三年過后,一些跡象逐漸顯現(xiàn),張鈸院士認為到了一個合適的時點,并接受了此次的專訪。

    深度學習目前人工智能最受關注的領域,但并不是人工智能研究的全部。張鈸認為盡管產(chǎn)業(yè)層面還有空間,但目前基于深度學習的人工智能在技術上已經(jīng)觸及天花板,此前由這一技術路線帶來的“奇跡”在Alphago獲勝后未再出現(xiàn),而且估計未來也很難繼續(xù)大量出現(xiàn)。技術改良很難徹底解決目前階段人工智能的根本性缺陷,而這些缺陷決定了其應用的空間被局限在特定的領域——大部分都集中在圖像識別、語音識別兩方面。

    同時,在張鈸看來,目前全世界的企業(yè)界和部分學界對于深度學習技術的判斷過于樂觀,人工智能迫切需要推動到新的階段,而這注定將會是一個漫長的過程,有賴于與數(shù)學、腦科學等結合實現(xiàn)底層理論的突破。

    作為中國少有的經(jīng)歷了兩個人工智能技術階段的研究者,張鈸在過去數(shù)年鮮少接受采訪,其中一個原因在于他對目前人工智能技術發(fā)展現(xiàn)狀的估計持有部分不同看法,在時機未到之時,張鈸謹慎的認為這些看法并不方便通過大眾媒體進行傳播,即使傳播也很難獲得認同。

    一、“奇跡并沒有發(fā)生,按照我的估計,也不會繼續(xù)大量發(fā)生”

    經(jīng)濟觀察報:您是如何估計和評價目前人工智能發(fā)展的現(xiàn)狀?

    張鈸:這一輪人工智能熱潮是本世紀初興起的。首先是出現(xiàn)在學術界。學術界過去對人工智能是冷遇的,但是多層神經(jīng)網(wǎng)絡的出現(xiàn)帶來了一些改變,神經(jīng)網(wǎng)絡的理論在上世紀50年代就有了,但是一直處于淺層的應用狀態(tài),人們沒有想到多層會帶來什么新的變化。

    真正引起大家注意的就是2012年斯坦福的實驗(注:2012年谷歌和斯坦福利用多層神經(jīng)網(wǎng)絡和大量數(shù)據(jù)進行圖像識別的實驗),過去實驗的圖像樣本數(shù)最多是“萬”這個級別,斯坦福用了1000萬,用多層神經(jīng)網(wǎng)絡來做,結果發(fā)現(xiàn)在人臉、人體、貓臉三個圖像類別中,這個模型的識別率大概有7%-10%的提高。

    這給大家非常大的震動,因為通常識別率要提高1%要做好多努力,現(xiàn)在只是把層數(shù)增加了,竟然發(fā)生兩大變化,一個是識別率提高這么多;第二個是能處理這么大數(shù)據(jù)。這兩個變化給大家非常大的鼓舞,何況在2012年之前,人工智能沒有解決過實際問題。

    經(jīng)濟觀察報:這種突破的原因是什么?

    張鈸:現(xiàn)在分析下來是三個原因,大家也都非常清楚了,一個大數(shù)據(jù)、一個是計算能力、一個是算法。認識到之后,一夜之間業(yè)內(nèi)業(yè)外對深度學習都非常震動,然后就發(fā)生了三件歷史性的事件。

    第一件事是2015年12月,微軟通過152層的深度網(wǎng)絡,將圖像識別錯誤率降至3.57%,低于人類的誤識率5.1%;第二件事,2016年微軟做的語音識別,其詞錯率5.9%,和專業(yè)速記員水平一樣;第三件事:Alphago打敗韓國圍棋選手李世石。

    通過人工智能,利用深度學習、大數(shù)據(jù)這兩個工具,在一定條件下、一定領域內(nèi)竟然能夠超過人類,這三件事情給大家極大的鼓舞。

    特別是對于業(yè)外的人,都認為我只要掌握了大數(shù)據(jù),利用深度學習說不定還能搞出奇跡來,于是大家做了很多很多預測,比如在多短時間內(nèi)計算機會在什么事情上能超過人。

    但實際上,在這個之后,奇跡并沒有發(fā)生,按照我的估計,今后也不會大量發(fā)生。準確一點說,今后或許會在個別領域取得進展,但是不會像之前預計的那樣全面開花。特別是中國市場樂觀的認為“中國市場大、數(shù)據(jù)多,運用又不受限制,所以將來奇跡一定會發(fā)生在中國”。

    結果很多企業(yè)在做的時候發(fā)現(xiàn),不是那么回事。從目前的情況來看效果最好的事情還是這兩件:圖像識別、語音識別。我看了一下,中國人工智能領域20個獨角獸30個準獨角獸企業(yè),近80%都跟圖像識別或者語音識別有關系。

    經(jīng)濟觀察報:為什么會出現(xiàn)這樣的情況?或者說在這么長時間后,我們對人工智能目前能做什么有一個清晰的認識了嗎?

    張鈸:人工智能在圍棋上戰(zhàn)勝人類后產(chǎn)生了這種恐慌,“大師才能做的事,人工智能居然能做,我的工作這么平凡,肯定會被機器所替代”。這里需要考慮一下它的局限性,我一直在各種各樣的會上談到不要過于樂觀。

    人工智能能做的那三件事(語音識別、圖像識別、圍棋)是因為它滿足了五個條件,就是說只要滿足了這五個條件,計算機就能做好,只要有任何一個或者多個條件不滿足,計算機做起來就困難了。

    第一個是必須具備充足的數(shù)據(jù),充足不僅僅是說數(shù)量大,還要多樣性,不能殘缺等。

    第二個是確定性。

    第三個是最重要的,需要完全的信息,圍棋就是完全信息博弈,牌類是不完全信息博弈,圍棋雖然復雜,但本質(zhì)上只需要計算速度快,不要靠什么智能,可是在日常生活中,我們所有的決策都是在不完全信息下做的。

    第四個是靜態(tài),包括按確定性的規(guī)律演化,就是可預測性問題,在復雜路況下的自動駕駛就不滿足這一條;實際上它既不滿足確定性,也不滿足完全信息。

    第五個就是特定領域,如果領域太寬他做不了。單任務,即下棋的人工智能軟件就是下棋,做不了別的。

    經(jīng)濟觀察報:就是說在滿足這五個條件的前提下,目前的人工智能是勝任部分工作的?

    張鈸:如果你的工作符合這五個條件,絕對會被計算機替代,符合這五個條件的工作特點很明顯,就是四個字“照章辦事”,不需要靈活性,比如出納員、收銀員。如果你的工作富有靈活性和創(chuàng)造性,計算機絕對不可能完全代替,當然部分代替是可能的,因為其中肯定也有一些簡單和重復性的內(nèi)容。如果認識到這一條就會認識到人工智能仍處于發(fā)展階段的初期。不是像有些人估計的那樣“人工智能技術已經(jīng)完全成熟,而進入發(fā)展應用的階段”。

    二、“深度學習技術,從應用角度已經(jīng)接近天花板了”

    經(jīng)濟觀察報:我們應該怎么去定義目前的深度學習技術路線,它是基于概率學的一個事物嗎?

    張鈸:現(xiàn)在的深度學習本質(zhì)是基于概率統(tǒng)計,什么叫做概率統(tǒng)計?沒有那么玄,深度學習是尋找那些重復出現(xiàn)的模式,因此重復多了就被認為是規(guī)律(真理),因此謊言重復一千遍就被認為真理,所以為什么大數(shù)據(jù)有時會做出非?;奶频慕Y果,因為不管對不對,只要重復多了它就會按照這個規(guī)律走,就是誰說多了就是誰。

    我常常講我們現(xiàn)在還沒有進入人工智能的核心問題,其實人工智能的核心是知識表示、不確定性推理這些,因為人類智慧的源泉在哪?在知識、經(jīng)驗、推理能力,這是人類理性的根本?,F(xiàn)在形成的人工智能系統(tǒng)都非常脆弱容易受攻擊或者欺騙,需要大量的數(shù)據(jù),而且不可解釋,存在非常嚴重的缺陷,這個缺陷是本質(zhì)的,由其方法本身引起的。

    經(jīng)濟觀察報:就是說通過改良的方式無法徹底解決?比如我們再增加神經(jīng)網(wǎng)絡層數(shù)和復雜性或者再提升數(shù)據(jù)的量級,會解決它的缺陷嗎?

    張鈸:改良是不行的,深度學習的本質(zhì)就是利用沒有加工處理過的數(shù)據(jù)用概率學習的“黑箱”處理方法來尋找它的規(guī)律,這個方法本身通常無法找到“有意義”的規(guī)律,它只能找到重復出現(xiàn)的模式,也就是說,你光靠數(shù)據(jù),是無法達到真正的智能。

    此外,深度學習只是目前人工智能技術的一部分,人工智能還有更大更寬的領域需要去研究,知識表示、不確定性處理、人機交互,等等一大片地方,不能說深度學習就是人工智能,深度學習只是人工智能的一部分。一直到去年人工智能大會交流的論文還是三分之一是機器學習方面,三分之二是其他方面。

    經(jīng)濟觀察報:學界在這上面還是有一個比較清晰的認識?

    張鈸:我可以這么說,全世界的學界大多數(shù)有清晰的認識;全世界的企業(yè)界大多持過于樂觀的估計。

    為什么出現(xiàn)這樣的情況呢?因為從事過早期人工智能研究的人,大多已經(jīng)故去或者年老,已經(jīng)沒有話語權?,F(xiàn)在活躍在人工智能研究第一線的都是深度學習、大數(shù)據(jù)興起以后加入的,他們對人工智能的了解不夠全面。

    經(jīng)濟觀察報:如果說每一個技術路線都有一個“技術潛力”,那么在深度學習方面,我們已經(jīng)把這個潛力用了多少?

    張鈸:科學研究是很難精確估計的,但是深度學習如果從應用角度,不去改變它,我覺得已經(jīng)接近天花板了,就是說你要想再出現(xiàn)奇跡的可能性比較小了。

    經(jīng)濟觀察報:那基于此,目前商業(yè)公司在底層技術和產(chǎn)業(yè)應用上還是有很大的空間嗎?

    張鈸:只要選好合適的應用場景,利用成熟的人工智能技術去做應用,還有較大的空間。目前在學術界圍繞克服深度學習存在的問題,正展開深入的研究工作,希望企業(yè)界,特別是中小企業(yè)要密切注視研究工作的進展,及時地將新技術應用到自己的產(chǎn)品中。當然像谷歌、BAT這樣規(guī)模的企業(yè),他們都會去從事相關的研究工作,他們會把研究、開發(fā)與應用結合起來。

    經(jīng)濟觀察報:有一種觀點認為我們強調(diào)的“白盒”(可理解性)它實際上是從人的思維來強調(diào)的,但是通過大數(shù)據(jù)、概率統(tǒng)計工具離散到連續(xù)的投射,它實際上是機器的思維,你不一定需要它給你一個解釋,只要正確的答案就可以了?

    張鈸:目前有兩種意見,一種觀點認為智能化的道路是多條的,不是只有一條路能通向智能,我們通過自然進化產(chǎn)生了自然智能,那么我們?yōu)槭裁床荒芡ㄟ^機器產(chǎn)生機器智能?這個智能和自然智能不會是完全一樣的,條條大路通羅馬,我們通過自然進化獲得的智能也不見得是最佳的。這個觀點我贊成,機器智能與人類不相同,其實是有好處的,恰恰可以互補,發(fā)揮各自的長處。

    但是從長遠來看,必須得走人類智能這條路,為什么?因為我們最終是要發(fā)展人機協(xié)同,人類和機器和諧共處的世界。我們不是說將來什么事情都讓機器去管去做,人類在一邊享受。我們要走人機共生這條路,這樣機器的智能就必須和人類一樣,不然沒法共處,機器做出來的事情,我們不能理解,我們的意圖機器也不知道,二者怎么能合作?

    經(jīng)濟觀察報:就是必須具有可解釋性?

    張鈸:是,就是可解釋性,你要它做決策,你不理解它,飛機就讓它開,誰敢坐這架飛機?所以目前的階段,車和飛機還是不能完全讓機器開的。為什么司機坐在上面我們放心?因為我們和他同命運,要撞死一塊撞死,機器和你可不是同一命運,它撞不死,你撞死了。

    有的人非常脫離實際的去想這個問題,這是不對頭的,人類怎么會去那樣發(fā)展機器呢(注:指把人類的命運全部交給機器)?人類不會去那么發(fā)展的,有些人在那邊擔憂什么機器人統(tǒng)治人類,我說這最多只能算遠慮。

    經(jīng)濟觀察報:所以圖靈的論文中也說這種觀點“不值一駁”。

    張鈸:是,那是遠慮,我們目前還有很多近憂,發(fā)展人工智能必須要考慮安全問題,這已是現(xiàn)實問題。

    你看語音合成,利用現(xiàn)有的技術可以做到以假亂真,和真人基本沒有差別?,F(xiàn)在看來這種技術不能推廣應用,因為一旦推廣就全亂套了,只要搞一段用語音合成技術做成的假錄音,就可以讓任何一位名人身敗名裂。這些都是非常危險的技術。人工智能的治理已經(jīng)提到日程上了。

    三、“我們培養(yǎng)不出愛因斯坦、培養(yǎng)不出圖靈”

    經(jīng)濟觀察報:一種觀點認為中國有更多的數(shù)據(jù)和更多的工程師,這種規(guī)模能倒推帶來基礎研究層面的突破或者決定技術的路線?

    張鈸:這里混淆了好多概念,科學、技術、工程。科技水平需要三個標準來衡量,一個是科研水平、一個是技術水平、一個是工程實踐能力,或者產(chǎn)業(yè)化能力。

    我們中國什么情況?從工程角度來看,在一些領域我們“接近世界水平”;技術水平我用的詞是“較大差距”,因為不少東西還是外國會做我們不會做;科研究領域我用的詞是“很大差距”,科學研究就是原創(chuàng),實際上,所有人工智能領域的原創(chuàng)成果都是美國人做出來的,人工智能領域圖靈獎得主共十一人,十個美國人,一個加拿大人。

    經(jīng)濟觀察報:數(shù)據(jù)顯示中國在人工智能領域的論文發(fā)表量和被引用次數(shù)都已經(jīng)進入前列位置,這是否說明中國人工智能科學研究領域的突破?

    張鈸:如果單從論文來看研究水平,基本反映在三個指標上:數(shù)量、平均引用率、單篇最高引用率。拿人工智能來講,中國研究者論文的數(shù)量和平均引用率都還不錯,但是單篇最高引用率和世界差距就很大,而這個指標恰恰是反映你的原創(chuàng)能力。

    也就是說深度學習這個領域,我們的平均水平達到世界水平了,但是最高水平和世界差距還是很大的。不過還是要肯定的,我們應用上發(fā)展比較快。

    經(jīng)濟觀察報:清華在這方面有什么優(yōu)勢嗎?

    張鈸:在人工智能重要的會議雜志上,這十年期間論文數(shù)量、平均質(zhì)量CMU(美國卡耐基梅隆大學)排第一,清華大學排第二。我們培養(yǎng)的人,在計算機這個領域,清華的本科、博士生都是世界一流的。

    目前我們的跟蹤能力是比較強的,一旦有人起個頭,我們能迅速跟上去。但是很可惜,我們?nèi)狈敿馊宋铮才囵B(yǎng)不出頂尖的人才,如愛因斯坦、圖靈等。

    我個人認為原因之一,可能與中國的文化有點關系,我們的從眾心理很嚴重,比如在人工智能領域,深度學習很熱,發(fā)表的論文作者中幾乎70%是華人,但是其他非熱門領域,包括不確定性推理、知識表示等幾乎沒有華人作者。這就是從眾扎堆,不愿意去探索“無人區(qū)”。

    當然也不要著急,科學研究本來就是富人干的事情,是富國干的事情,我們還是發(fā)展中國家,科學研究起點比較低,暫時落后是難免的,我們會迎頭趕上。

    四、“低潮會發(fā)生,但不會像過去那樣”

    經(jīng)濟觀察報:如果說深度學習已進天花板,那么人工智能未來的前進方向?qū)谀模?/span>

    張鈸:最近我們準備提出一個新的概念,就是第三代人工智能的概念,人工智能實際上經(jīng)歷過兩代,第一代就是符號推理,第二代就是目前的概率學習(或深度學習),我們認為現(xiàn)在正在進入人工智能的第三代。原因很明顯,第一代、第二代都有很大的局限性。

    經(jīng)濟觀察報:你所說的第三代人工智能技術是有明確的實現(xiàn)方向或者特點嗎?

    張鈸:我們現(xiàn)在提出的是要建立可解釋、魯棒性(注:可以理解為穩(wěn)健性)的人工智能理論和方法,發(fā)展安全、可靠和可信的人工智能技術。

    經(jīng)濟觀察報:這樣的技術可能要等很久?

    張鈸:是啊,很難預計,我們也很著急。

    經(jīng)濟觀察報:是不是還得回歸到數(shù)學等理論層面里再去找新的方法?

    張鈸:這個目前我們有兩條路,一個是和數(shù)學結合,一個是和腦科學結合。你想想如果沒有新的數(shù)學工具,沒有來自于腦科學啟發(fā)下的新思路,哪來的新理論?另一方面是要把數(shù)據(jù)驅(qū)動和知識驅(qū)動結合起來,因為通過數(shù)學、腦科學上尋求突破是比較艱難的,前面這件事現(xiàn)在則完全能夠做。

    經(jīng)濟觀察報:這個結合是指之前幾十年人工智能的經(jīng)驗統(tǒng)合到一塊?

    張鈸:是的,至少有一個方向就是要把第一代和第二代結合,利用各自的優(yōu)勢。但是這兩個結合很困難,因為他們在不同空間中操作,一個是向量空間,一個是符號空間,也需要有新的數(shù)學工具的加入。

    經(jīng)濟觀察報:看人工智能歷史,每一代技術之間有很長的間隔期,第三代人工智能技術也會這樣嗎?

    張鈸:我認為會更長,因為需要攻堅,因為遇到的問題更困難。

    經(jīng)濟觀察報:會不會再過10年、20年,人工智能在學界或者公眾心中,又變成一個“隱學”,就像70、80年代那樣,大眾又不會再經(jīng)常提起來這個詞?

    張鈸:低潮會發(fā)生,但不會像過去那樣,原因在哪?因為有大數(shù)據(jù)、互聯(lián)網(wǎng)和強大的計算資源,這些都會支撐人工智能繼續(xù)走下去,盡管有的時候還只是表面上的繁榮。

    附:在2018 全球人工智能與機器人峰會上,清華大學人工智能研究院院長張鈸院士做題為“走向真正的人工智能”(Towards A Real Artifitial Intelligence)的大會報告。以下為報告全文,供大家學習交流。

    張鈸院士:走向真正的人工智能

    我今天要講的中心思想就是:我們現(xiàn)在離真正的人工智能還有一段很長的路。為了講清這個思想,我必須回答下面三個問題:

    第一,什么叫做真正的人工智能?我們的目標是什么?

    第二,為什么我們需要真正的人工智能?

    第三,我們?nèi)绾巫呦蛘嬲娜斯ぶ悄埽?/span>

    我現(xiàn)在回答這三個問題。

    首先我們?nèi)绾卧u價目前人工智能取得的成果,我們的評價很簡單,針對這5件事:

    第一是深藍打敗人類國際象棋冠軍;第二是 IBM 在電視知識競賽中打敗了美國的前兩個冠軍,這兩件事是一種類型,后面的三件事是另外一種類型;即2015年微軟在 ImageNet 上做圖象識別,它的誤識率略低于人類。還有百度、訊飛也都宣布在單句的中文語音識別上,它的誤識率也略低于人類。還有一個是大家非常熟悉的 AlphaGo 打敗了李世石。這5件事情都是機器在一定的范圍內(nèi)超過了人類,我們?nèi)绾蝸碓u價這5件事?

    大家一致認為這5件事之所以成功,是由于前面三個因素,一是大數(shù)據(jù),二是計算能力提高,第三是有非常好的人工智能算法。這三個因素大家都討論得非常多了,沒必要我再來說,我現(xiàn)在要說的最后一個因素是被大家所忽略的,這個因素是說,這所有的成果必須建立在一個合適的應用場景下。這件事雖然領域很不一樣,但是它們都滿足完全一樣的條件,或滿足下面的5個限制,首先你必須有豐富的數(shù)據(jù)或者豐富的知識,如果這兩件東西沒有,或者很少,你不用來談人工智能,因為你無法實現(xiàn)無米之炊。人工智能唯一的兩個資源,一個是數(shù)據(jù),一個是知識。還有確定性信息、完全信息、靜態(tài)的、單任務和有限領域。這5個條件里面任何一個條件不滿足,現(xiàn)在的人工智能做起來就非常困難了。

    大家想想這5個限制條件下的應用場景是什么樣的應用場景?就是照章辦事,不需要任何靈活性,這顯然不是智能的核心。

    我們現(xiàn)在分析一下上述5個場景。下象棋是完全信息博弈,信息完全和確定,沒有問題。其次,它遵循著完全確定的游戲規(guī)則演化,我們把這種情況也叫做靜態(tài)。Watson 機器人也是這樣,Watson 是什么樣的對話問題呢?它為什么選擇知識競賽呢?我們知道知識競賽提的問題都沒有二義性,都是明確的,它的答案總是唯一性的。所以這樣的問答對機器人來講是非常容易的。它涉及的領域雖然比較寬,但也是有限的,包括大家覺得很玄乎的圍棋,也完全符合上面 5 個條件,所以對計算機來說也是很容易的。目前計算機打麻將就不行,因為牌類是不完全信息博弈,所以比棋類要難。總之,我們對目前人工智能取得的成果要有一個正確的評價。

    目前的人工智能技術在以下領域都可以找到它的應用,它們是交通、服務、教育、娛樂等等,但我要強調(diào)是這些領域里面只有滿足上述 5 個條件的事情,計算機做起來才會容易,如果不滿足這些條件,計算機就做起來就困難了。大家常常關心什么樣的工作會被機器所替代,我可以明確告訴大家,滿足這 5 個條件的工作,總有一天會被計算機取代,就是那些照章辦事,不需要任何靈活性的工作,比如說出納員、收銀員等等。在座的所有工作都不可能被計算機完全代替,但不排斥你的工作中有一部分會被計算機取代,老師、企業(yè)家等的工作不可能被計算機完全代替。

    為什么有這5個限制?原因在于我們現(xiàn)在的人工智能是沒有理解的人工智能。

    我們先看符號模型,理性行為的模型,舉 Watson 的例子,它是個對話系統(tǒng),我們現(xiàn)在所有做的對話系統(tǒng)都跟這個差不多,但是 Watson 做得更好些,它里面有知識庫,有推理機制。沃森除了專家知識之外,還有大量互聯(lián)網(wǎng)上大眾的知識,還運用了多推理機制。請看,這就是 Watson 系統(tǒng)的體系結構。它里面有哪些知識呢?有很多,包括百科全書、有線新聞、文學作品等等。所有的知識用紙質(zhì)來表示有 2 億頁,用存儲量表示達到了 4TB。它能回答什么問題呢?用它的例子來說明。第一個問題,1974 年 9 月 8 日誰被總統(tǒng)赦免?這對美國人來講很好回答,同樣對計算機來講也很好回答,你用這幾個關鍵字「1974 年 9 月 8 日」、「被總統(tǒng)赦免」,就能在文獻里頭查出來是誰,他就是尼克松。也就是說根據(jù)問題中的關鍵字,可以在已有的文獻里頭直接找到答案,這就是一般的網(wǎng)絡檢索方法。

    第二個問題,熒光粉受到電子撞擊以后,它的電磁能以什么方式釋放出來?我們用「熒光粉」、「電子撞擊」、「釋放電磁能」等關鍵詞,也可以找到答案:「光或者光子」。這種方法就是平時網(wǎng)絡搜索的原理,應該說沒有什么智能。

    回答下面的問題就需要「智能」了,跟智利陸地邊界最長的是哪個國家?跟智利有陸地邊界的國家可以檢索到,它們是阿根廷和玻利維亞,但是誰的邊境長?通常查不到。Watson 具備一定的推理能力,它從邊界間發(fā)生的事件、邊界的地理位置等等,經(jīng)過分析推理以后就可以找出答案,它就是阿根廷。下一個問題也屬于這種性質(zhì),跟美國沒有外交關系的國家中哪個最靠北,跟美國沒有外交關系的國家有 4 個,只要檢索就行了,但是哪個國家最靠北,沒有直接答案,但可以從其它信息中推導出來,比如各個國家所處的緯度、氣候寒冷的程度等等分析出來,答案是北朝鮮。

    智能體現(xiàn)在推理能力上。但是很不幸,現(xiàn)在的對話系統(tǒng)推理能力都很差。Watson 系統(tǒng)好一些,但也很有限。換句話說,我們現(xiàn)在的對話系統(tǒng)離真正的智能還很遠。

    我們通過索菲亞機器人就可以看出來,索菲亞的對話是面向開放領域,你可以隨便提問,問題就暴露出來了。大家在電視上看到索菲亞侃侃而談,問什么問題都能答得很好,這里面有玄機,如果你的問題是預先提出來的,因為里頭有答案,因此回答得非常好,在電視上給大家演示的都是這種情況。

    如果我們臨時提問題,問題就出來了。這是一個中國記者給索菲亞提的 4 個問題,它只答對了一個。「你幾歲了」,這個問題很簡單,它答不上來,它的回答是「你好,你看起來不錯」,答非所問,因為它不理解你所問的問題。只有第二個問題它是有準備的,里面有答案,所以答得很好?!改愕睦习迨钦l」,這個肯定它有準備。第三個問題,「你能回答多少問題呢」?它說「請繼續(xù)」,沒聽懂!。再問第四個問題,「你希望我問你什么問題呢」?它說「你經(jīng)常在北京做戶外活動嗎」?這就告訴我們說,現(xiàn)代的問答系統(tǒng)基本上沒有理解,只有少數(shù)有少量的理解,像 Watson 這樣算是比較好的。

    為什么會這樣?也就是說我們現(xiàn)在的人工智能基本方法有缺陷,我們必須走向具有理解的 AI,這才是真正的人工智能。我這里提出的概念跟強人工智能有什么區(qū)別?首先我們說它在這點上是相同的,我們都試圖去準確地描述人類的智能行為,希望人工智能跟人類的智能相近,這也是強人工智能的一個目標,但是強人工智能只是從概念上提出來,并沒有從方法上提出怎么解決。大家知道強人工智能提出了一個最主要的概念,就是通用人工智能。怎么個通用法?它沒有回答。我們現(xiàn)在提出來的有理解的人工智能是可操作的,不只是概念,這是我們跟強人工智能的區(qū)別。

    人機對話的時候,機器為什么不能理解人們提的問題。我們看一個例子就知道了,我們在知識庫里把「特朗普是美國總統(tǒng)」這個事實,用「特朗普-總統(tǒng)-美國」這三元組存在計算機里面,如果你提的問題是「誰是美國總統(tǒng)」?機器馬上回答出來:「特朗普」。但是你如果問其它有關的問題,如「特朗普是一個人嗎」?「特朗普是一個美國人嗎」?「美國有沒有總統(tǒng)」?它都回答不了。它太傻了,任何一個小學生,你只要告訴他特朗普是美國總統(tǒng),后面這幾個問題他們絕對回答得出來。機器為什么回答不了后面的三個問題呢?就是這個系統(tǒng)太笨了,沒有常識,也沒有常識推理。既然特朗普是美國的總統(tǒng),美國當然有總統(tǒng),但是它連這一點常識的推理能力都沒有。所以要解決這個問題,必須在系統(tǒng)中加上常識庫、常識推理,沒有做到這一步,人機對話系統(tǒng)中機器不可能具有理解能力。但是大家知道,建立常識庫是一項「AI 的曼哈頓工程」。大家想想常識庫多么不好建,怎么告訴計算機,什么叫吃飯,怎么告訴計算機,什么叫睡覺,什么叫做睡不著覺,什么叫做夢,這些對人工智能來說都非常難,美國在 1984 年就搞了這樣一個常識庫的工程,做到現(xiàn)在還沒完全做出來??梢?,要走向真正的人工智能,有理解的人工智能,是一條很漫長的路。

    這里介紹一點我們現(xiàn)在做的工作,加入常識以后,對話的性能會不會有所改善。我們的基本做法是建立一個常識圖譜,用這個圖譜幫助理解提出的「問題」,同時利用常識圖譜幫助產(chǎn)生合適的答案。

    下面就涉及到具體怎么做了,我不詳細說了,我就說結果,結果是有了常識以后,性能有了顯著的改善,對話的質(zhì)量提高了。這篇文章已經(jīng)發(fā)表,有興趣可以去閱讀。

    另外是準符號模型,深度學習、神經(jīng)網(wǎng)絡主要用來模擬感性行為,感性行為是一般很難采用符號模型,因為感性(感覺)沒法精確描述。比如「馬」,怎么告訴計算機什么叫做馬?你說馬有四條腿,什么叫做腿?你說細長的叫做腿,什么叫細?什么叫做長?沒法告訴機器,因此不能用符號模型。目前用的辦法就是我們現(xiàn)在說的神經(jīng)網(wǎng)絡或者準符號模型,也就是用人類同樣的辦法,學習、訓練。我不告訴機器什么叫做馬,只是給不同的馬的圖片給它看,進行訓練。訓練完以后,然后再用沒見過的馬的圖片給它看,說對了,就是識別正確了,說不對就是識別不正確,如果 90% 是對的,就說明它的識別率是 90%。后來從淺層的神經(jīng)網(wǎng)絡又發(fā)展到多層的神經(jīng)網(wǎng)絡,從淺層發(fā)展到多層有兩個本質(zhì)性的變化,一個本質(zhì)性的變化就是輸入,深層網(wǎng)絡一般不用人工選擇的特征,用原始數(shù)據(jù)就行。所以深度學習的應用門檻降低了,你不要有專業(yè)知識,把原始數(shù)據(jù)輸進去就行了。第二個是它的性能提高很多,所以現(xiàn)在深度學習用得很多,原因就在這個地方。

    通過數(shù)據(jù)驅(qū)動建立的系統(tǒng)能不能算是有智能呢?必須打一個很大的問號,就是說你做出來的人臉識別系統(tǒng)甚至識別率會比人還高,但是我們還不能說它有智能,為什么呢?這種通過數(shù)據(jù)驅(qū)動做出來的系統(tǒng),它的性能跟人類差別非常大,魯棒性很差,很容易受干擾,會發(fā)生重大的錯誤,需要大量的訓練樣本。我們剛才已經(jīng)說過,給定一個圖像庫我們可以做到機器的識別率比人還要高,也就是說它可以識別各種各樣的物體,但是這樣的系統(tǒng),我如果用這個噪聲輸給它,我可以讓它識別成為知更鳥,我用另外的噪聲輸給它,可以讓它識別成為獵豹。換句話講,這樣的系統(tǒng)只是一個機械的分類器,根本不是感知系統(tǒng)。也就是說它盡管把各種各樣動物分得很清楚,但是它不認識這個動物,它盡管可以把獵豹跟知更鳥分開,但是它本質(zhì)上不認識知更鳥和獵豹,它只到達了感覺的水平,并沒有達到感知的水平,它只是「感」,沒有上升到「知」。我們的結論是,只依靠深度學習很難到達真正的智能。這是很嚴峻的結論,因為如果有這樣的問題,在決策系統(tǒng)里頭是不能用這樣的系統(tǒng),因為它會犯大錯。我在很多場合講過,人類的最大的優(yōu)點是「小錯不斷、大錯不犯」,機器最大的缺點是「小錯不犯,一犯就犯大錯」。這在決策系統(tǒng)里頭是不允許的,這就顯示人跟機器的截然不同,人非常聰明,所以他做什么事都很靈活,這就使得他很容易犯各種各樣的小錯。但是他很理性,很難發(fā)生大錯。計算機很笨,但是很認真,小錯誤絕對不會犯,但是它一犯就是天大的錯誤。剛才把那個把噪聲看成知更鳥,這不是大錯嗎?你把敵人的大炮看成一匹馬,不是大錯嗎?但是人類不會發(fā)生這種錯誤,人類只會把騾看成驢,但是計算機的識別系統(tǒng)會把驢看成一塊石頭。原因在哪兒?原因還是 AI 的理解能力問題。

    我們看這個自動駕駛,過去講得很多,而且講得很樂觀,我們看看問題在什么地方。我們現(xiàn)在是這樣做,我們通過數(shù)據(jù)驅(qū)動的學習方法,學習不同場景下的圖象分割,并判別是車輛還是行人、道路等,然后建立三維模型,在三維模型上規(guī)劃行駛路徑。現(xiàn)在用硬件已經(jīng)可以做到實時,請問大家,這樣能不能解決問題?如果路況比較簡單,行人、車輛很少,勉強可以用。復雜的路況就用不了。什么原因?非常簡單,好多人總結出這個經(jīng)驗,行人或者司機都會有意無意破壞交通規(guī)則,包括外國人也一樣,中國人更嚴重一點。這就使得數(shù)據(jù)驅(qū)動方法失效,比如說我們可以用數(shù)據(jù)驅(qū)動方法來了解各種各樣行人的行為,我們可以通過大量進行訓練,都訓練完以后,如果出現(xiàn)新的情況呢?計算機能理解這是人從底下鉆過來,很危險嗎?所以你不可能把所有情況都訓練到。自動駕駛不可能對付突發(fā)事件,如果這個突發(fā)事件它沒見過,它就解決不了。怎么來解決這個問題呢?實際上就是要解決從「Without」到「With」理解的問題。人工智能現(xiàn)在有兩種基本方法,一種是用符號模型來模擬理性行為,符號模型可以表達信息的內(nèi)容,所以它是在一個語義的符號空間里頭,但是非常不幸,這個離散的符號表示,數(shù)學工具很難用,很多數(shù)學工具用不上去,所以它發(fā)展很慢。在模擬感性行為的時候,我們用的是特征空間的向量,向量就是數(shù),可以把所有的數(shù)學工具都用上,優(yōu)化的工具、概率統(tǒng)計的工具全部用上。所以數(shù)據(jù)驅(qū)動方法這幾年發(fā)展非???,再難的問題,下圍棋非常難吧,計算機也可以「算」出來。但是它有一個非常大的缺陷,它是在特征空間里,缺乏語義。我們用數(shù)據(jù)去訓練一個模型,所謂「黑箱學習法」,加上你的數(shù)據(jù)質(zhì)量不高,很難學出有用的東西。什么叫概率統(tǒng)計?重復多了就是真理。如果數(shù)據(jù)質(zhì)量差,充滿了「謊言」。謊言重復多了,就變成真理了。

    我們現(xiàn)在想出的解決辦法是這樣的,就是把這兩個空間投射到一個空間去,這個空間叫做語義的向量空間。也就是說我們把符號變成向量,同時把特征空間的向量變成語義空間的向量。怎么做?一是通過 Embedding(嵌入)把符號變成向量,盡量保持語義不變,可惜現(xiàn)在的方法都會引起語義的丟失,我們只能在投射的過程中讓語義丟失得少。第二方面做的工作比較少,就是 Raising(提升),把特征空間提升到語義空間去,這主要靠學科交叉,靠跟神經(jīng)科學的結合。只有這些問題解決以后,我們才能夠建立一個統(tǒng)一的理論,因為過去的感知和認知是不同的處理方法,大家說不到一塊,如果我們能夠投射到同一空間去,我們就可以建立一個統(tǒng)一的理論框架,這是我們的目標。在語義空間處理就可以解決理解問題,但是這項工作是非常艱巨的。

    介紹一項我們現(xiàn)在做的工作。人工神經(jīng)網(wǎng)絡為什么不能得到語義信息呢?人腦的神經(jīng)網(wǎng)絡為什么可以呢?差別就在這里,我們現(xiàn)在用的人工神經(jīng)網(wǎng)絡太簡單了,我們正想辦法把腦神經(jīng)網(wǎng)絡的許多結構與功能加進去,我們這里只用了「稀疏發(fā)電」這一性質(zhì),就可以看出一些效果,人臉、大象或者鳥的輪廓,神經(jīng)網(wǎng)絡可以把它提取出來。

    還有一個辦法就是把數(shù)據(jù)驅(qū)動跟知識驅(qū)動結合起來。剛才講了,人的智能沒法通過單純的大數(shù)據(jù)學習把它學出來,那怎么辦?很簡單,加上知識,讓它有推理的能力,做決策的能力,這樣就能解決突發(fā)事件。我們現(xiàn)在做的工作就是把這些結合起來,這是我們的基本思路,知識也好,數(shù)據(jù)也好,都投射到同一空間,然后都用同樣的數(shù)學方法進行處理,這方面我們已經(jīng)做了不少工作。

    最后做一個總結,我們從這個坐標看人工智能,橫軸代表領域的寬窄,從單領域到多領域、到開放領域??v軸代表信息的確定性與完全性,從完全到不完全、從確定到不確定。在左下角代表最容易的,就是剛才講的符合 5 個條件的,現(xiàn)在人工智能在這部分解決得非常好,我們用白色來表示它,AlphaGo 在這里,深藍在這里,工業(yè)機器人在這里?,F(xiàn)在我們正在向灰色地區(qū)去走,打牌,信息不完全,現(xiàn)在打德州撲克,一人對一人,計算機能戰(zhàn)勝人類,多人對弈,計算機還不行,這是灰色地帶,我們還可以做,為什么可以做?盡管打牌是不確定的,但是它在概率意義下是確定的,你拿的這副牌的概率,可以算出來,同花的概率是多少,排成順的概率是多少,既然概率能算出來,最終人類肯定會被計算機打敗。Watson 在右邊,它的領域比較寬,但是它是確定性的,所以是在灰色的區(qū)域。往右上方去就比較難了,自動駕駛、服務機器人、大數(shù)據(jù)分析,它是一個大框,有的簡單,有的困難,就自動駕駛來講,專用道、行車很少,路況簡單等,在白色或者灰色區(qū),如果路況復雜就到了黃色區(qū)域,黃色區(qū)現(xiàn)在計算機還解決不好。最遠的在哪兒呢?右上角,圖靈測試。大家對圖靈測試有很多誤解,其實圖靈測試是開領域問答,很難!索菲亞做得怎么樣?很糟糕。自然語言理解也在這里,復雜環(huán)境下的決策在偏左一點的地方,這也是很難的。所以我們?nèi)斯ぶ悄墁F(xiàn)在是從左下角往右上角走,我們現(xiàn)在處在出發(fā)點附近。有的人想把它用一些名詞來區(qū)分人工智能的不同發(fā)展階段,有專家問我,你的看法怎么樣?我建議不要用新詞,用新詞往往說不清,很麻煩,有的人說現(xiàn)在是弱人工智能,以后是強人工智能,也有人說現(xiàn)在叫增強智能(Augmented Intelligence)也是 AI……概念太多說不清,還是簡單一點,「我們正在通往真正 AI 的路上」,現(xiàn)在走得并不遠,在出發(fā)點附近,人工智能永遠在路上,大家要有思想準備,這就是人工智能的魅力。大家為什么這么重視人工智能?因為我們永遠在路上,這就吸引我們?nèi)ソ鉀Q這些問題,這些問題一旦解決了,人類的社會進步、人類的生活就會發(fā)生本質(zhì)上的改變。

    最后我用中文寫最后一段作為總結,可惜我翻譯不了。

    周穆王西巡狩,路遇匠人名偃師。翌日偃師謁見王,偕來一個假人?!岗叢礁┭觯湃艘病??!割I其顱,則歌合律;捧其手,則舞應節(jié)。千變?nèi)f化,惟意所適。王以為實人也,與盛姫內(nèi)御并觀之,技將終,倡者瞬其目而招王之左右侍妾。王大怒,要殺這個偃師。偃師大懾,立剖其倡者以示王,皆傅會革、木、膠、漆、白 、黑、丹、青之所為。穆王始悅,詔貳車載之以歸。

    這是 3000 年前我們古人對機器人的想象,看看現(xiàn)在的人工智能做得怎么樣呢?索菲亞是我們現(xiàn)在達到的水平,可是她不會唱歌、不會跳舞,只會說英文,周王也聽不懂,肯定沒有印象?,F(xiàn)在我們假設索菲亞「瞬其目而招王之左右侍妾」,向周王的姨太太們送去秋波,王會如何呢?我認為沒反應,因為索菲亞是女的,他用不著吃醋。但是我們假設索菲亞「瞬其目而招王」,向大王送去秋波,王會大悅,立即神魂顛倒,墜入愛河?我認為不會,因為索菲亞根本不像人,它最近才剛剛安上手腳,走路都不利索,怎么行呢?所以我的結論是,「索菲亞通不過穆王的測試,當然它更通不過圖靈測試」。

    我們的結論是什么?人工智能剛剛起步,離真正的 AI 還很遙遠,大家共同努力吧,我們?nèi)沃氐肋h。

    (以上言論僅代表個人觀點,與本網(wǎng)站立場無關)

    信息來源:世界創(chuàng)新大會

    何洋/整理

    版權所有:山東省裝備制造業(yè)協(xié)會 魯ICP備17016783號
    无码日韩精品无码国产,国产一区二区三区无码久久,国产人成无码视频在线观看,色综合天天综合网无码

    1. <tt id="3i53o"></tt>
      <legend id="3i53o"></legend>