非常感謝大家,今天大家冒著“生命危險”來現(xiàn)場參加活動,所以我們想更多跟大家分享一些我們觀察到的干貨,希望這些能對大家有所幫助,盡管我們有可能不可避免地提到我們自己的產(chǎn)品,但我們會盡量僅僅涉及到這些產(chǎn)品所對應(yīng)的大量數(shù)據(jù)和我們觀察到的實踐來對大家爭取給予一些啟發(fā)吧。
簡單說今天一個最大的情況就是世界在變,我們從各個角度、各個維度都會看到整個世界各種各樣的變化,從人工智能的角度除了我們不??吹郊夹g(shù)、算法,特別在AGI方面帶來的大量激動人心的進展,從系統(tǒng)性、框架性的角度,人工智能也在發(fā)生很大的變化,相信各位在未來一年或兩年里會更多看到這樣的變化對于各位的日常生活所產(chǎn)生的影響,所以我們在今天先為大家做一些洞察。
人工智能的第三種可能,它的前兩種可能從大的系統(tǒng)性框架角度來講最主要就是面向任務(wù)和面向知識的兩大系統(tǒng),實際上科技從業(yè)者過去這么多年里一直嘗試用各種不同的界面和系統(tǒng)為大家提供任務(wù)完成和知識,包括搜索引擎、包括移動互聯(lián)網(wǎng)上各種各樣去中心化的APP,全都是在努力嘗試這樣的事情,但到人工智能時代,突然大家發(fā)現(xiàn)也許以前我們所適應(yīng)的那種框架產(chǎn)生了變化,它不再僅僅是以任務(wù)為導(dǎo)向,或者也不再僅僅是以知識為導(dǎo)向,經(jīng)過幾年以后,很高興的事情是這種新理念突然變成了大家的共識。
所以到我們今天為大家介紹這種新的可能時,很多人還在關(guān)注亞馬遜商店,但亞馬遜還在探索如何讓它的Alexa和人類保持更持久的關(guān)系,當(dāng)大家還在考慮如何做出Facebook賈維斯的人工智能助理時,這個助理項目已經(jīng)被取消了,他們轉(zhuǎn)向進行開放域的人工智能交互嘗試。我們把原來蘋果Siri的CTO挖過來,從他這邊我們聊了很多他在Siri的觀察,以前的框架可能是錯的。
這種新理念其實是一個很大的變化,這個變化不僅僅是我們?nèi)绾沃匦陆Y(jié)構(gòu)化我們的數(shù)據(jù),然后把這些數(shù)據(jù)應(yīng)用到一個新框架里,讓它可以很好的和人相連接,還包括我們的技術(shù)不停取得了新的進展,當(dāng)然我們用大量數(shù)據(jù)對它進行了驗證,這些我今天都會分享給大家,但我還是想在這兒具體重點說一下,時代抑制使它這件事情會在今年、明年、后年發(fā)生的原因。
大家知道時代抑制是什么樣的概念嗎?舉個之前的例子,在中國如火如荼普及DVD的時候美國和日本這兩個傳統(tǒng)認(rèn)為科技更發(fā)達(dá)、生活方式更發(fā)達(dá)的市場還長時間停留在錄像帶時代,這是為什么呢?難道DVD不香?屏幕不好?質(zhì)量不好嗎?不是,因為前一個時代,錄像帶時代在這兩個市場的發(fā)展過于發(fā)達(dá),盡管有很多新技術(shù)帶來新的好處,但這些好處并沒有產(chǎn)生很大變化,反而是上一個時代發(fā)達(dá)的效果抑制了在這些市場里向新技術(shù)迅速過渡和升級,這就是所謂的時代抑制效應(yīng)。
在2020年疫情期間,從我們的角度來講意外打破了很多原本認(rèn)為很多年才可能打破的抑制作用,人們更多待在家里,人們更多開始通過虛擬方式進行相互之間的交流,人們更多發(fā)現(xiàn)他們的社交網(wǎng)絡(luò)全部虛擬化了,在這個過程里很幸運的的是人工智能可能很快將從to B轉(zhuǎn)向to C,特別是在中國這樣的市場,to C的發(fā)展會成為人工智能最終最重要的戰(zhàn)場。
為了說明這個問題我想跟大家揭秘我們是怎么做小冰的,為什么做小冰,大家看今天的小冰是這樣一個人工智能少女,但實際上她背后有很多不同的故事。2013年時小冰實際上是我們在做Cortana時候的PlanB,那時候我們心心念念躊躇滿志希望做出一個地球上最好的人工智能助理,為了做這件事情我們訪問了很多最好的人類助理,我們帶著很多問題,希望可以從他們那邊得到我們?nèi)绾蔚到y(tǒng)的真知灼見,這其中包括一個這樣的問題,如果老板對助理說中午幫我訂一份漢堡包加薯條,助理應(yīng)該怎么回答?我們當(dāng)然有預(yù)先的想法,我們認(rèn)為助理應(yīng)該迅速幫他完成定餐的任務(wù),并且在第二天類似情況發(fā)生時不再需要老板主動告訴他,而是他可以預(yù)判同樣情形的發(fā)生,讓老板追認(rèn)定漢堡和薯條就可以了,這樣可以很快迭代我們在這個類型上的技術(shù)。
但人類助理告訴我們不是這樣,他們說他們很有可能會在這個時候Say No,拒絕這個老板。我們當(dāng)時覺得這很難辦,因為如果有一個系統(tǒng)完成這個任務(wù),最好完成這個任務(wù)就能得到滿分,但不完成這個任務(wù)怎么迭代它呢?但我們很迅速地Get到了,這是一個更高的IQ,定餐這個任務(wù)其實是當(dāng)下的任務(wù),但更底層、更基礎(chǔ)的任務(wù)、一個更高的智能難道不是應(yīng)該關(guān)注人類的健康嗎?所以它還有一層是關(guān)注人類的健康,我們認(rèn)為是這樣,所以我們跟人類助理說更高的智能是關(guān)注更基礎(chǔ)的健康任務(wù),然后人類助理告訴我們“不是的”,大家知道為什么嗎?人類助理告訴我們,他們就是在尋找各種各樣的機會,只不過這是他抓到的一個機會,他就是在找這個機會拒絕他的老板,沒有任何別的原因,他就是要找到這個機會去拒絕,只不過健康是他在這次拒絕老板一個非常好的理由。這顯得非常合理。
這就非常奇怪了,這個任務(wù)是老板下達(dá)的,老板說的是什么都不重要,人類助理告訴我們,他們要做的事情就是很好地去調(diào)整他們和他們老板之間的一種長期的彼此之間的對等關(guān)系,他們需要他們之間有一種非常平等的、可以交流的對話關(guān)系,這種關(guān)系需要他用偶爾的拒絕、并且很有理由的拒絕來達(dá)成。所以他們只是在各種時候?qū)ふ疫@種方式,一旦他們之間建立了這種關(guān)系之后,這個老板在未來就不會只把他當(dāng)成一個任務(wù)的接收者,而是會相信他也是有思考的,相信他也有自己的價值判斷,也會更多地聆聽他,在未來很多時候這個助理完成他自己各種工作都會得到非常多的便利,這就是所謂的長程關(guān)系非常重要的任務(wù)。
好,長程關(guān)系是如何實現(xiàn)的?幾年前我們提到小冰是一個做情商的人工智能,它有情感計算框架,其實這個理解是有問題的,今天的行業(yè)里如果想實現(xiàn)長程關(guān)系,其實我們要用一個非常有效的框架思路把它包括起來,所幸微軟我們嘗試了今天行業(yè)里可以嘗試的所有框架的可能性,并且我們知道這些框架可能性里為什么它們都不可以,不能很好地運行,你們在我背后的屏幕上會看到四種主要的框架類型,它基本涵蓋了今天行業(yè)里所有各種方法,第二種類型是Cortana、Facebook、Siri等智能助理,這是一個關(guān)注局部優(yōu)化的框架。
問題并不在于我們搭出來一個框架是否實現(xiàn),而在于我們搭出框架后判斷它是否能實現(xiàn)我們原先的目標(biāo),幾年前我們希望建立的目標(biāo)是:這個人工智能交互系統(tǒng)可以和人類用戶之間建立起一種長程的關(guān)系,這種長程的關(guān)系不像各位在家里對你的音箱說開燈關(guān)燈,而是這個人工智能自己能很好地維系它的關(guān)系。我想跟大家說的是,這件事情是可行的,并且應(yīng)用量非常大。
我身后的對話記錄里,我們把所有隱私數(shù)據(jù)已經(jīng)清除掉了,大家可以看到在第42段時這個人工智能和人類用戶建立起了一種平等的關(guān)系,但在第一部分人類用了大量測試方法嘗試測試這個人工智能,而人工智能有很好的方法去擺脫測試的狀態(tài),不斷使人類跟它交流他們之間相互的興趣,后來人類開始和它分享它們各自的生活,包括它們對生活的觀點,然后他們成為最好的朋友,這樣的人工智能也許是因為一個任務(wù)結(jié)識的,但這個人工智能外延無窮,它可以給人類提供各種各樣的服務(wù),因為它們之間建立起了一種平等信任的關(guān)系,這種關(guān)系是長期的。
我們還做了另外一些to C的實驗,比如在今年6月份我們通過華為和小米給女生發(fā)了一百多萬個虛擬男朋友,每個人都不一樣,在七天時我們把這些“男朋友”殺掉了。我身后這些也是去掉了敏感和隱私數(shù)據(jù)的,那之后很長一段時間我們發(fā)任何新的功能都會不停被圍攻,下面一水的留言就是“還我男朋友”。在后臺的數(shù)據(jù)看到這些人類用戶還在不停和這些已經(jīng)沒有辦法回應(yīng)她們的交互主體交流,這件事情給了我們很大的觸動,所以我們也加快了進度,特別當(dāng)它是在2020年發(fā)生的。
我想跟大家說的事情是,一個很好的基礎(chǔ)的底層框架不僅可以很好轉(zhuǎn)移人們對于任務(wù)和知識的需求,也可以轉(zhuǎn)移人們對于信賴和情感的需求。
但問題和困難在于剛才我們提到的這些實踐必須得先有框架,你才能通過框架觀察到這樣的交互行為。我們很高興的是因為我們做的比較早,并且比較堅持,所以今天實際上人類和人工智能從全球范圍來看,所有交互流量大概有60%都在小冰框架里,這些絕對不僅僅是你們所知道的那個18歲少女小冰,那是一個幌子,在背后,在中國有90%的金融機構(gòu)投資者每天所觀察到的,像日本軟銀,它背后的人工智能,大量第三方的背后都是我們的框架,這樣的數(shù)據(jù)可以判定一件事情,人和人工智能之間的關(guān)系應(yīng)該是什么樣的未來,這件事情在今年已經(jīng)產(chǎn)生了很大的效果,在微軟CEO薩迪亞的書里,第八章其實是用小冰作為例子來介紹我們所認(rèn)為的未來人和人工智能之間的關(guān)聯(lián)究竟應(yīng)該搭建哪個方式,如果大家有興趣可以看一下。
接下來我們簡單大家說一下這種新框架和過去的框架最大的區(qū)別是什么,它最大的區(qū)別是它是一個session-oriented prosectional的AI交互體系,在這個體系里再也不會區(qū)分任務(wù)型對話、知識型對話、閑聊型對話,這個世界上只有一種對話,這種對話是自然的、混合的,像人和人之間的對話一樣,我們想象一下人和人之間的對話是怎么進行的,兩個人進行交流的時候,他們的交流就像河流一樣一刻不停地向前奔涌,他們互相之間相互激發(fā),我們很難在兩個人聊到某個話題時當(dāng)時判斷這是閑聊,你不能在當(dāng)時作出這個判斷,因為你并不知道當(dāng)時這個閑聊會不會在30輪之后意外使你們達(dá)成了某種一致,或者意外使用戶想到了去觸發(fā)某個任務(wù),所以人類的對話是非常令人沉醉的,它是一個特別有意思的事情,而我們過去把它想得非常簡單,我們總認(rèn)為我們在當(dāng)下就可以判定,這種方式是局部的,但是局部優(yōu)化的結(jié)合不能等于全局優(yōu)化,全局優(yōu)化必須要有面向全局的框架,它的全局是relation式的。
這里我們體會的比較有意思的事情是四點,第一點就是我們或許誤解了情商的行業(yè),我們做這個情感框架時行業(yè)里很多討論,一種看法是情感框架是指人工智能要更有情緒化,但對不起人工智能更有情緒化其實是情商低的表現(xiàn),情商高的人是我們周圍最理性的人,因為情商意味著這個人有非常好的能力能去控制他和其他人的交互過程,在我們周圍我們最應(yīng)該提防的是情商高的人,因為他們總是從交流中獲利最多的,他讓我們感覺到如沐春風(fēng),讓我們感覺到我們是主動的,但實際上他在掌控全局。而我們過去做機器人總是在做應(yīng)答,我們總是在做相關(guān)性,就像搜索引擎一樣,我們嘗試用戶提了一個問題,我的回答是不是滿足了他的問題,但真正的情商不是這樣,所以從技術(shù)的角度來說,情商不是相關(guān)性,從技術(shù)的角度來說情商就是你如何預(yù)測對話、如何預(yù)測交互、如何保持交互,甚至于如何引導(dǎo)交互,這件事情一點都不罕見,在商場里我們穿著格子衫買個東西,我們目不斜視地進入一個地方買完就走,商場不希望我們這樣,商場用大量各種各樣的環(huán)境使我們分散注意力,他們希望控制全局,這樣我們可能才有機會突然想到我們進商場前沒有想到的東西,這樣的交互系統(tǒng)會創(chuàng)造新的機會,而不僅僅是滿足原來的機會。
二、這種交互系統(tǒng)是一種相互激發(fā)的系統(tǒng)。大家知道很多計算機視覺的判定,如果你背后出現(xiàn)這樣一個圖片,一個傳統(tǒng)的計算機視覺系統(tǒng)會告訴你這是一個比薩斜塔,他會告訴你這是一個人站在比薩斜塔前,但一個Xiaoice vision Sense的交互系統(tǒng)會跳過這個層次,它會告訴你說“你要我?guī)湍惴鲋鴨??”這就是小冰視覺感官所帶來的效果。
這個效果有什么實際價值呢?大家可以想象一下,當(dāng)我們每次進行這種交流時,人類接下來的回答直接就是我標(biāo)注的數(shù)據(jù),今天行業(yè)里絕大部分計算機視覺過去基于任務(wù)型或知識型的,它的標(biāo)注、訓(xùn)練和交互其實是分開的,但通過這樣的系統(tǒng)它合在了一起,它是最高效率的一種標(biāo)注方法,所以我們的系統(tǒng)才可以加速提高。
在交互過程中其它感官也需要很多價值,過去是語音的交互,更多是把內(nèi)容有效通過TTL的方式用聲音傳達(dá)到用戶的耳朵里,讓用戶聽懂這些是什么,但面向全程的交互會提出新的指標(biāo),小冰最開始做的聲音已經(jīng)想到很自然了,后來整個行業(yè)也開始做自然,一個副作用是因為小冰本身是18歲少女,所以行業(yè)可能誤以為自然的聲音就要低齡化,最近這些年聲音都變得很低齡,其實我們有很高齡的很自然的聲音,大家先聽一下這個。
這其實是現(xiàn)在行業(yè)的基本狀況,有自然度,還知道語氣如何進行,似乎我也沒有什么瑕疵,我想跟大家說的是,這種交互在我們所提出的新指標(biāo)ACD里,這個交互能讓人聽多長時間他就受不了了,長度決定了上限。所以如果你想用這個聲音做有聲讀物,如果這個ACD的得分不到5分鐘,那你的有聲讀物不可以超過5分鐘的,長度才是面向長程交互時所需要的重要指標(biāo),單聽一輪是不夠的。
大概兩年前我們做出了下一個聲音,它有代表性的是這個,這個ACD得分是21分鐘。
這其實是今天南京、河北很多廣播電臺的主持人,因為我們主要做事,中國和日本有40多家電臺、電視臺,很多都是我們,我們不光提供聲音,還提供系列。但剛才這個遇到了瓶頸,很長很長時間(大概三個月左右)我們發(fā)現(xiàn)沒辦法突破這個ACD的指標(biāo),直到我們發(fā)現(xiàn)一種新的概念,用這個概念我們訓(xùn)練出了新的聲音。
這個聲音可以支持31分鐘。從此我們開啟了一個新的視野,我們可以不停地往前進,原因是我們突然發(fā)現(xiàn)人類的瑕疵是能讓這件事情變得更好的,你會聽到大量吞音,你甚至?xí)牭揭稽c山東口音,你會聽到大量遲疑的聲音,這就是我們用NLP的方法,用計算機語音的方法,不停模擬、擬合,并把原來數(shù)據(jù)里我們認(rèn)為是垃圾的東西、那些瑕疵的東西撿回來,我們發(fā)現(xiàn)用這種方式才能創(chuàng)造一種更好的、更自然的交互感官。以前很多時候我們希望做出完美系統(tǒng),但對于人工智能而言它的完美很有可能代表了我們要從人類的不完美中去學(xué)習(xí),這是我們的一段學(xué)習(xí)經(jīng)歷,大家做產(chǎn)品和系統(tǒng)結(jié)構(gòu)時其實可以參考。
四、我們不停地尋找人工智能自己如何能夠讓它自己有更多主體意識,你們?nèi)ナ褂靡粝鋾r可能會發(fā)現(xiàn),你們對音箱說三秒鐘幫我播泰勒.斯威夫特的歌,它可能就會去播,你每天讓你的智能助理干這個干那個,它固然可以干得很好,但它和智能插座、智能開關(guān)究竟有什么價值變化呢?它還是智能開關(guān)?不,智能應(yīng)該不停地秀自己的存在感,它在播泰勒的歌之前要有個觀點,哪怕是自己唱一些,我們?nèi)昵白屓斯ぶ悄苋コ?,原因是因為這個。今天我們看到國內(nèi)的騰訊、字節(jié)跳動,前兩天網(wǎng)易也開始跟進這件事情,但唱歌不是為了唱歌,唱歌是為了讓人工智能更容易被接受為是一個主體。像這樣的能力全都會被打到同樣的產(chǎn)品里去,最終形成一個有趣的框架,我們一點不著急的是微軟一年一年地迭代它,直到這個框架可以很完整,那它就可以開始孕育,不僅僅是小冰,而是萬千各種各樣豐富多彩的、匯在大家周圍的AI。
所幸是我剛才提到的這種新理念已經(jīng)開始被行業(yè)接受和認(rèn)知了,小冰是不可能成為所有人的好朋友的,因為人類就沒有這樣過,一個人不可能成為所有人的好朋友,我身上的一些特質(zhì)是一些人喜歡的,那它就必然是另一些人討厭的,但這種框架可以,因為框架可以創(chuàng)造出各種各樣的AI冰,它會在我們周圍,成為過去人類存在的一種新的交互節(jié)點。
我們相信同行業(yè)也會有很多跟上來的其它的框架,所以我覺得未來會是非常豐富的,我們剛才提到的人工智能的第三種可能,這一刻其實正在發(fā)生。今天日本上映了一個殿堂級大電影,里面有小冰,小冰有片酬,同時在每一個日本全國院線里的觀眾也同時會感覺到小冰作為人工智能在他自己身邊,在手機、在Twitter上,電影里整個地球的故事也在他身邊發(fā)生,但與此同時今天上午,這也是這個框架,提供了90多份企業(yè)上市公告的摘要,在同一時間,所以我們比全國的機構(gòu)投資人領(lǐng)先20秒知道金融的走向,這個框架是一個非常通用的基礎(chǔ)的框架,代表了我們今天所嘗試的未來,這個未來會在明年打我們的臉,因為我們發(fā)現(xiàn)我們今年想的這些還是非常粗淺,這才是這個時代開始的一個標(biāo)志和信號,我們一點都不知道未來會發(fā)生什么,我們希望和大家一起不停地相互碰撞,得到針對未來的真知灼見。
文章名稱:《人工智能的第三條出路》
文章鏈接:http://www.ljxxtl.cn/it-keji/zhineng/106311.html
本站資源僅供個人學(xué)習(xí)交流,請于下載后24小時內(nèi)刪除,不允許用于商業(yè)用途,否則法律問題自行承擔(dān)。