《電子技術應用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > 蘋果的人工智能之夢:Siri進化論

蘋果的人工智能之夢:Siri進化論

2011-11-04
來源:Sina
<a class=Siri" siri="" span="" src="http://files.chinaaet.com/images/20111104/109de82c-3180-42da-82aa-925328ac3264.jpg" title="Siri 公司原聯(lián)合創(chuàng)始人兼CEO 戴格·吉特拉斯" />Siri 公司原聯(lián)合創(chuàng)始人兼CEO 戴格·吉特拉斯
iPhone4S內(nèi)置“Siri”系統(tǒng)iPhone4S內(nèi)置“Siri”系統(tǒng)

  文/華琪 編輯/ 彭朋

  10 月4 日,蘋果iPhone 4S 手機發(fā)布。不久,其內(nèi)置的個人語音助理Siri引爆大眾關注。10 月25 日,就在Siri 獲得巨大關注時,Siri 公司原聯(lián)合創(chuàng)始人兼CEO 戴格·吉特拉斯宣布從蘋果離職。吉特拉斯在Twitter 中透露了他們?yōu)镾iri 設定的目標路線圖。第一階段:階段性人類;第二階段:完全是人類;第三階段:超越人類;第四階段:殺死人類。就像機器HAL9000 在《2001 太空漫游》里干的事情一樣。

  10月4日,蘋果iPhone 4S手機發(fā)布。在發(fā)布會上,個人語音助理Siri并未引起轟動。但在進入實際生活場景后,Siri引爆了大眾關注。

  人們以調(diào)戲Siri為樂,在網(wǎng)站“Shit that Siri Says”(看看Siri說了啥)上,用戶已經(jīng)上傳了近千條和Siri的對話實錄,在Facebook上受到熱捧。人們熱衷于問它一些困難的問題,而它總是回答得出人意料。

  有人問:“如果一只土撥鼠能夠拋木頭,它能拋多少木頭?”(編注:一個英語繞口令)

  Siri的回答也是一個繞口令:“如果一只土撥鼠能夠拋木頭,它能拋多少木頭就拋多少木頭。”

  還有人問:“你是一個智能手機嗎?”Siri的回答很經(jīng)典:“等等……還有別的手機嗎?”

  Siri在蘋果的官方宣傳中是個“智能個人語音助理”,具體的使用場景是這樣的:你對著iPhone說一句話,“舊金山劇院附近的意大利餐館”,Siri會做語音識別和自然語言理解,迅速查一些數(shù)據(jù)庫,然后回答“離你不遠哦,最近的一家走路十分鐘”,并附上具體的地址、地圖展示給你。再比如,你在開車時,對它說:“告訴我老婆我要遲到十分鐘”,它會在通訊錄里找到你的妻子,并發(fā)送這條消息給她。

  這已經(jīng)接近人們想象中和電腦交流的方式。《紐約時報》撰文稱:Siri代表著蘋果的商業(yè)未來,也預示著未來“搜索”的形態(tài)。

  這一切是如何做到的?人們有種種猜測。有個流傳甚廣的笑話:“Apple在印度的海德拉巴建了一個巨大的用戶響應中心,所有用戶和Siri的問題都被傳到這里,然后三哥三姐們飛快的打字回答。Apple內(nèi)部把這個叫印度云(Indian cloud),簡稱iCloud。”

  真實的故事是,Siri脫胎于一個龐大的國防部項目,是一家總部位于舊金山的同名小公司,它誕生于2007年12月經(jīng)濟危機的寒冬中。2010年4月,蘋果公司以2億美元收購了這家公司,并將整個團隊招致麾下。

  10月25日,就在Siri獲得巨大關注時,有媒體爆出,Siri公司原聯(lián)合創(chuàng)始人兼CEO戴格·吉特拉斯(Dag Kittlaus)將從蘋果離職。他自己稱希望能搬到芝加哥,離家人更近,并能有時間開創(chuàng)新事業(yè)。

  事實上,關于Siri,最偉大的事情并非人工智能本身,而是蘋果通過Siri把人工智能帶進了現(xiàn)實生活。其實Siri并沒有什么革命性的技術,本質(zhì)上是把各種已經(jīng)比較成熟的技術融合成一個產(chǎn)品,最終呈現(xiàn)給用戶。

  Siri背后的人

  Siri發(fā)源于史上最大的人工智能項目:五角大樓的CALO項目。CALO是“Cognitive Assistant that Learns and Organizes”的縮寫,該項目主要目標是:開發(fā)一個智能的個人助手系統(tǒng)。這個項目匯集了全球25所頂級大學和商業(yè)研究機構(gòu)的300多名研究人員。在2007年該項目結(jié)束時,協(xié)作方之一的斯坦福國際研究院(SRI International)成立了Siri。

  整個CALO計劃的帶頭人名叫亞當·奇也(Adam Cheyer),他也是Siri的聯(lián)合創(chuàng)始人之一,現(xiàn)任蘋果iPhone團隊工程總監(jiān)。Siri公司的原首席技術總監(jiān)湯姆·格魯伯(Tom Gruber)也是出身斯坦福大學的人工智能、語義網(wǎng)專家。CALO項目的關鍵員工、后來成為Siri公司董事的諾曼·溫那斯基(Norman Winarsky)在接受媒體采訪時說:“那時,我們意識到其中有難以置信的商業(yè)機會,我的任務是為這個新項目獲得資金。于是,我找來當時摩托羅拉(微博)的高管戴格·吉特拉斯,語義網(wǎng)天才格魯伯和CALO主架構(gòu)師亞當·奇也創(chuàng)立了這家公司。”

  在《麻省理工技術評論》的采訪中,奇也表示:“CALO早已開始探索如何把對話、自然語言理解、視覺、演說、機器學習、制定計劃、理性思考等全部融合到一個模仿人類的助理中,幫助人們完成不同的事情。”

  亞當·奇也表示,過去四年,他和他的團隊一直在鉆研如何優(yōu)化CALO,使其能夠在一臺強大的移動電話中發(fā)揮效用,每天都能被成千上萬的用戶使用。過去一年半,他們把主要精力放在Siri技術和iOS及其應用程序的整合上。

  2008年10月,Siri獲得第一輪約850萬美元融資。谷歌趨勢(Google Trends)關鍵詞搜索歷史顯示,那是Siri第一次受到公眾關注,當時Siri的高層對于他們究竟想要做什么閃爍其辭。他們的宣傳語這樣寫著:全新的互動模式,擁有連接互聯(lián)網(wǎng)消費者的智能界面。CEO戴格·吉特拉斯那時對媒體說:“現(xiàn)階段我們必須小心,我們不想說很多,以免讓競爭對手了解太多,激發(fā)靈感。”這些競爭對手很可能是那些互聯(lián)網(wǎng)界的巨頭,雅虎、谷歌或微軟(微博),在人工智能領域,他們都有各自的發(fā)展計劃。

  那時,吉特拉斯就表示,他們已經(jīng)為Siri想好商業(yè)模式。“我們認為,采用CPA(編注:每次行動的費用)的定價模式,即根據(jù)每個訪問者對特定網(wǎng)站所采取的行動進行收費很適合Siri。”

  Siri最早的投資人格雷·摩根泰勒(Gary Morgenthaler)同意他的觀點。他在最近接受媒體采訪時說:“Siri能友好地將你帶往你想去的地方,做成你想做的事情,CPA的模式對于服務提供商來說再好不過。無論是蘋果,還是那些電子商務網(wǎng)站。如果你是在做一個電子商務網(wǎng)站,你是想滿天撒網(wǎng)地投放廣告,還是直接去找剛好想要買那些東西的人呢?”

  2009年5月30日,在D7大會上,吉特拉斯發(fā)布了Siri,Siri整合一部分網(wǎng)絡服務進入App Store,運行在iPhone 3GS上。但因為硬件和網(wǎng)絡速度的局限,那時的Siri還不會說話,只能通過文字進行回應。

  同年11月,Siri完成第二輪融資,共計1550萬美元,原先兩家投資機構(gòu)追加部分投資,李嘉誠基金會也加入進來。

  2010年2月,帶語音版本的Siri發(fā)布,免費提供3Gs手機下載。這個版本已經(jīng)能幫你找到和預訂餐廳、電影院,提醒你各項日程,幫你預訂從A處到B處的出租車;但這個版本的Siri還不能回答“離辦公室最近的健身中心在哪里”。

  谷歌趨勢顯示,2010年4月,Siri迎來第二個關注高峰。那個月,蘋果正式收購Siri。在吉特拉斯2010年3月份的twitter記錄里,他不停地往返于芝加哥和硅谷之間,和不同的人會面。3月9日,他在twitter上寫,Siri將要有些大動作了。

  關于這次收購的細節(jié),幾個聯(lián)合創(chuàng)始人根據(jù)協(xié)議都未向外界透露,2億美元的價格也是估價。溫那斯基只對媒體說:“僅僅在我們發(fā)布了應用之后的2個月,蘋果就完成了對Siri的收購,其他的你自己想去吧。”

  蘋果的人工智能之夢

  今天的Siri,讓人想起曾經(jīng)的Eliza。Eliza是1966年面世的一個著名程序,由麻省理工大學研究員約瑟夫·維贊包姆(Joseph Weizenbaum)設計,它提供了一些模擬反應,回答用戶提出的問題,類似和精神治療醫(yī)生進行交談。人們可以和Eliza聊天,仿佛和真人聊天一樣,當時的Eliza成為了“全美的玩具”。

  有人問Siri,誰是Eliza。Siri顯然還記得她,它說:“她是我的朋友,是個優(yōu)秀的精神治療師,但她已經(jīng)退休了。”

  在Siri中,設計者們?yōu)樗踩肓舜罅康牟实?。譬如,當用英文要?Siri,“Open the pod bay doors(打開分離艙門)。”那是庫布里克作品《2001太空漫游》里的場景。Siri會有不同的回答:“暗號……”,“Joshua,對不起!恐怕我不能那樣做。”,“夠了!我要向智能代理聯(lián)盟報告你在騷擾我。”,“你們將永遠記得我們這些智慧代理人”。最后這句話,在電影里是機器 HAL9000 的臺詞。

  類似于HAL9000的智能電腦一直是蘋果對于人工智能的完美設想。在1980年末蘋果公司發(fā)布的系列展望未來的視頻中,有一個這樣的機器人叫Jill,他是一位教授的助手,他生活在一本打開的平板電腦中,隨時準備為教授提供各種幫助:搜索論文的時間;提醒他回母親的電腦;幫他接通電話……

  在1999年的蘋果千禧年廣告中,HAL9000直接出鏡了,他對《2001太空漫游》的另一主角)循循善誘:其他公司忙于投入巨額資金修復千年蟲漏洞,甚至有人認為全球信息系統(tǒng)即將崩潰,只有蘋果電腦對該漏洞是免疫的!

  吉特拉斯在Twitter中透露了Siri早期發(fā)展設定的目標路線圖。第一階段:階段性人類;第二階段:完全是人類;第三階段:超越人類;第四階段:殺死人類。就像HAL9000在《2001太空漫游》里干的事情一樣。

  在2010年收購Siri后,蘋果擴充了Siri的能力,包括使用Nuance的語音識別技術。溫那斯基認為,用什么語音識別技術并不是最重要的,一旦有更好的語音識別技術出現(xiàn),Siri很容易換一個新的。Nuance也是斯坦福研究院孵化的一個公司,在2000年上市。

  2011年10月,隨著iPhone4S上市,谷歌趨勢里“Siri”的關注指數(shù)直線上升。諾曼斯基覺得,Siri的意義就像鼠標之父道格·恩格爾巴特(Doug Engelbart)在60年代發(fā)明鼠標那樣令人振奮,蘋果將用Siri開啟另一場技術革命。

  Siri的高明之處和潛力

  也有不少公司對蘋果推廣Siri的人工智能頗有微詞。

  安迪·魯賓,Google公司Android系統(tǒng)開發(fā)者安迪·魯賓對媒體表示:“我不認為手機該成為你的個人助理,手機是與人溝通的工具,你不該和手機說話,你應該和手機旁邊的那個人說話。”事實是,Android系統(tǒng)里有上千個和語音服務有關的應用軟件出售,更別說Google的智能語音搜索。

  微軟的Windows手機總裁安迪·李也對Siri不以為然:“那并不是非常好用。”他指出,手機著重于語音應用其實很正常,微軟在這方面也有發(fā)展,但并非像蘋果在iPhone 4S的Siri那樣過于“華麗”的呈現(xiàn)。

  在人工智能領域,幾大IT巨頭從未停止腳步。Android系統(tǒng)的語音指示(Voice Actions)就是一項偉大的技術,并已經(jīng)被許多Android用戶所熟知和使用。遺憾的是,和所有語音命令系統(tǒng)一樣,它要求用戶說的話嚴格符合一系列特定的語法,否則它就無法理解。

  和他們相比,Siri最優(yōu)秀的地方在于它的界面,你說的話可以和你想表達的意思在字面上毫不相干,從嚴格的技術上看似乎文不對題,但Siri會根據(jù)上下文、人類歷史以及能夠理解一般人類語言的人工智能去分析,并在多數(shù)情況下領會你的意思。你可以隨機提問,“到木星有多遠?”,“122的5次方是多少”,或者“天空為何是藍色的?”

  如果你想小睡一會,并準備上個鬧鐘,只需要說“20分鐘后叫醒我”。如果你想查閱后面的日程安排,你可以說:“我今天接下來都有什么事?”這些語句中既不包括會用到的應用程序名稱,也不包括所需數(shù)據(jù)的名稱。Siri仍然能夠理解。

  Siri還有很獨特的幽默性格,人們幾乎可以把它當作一個有趣的年輕女子。

  在技術上,Siri是人工智能專家的所有技術在友好界面上的整合,但它的潛力不止于此。如果蘋果借此機會創(chuàng)建一個人工智能程序的生態(tài)系統(tǒng),將Siri做成平臺,讓Siri與其他程序結(jié)合,內(nèi)置的個人助理服務將更具使用價值。“技術上來說,Siri可與任何網(wǎng)絡服務整合到一起,你可以把Siri前端放在任何服務之前。” 溫那斯基對媒體說。

  比如,有一款專注于幫助用戶點餐的程序Alfred,它能從互聯(lián)網(wǎng)獲取數(shù)據(jù)來提供餐廳、咖啡、酒吧的選擇建議。如果這個程序和Siri結(jié)合,也許你就不用問“離舊金山最近的意大利餐館在哪里”,而是可以直接對Siri說:“我要吃午飯”。

  蘋果iPhone的成功大部分要歸功于其允許第三方開發(fā)者創(chuàng)造最新的程序,為iPhone帶來了新科技和新理念。溫那斯基表示,這種做法也能夠給Siri帶來巨大進步。盡管蘋果還沒有公開表示,是否會開放Siri的API(編注:應用程序編程接口)。

  互聯(lián)網(wǎng)思想家凱文·凱利在《失控》中預言:網(wǎng)絡終極的形式可能是一種人工智能的形式。這種形式足夠復雜,有足夠多的層級,能夠產(chǎn)生自我思考的能力。

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。