一些對(duì)我們而言輕而易舉的事情,對(duì)于聽障人士來(lái)說(shuō),卻非常困難——比如“看”冬奧會(huì)。這次他們有福了!據(jù)悉,將有一位“數(shù)字主播”——手語(yǔ)播報(bào)AI數(shù)字人亮相北京2022冬奧會(huì)和冬殘奧會(huì),她會(huì)在大屏幕上根據(jù)主持人的語(yǔ)音用手語(yǔ)將冬奧賽事進(jìn)行同步播報(bào)。
9月24日,在2021中關(guān)村論壇之“人工智能與多學(xué)科協(xié)同創(chuàng)新”平行論壇上,北京智源人工智能研究院學(xué)術(shù)副院長(zhǎng)、清華大學(xué)教授唐杰發(fā)布了“冬奧手語(yǔ)播報(bào)數(shù)字人系統(tǒng)”成果 圖片來(lái)源/中國(guó)科學(xué)報(bào) 鄭金武攝影
根據(jù)國(guó)內(nèi)統(tǒng)計(jì)數(shù)據(jù),中國(guó)有超過(guò)2700萬(wàn)聽障人士,對(duì)教育、社交、娛樂(lè)、信息獲取有巨大的需求。如果算上需要與他們交流的親人、朋友和同事,更是會(huì)涉及到上億人。
傳統(tǒng)的手語(yǔ)播報(bào),主要靠手勢(shì)來(lái)傳遞信息,一方面因不同的人有不同的手勢(shì)習(xí)慣,容易造成信息傳遞偏差;另一方面,會(huì)造成手語(yǔ)播報(bào)主持人翻譯工作量大、與節(jié)目主持人配合難度高,從一定程度上限制了聽障人士對(duì)于信息的獲取。手語(yǔ)播報(bào)AI數(shù)字人首先可以避免“千人千面”,始終保持統(tǒng)一;其次,可以根據(jù)收聽到的語(yǔ)音,自動(dòng)實(shí)時(shí)生成手語(yǔ)手勢(shì),提供精確的播報(bào)服務(wù)。
數(shù)字手語(yǔ)主播不僅需要真實(shí)的數(shù)字人形象,也需要能夠理解、翻譯語(yǔ)音和手語(yǔ)的數(shù)字大腦。手語(yǔ)播報(bào)數(shù)字人,是一個(gè)“智能人”,它不僅擁有生動(dòng)的表情神態(tài)、豐富的肢體語(yǔ)言,還擁有“大腦”——能夠理解、翻譯語(yǔ)音和手語(yǔ)的數(shù)字雙輪驅(qū)動(dòng)虛擬數(shù)字腦。它配置了口形、表情、姿態(tài)、手部動(dòng)作等多種素材以便進(jìn)行“表情管理”。
2021年9月23日,北京,2021年中關(guān)村論壇上手語(yǔ)播報(bào)數(shù)字人 圖片來(lái)源/視覺(jué)中國(guó)
為了提高冬奧播報(bào)的準(zhǔn)確性,研發(fā)團(tuán)隊(duì)還對(duì)手語(yǔ)播報(bào)數(shù)字人進(jìn)行了“培訓(xùn)”,構(gòu)建了冬奧手語(yǔ)語(yǔ)料庫(kù),包括多模態(tài)肢體動(dòng)作、表情、手指等語(yǔ)料,教授數(shù)字腦掌握手語(yǔ)表達(dá)的方法。同時(shí),手語(yǔ)數(shù)字腦可以通過(guò)計(jì)算機(jī)模仿聽障人士的大腦,將看到的中文文本信息轉(zhuǎn)換成手語(yǔ)詞匯序列,讓聽障人士實(shí)時(shí)了解賽事進(jìn)程。通過(guò)AI技術(shù)將播報(bào)內(nèi)容翻譯合成為手語(yǔ),并利用數(shù)字人虛擬主播來(lái)播報(bào),成為解決這一難題的重要途徑。
手語(yǔ)數(shù)字播報(bào)的實(shí)現(xiàn),是因?yàn)楸澈笥小拔虻?.0”超大規(guī)模人工智能模型的技術(shù)支撐。結(jié)合冬奧會(huì)的有關(guān)信息,悟道大模型可以實(shí)現(xiàn)文本到手勢(shì)的自動(dòng)轉(zhuǎn)化。當(dāng)播報(bào)員播報(bào)時(shí),數(shù)字人可以將文字轉(zhuǎn)換成手語(yǔ),方便聽障人士收看賽事專題報(bào)道,這是“悟道2.0”超大規(guī)模預(yù)訓(xùn)練模型的首次實(shí)際場(chǎng)景應(yīng)用。依托“數(shù)據(jù)”與“知識(shí)”,冬奧期間賽事新聞實(shí)現(xiàn)了實(shí)時(shí)手語(yǔ)翻譯播報(bào),填補(bǔ)了這一領(lǐng)域的空白。
2021年6月3日,觀眾在2021北京智源大會(huì)上參觀智能模型“悟道2.0”的資料介紹?!拔虻?.0”模型的參數(shù)規(guī)模達(dá)到1.75萬(wàn)億,是目前中國(guó)首個(gè)、全球最大的萬(wàn)億級(jí)模型 圖片來(lái)源/視覺(jué)中國(guó)
據(jù)了解,這一“冬奧手語(yǔ)播報(bào)數(shù)字人系統(tǒng)”由北京市科委、北京市殘聯(lián)發(fā)起,科技冬奧專項(xiàng)支持,智譜AI、凌云光和北京廣播電視臺(tái)聯(lián)合打造,項(xiàng)目還得到了市殘聯(lián)聾人協(xié)會(huì)的大力支持。
數(shù)字人的未來(lái)不只是手語(yǔ)播報(bào),隨著人工智能技術(shù)的不斷演進(jìn),數(shù)字人也進(jìn)入了其它領(lǐng)域,如向大家介紹空間站情況的數(shù)字記者小諍、游戲直播行業(yè)涌現(xiàn)的各類虛擬人物等。
如今,在技術(shù)蓬勃發(fā)展的新風(fēng)口下,數(shù)字人不僅達(dá)到了人像的寫實(shí)級(jí)逼真程度,還具備了一定的溝通交流能力。虛擬互動(dòng)技術(shù)的擴(kuò)展,讓數(shù)字人可以進(jìn)入到醫(yī)學(xué)、礦學(xué)和航天學(xué)等精細(xì)或危險(xiǎn)領(lǐng)域。未來(lái),數(shù)字人將具備類似人的看、聽、說(shuō)和知識(shí)邏輯能力,人工智能將進(jìn)一步發(fā)展。讓我們翹首以待吧!