123,123,123

Google为开发者推出改进后的语音转文本服务

日期： 2018-04-11

關(guān)鍵詞： Google 云端 API 机器学习

幾周前，Google 剛剛對“云端文本轉(zhuǎn)語音”API 實施了大改版?，F(xiàn)在，該公司又升級了自家的 Speech-to-Text 語音識別服務(wù)。改進后的 STT API 承諾顯著提升了語音識別的性能，在內(nèi)部所有測試中，單詞錯誤率減少了 54% 左右。不過在某些領(lǐng)域，實際表現(xiàn)要好得多?；谟美?，新版 API 現(xiàn)允許開發(fā)者在四種不同的機器學習模型間進行選擇。

其中有面向短查詢和語音命令的，以及一個理解通話語音和處理視頻中音頻的。第四個模型屬于新增默認，谷歌推薦在所有其它場景中使用。

此外，谷歌還帶來了一項新的標點符號模型。團隊承認，其錄音文本長期飽受標點符號不太正常的吐槽。用標點符號來表達自己的觀點，算是出了名的困難。

谷歌承諾新模型可帶來更多可讀的轉(zhuǎn)錄文本，包括更少的斷句、更多的逗號、句號、以及問號。

本次更新后，谷歌還允許開發(fā)者借助一些基本的元數(shù)據(jù)標記他們的轉(zhuǎn)錄音視頻。盡管一時發(fā)揮不了直接的益處，但谷歌表示，它將使用來自所有用戶的聚合信息，來決定下一步要優(yōu)先考慮哪些新功能。

最后，谷歌還試圖對這項服務(wù)的收費方式做出小小的改動。此前，音頻轉(zhuǎn)錄的收費標準為 0.006 美元 / 每 15 秒；視頻模型的收費翻倍（0.012 美元 / 每 15 秒）。

不過 5 月 31 號之后，使用新模型也需要支付 0.006 美元 / 每 15 秒。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

Google为开发者推出改进后的语音转文本服务

日期： 2018-04-11

相關(guān)內(nèi)容