臺(tái)北2019年5月8日 /美通社/ -- 開(kāi)發(fā)開(kāi)源 Firefox 瀏覽器的非營(yíng)利組織 Mozilla 宣布,其所推動(dòng)之最大語(yǔ)音資料募集計(jì)劃 -- Common Voice 平臺(tái)已正式支援簡(jiǎn)體中文。在廣大的 Mozilla 社群及語(yǔ)言專家伙伴的辛勤努力下,從現(xiàn)在開(kāi)始,網(wǎng)友可到 Common Voice 的簡(jiǎn)中網(wǎng)站(https://voice.mozilla.org/zh-CN)錄制音檔。
語(yǔ)音介面是網(wǎng)際網(wǎng)路未來(lái)大勢(shì)之所趨。車用語(yǔ)音助理、智慧手表、智慧燈泡等,內(nèi)建語(yǔ)音辨識(shí)技術(shù)的裝置可謂與日俱增。然而,相關(guān)技術(shù)的創(chuàng)新仍面臨重大阻礙 -- 有意打造語(yǔ)音輔助方案的新創(chuàng)公司、研究人員或各種開(kāi)發(fā)者都需取得大量、轉(zhuǎn)錄為文字的語(yǔ)音數(shù)據(jù),才能訓(xùn)練機(jī)器學(xué)習(xí)的演算法。但現(xiàn)有公開(kāi)語(yǔ)音資料集的語(yǔ)音資料量與支援語(yǔ)種數(shù)都極其有限,而私有的語(yǔ)音資料不但僅掌握在少數(shù)幾家公司手中,而且費(fèi)用高昂。
有鑒于此,Mozilla 自2017年6月起展開(kāi) Common Voice 計(jì)劃,希望建立全球化的開(kāi)源語(yǔ)音語(yǔ)料庫(kù),以因應(yīng)語(yǔ)音介面的發(fā)展需求并突破現(xiàn)階段的市場(chǎng)局限。Mozilla 認(rèn)為,此類介面不該只把持在少數(shù)幾家握有語(yǔ)音服務(wù)技術(shù)的廠商手中,而且,Mozilla 希望能讓使用者以自己的語(yǔ)言和熟悉的腔調(diào)來(lái)吸收和了解資訊。
已收集包括漢語(yǔ)(簡(jiǎn)中)在內(nèi)的27種語(yǔ)音資料
Common Voice 在2018年6月開(kāi)始收集多語(yǔ)語(yǔ)音資料。從那時(shí)起,此專案便不斷壯大,變得更全球化、更具包容性。在過(guò)去10個(gè)月間,大批的熱血貢獻(xiàn)者踴躍響應(yīng),已在 Common Voice 網(wǎng)站上發(fā)起27種語(yǔ)言音檔的收集計(jì)劃,另外還有高達(dá)72種語(yǔ)言的錄音計(jì)劃正在進(jìn)行中。
最新加入的語(yǔ)言是漢語(yǔ)(簡(jiǎn)體中文)。現(xiàn)在,世界各地的網(wǎng)友都可到 https://voice.mozilla.org/zh-CN 網(wǎng)站捐聲音,或驗(yàn)證其他人錄音的音檔。
語(yǔ)音貢獻(xiàn)者還可選擇保留專案紀(jì)錄,以掌握自己的錄音紀(jì)錄。此外,他們也可選擇提供人口特征資訊,以協(xié)助 Mozilla 改善用以訓(xùn)練語(yǔ)音識(shí)別引擎的語(yǔ)音資料。
一如 Common Voice 收集的其他語(yǔ)言資料,Mozilla 對(duì)于漢語(yǔ)(簡(jiǎn)中)的目標(biāo)是要累積約1萬(wàn)小時(shí)之通過(guò)驗(yàn)證的音檔,因?yàn)?萬(wàn)小時(shí)的音檔量才足以訓(xùn)練出完備的語(yǔ)音辨識(shí)系統(tǒng)。除此以外,這還附帶另一個(gè)好處:所有人都可“同聲”一氣,共同推動(dòng)語(yǔ)音辨識(shí)技術(shù)的進(jìn)展。無(wú)論在上班途中、在公車上、午休時(shí)間、在家里,或與親朋好友齊聚一堂時(shí),不管是透過(guò) voice.mozilla.org 網(wǎng)站或 iOS 應(yīng)用,只要有手機(jī)或電腦,就能捐聲音或驗(yàn)證其他人的音檔。
Mozilla 開(kāi)源創(chuàng)新計(jì)劃總監(jiān) George Roter 表示:“就算一個(gè)人只錄或聽(tīng)?zhēng)酌腌姷囊魴n,但若貢獻(xiàn)者多達(dá)數(shù)十萬(wàn),加起來(lái)的資料量就非常驚人!當(dāng)更多人都愿意出一份力時(shí),這套語(yǔ)音資料集的價(jià)值就能更快提升?!?/p>
釋出多語(yǔ)語(yǔ)音資料集
Mozilla 將一本初衷、繼續(xù)充實(shí)語(yǔ)音資料集的內(nèi)涵,使其成為人人可用的公有資源。Mozilla 已于今年二月釋出第一批的多語(yǔ)語(yǔ)音資料集,其中共涵蓋18種語(yǔ)言的錄音音檔,包括:英文、法文、德文和華語(yǔ)(正體中文)等廣泛通行的語(yǔ)言,以及威爾斯語(yǔ)及卡拜爾語(yǔ)等較為冷門的語(yǔ)言。Common Voice 至今已收集逾4.2萬(wàn)人貢獻(xiàn)的錄音,總長(zhǎng)度約1,400小時(shí),且語(yǔ)音資料量仍持續(xù)成長(zhǎng)中。
在此資料集釋出后,Common Voice 的規(guī)模已超越其他同類型的語(yǔ)音資料集,并已將數(shù)萬(wàn)人的錄音音檔及對(duì)應(yīng)文字開(kāi)放給公眾使用(采 CC0 授權(quán))。任何人都可到 Common Voice 網(wǎng)站下載完整的語(yǔ)音資料集。
George Roter 進(jìn)一步表示:“Mozilla 致力于促進(jìn)更多元?jiǎng)?chuàng)新之語(yǔ)音科技生態(tài)系的發(fā)展。我們不但希望能自行推出語(yǔ)音技術(shù)的產(chǎn)品,也立志傾力支援研究人員及小公司的發(fā)展,在建立全球最大公共的多語(yǔ)語(yǔ)音資料集的過(guò)程中,我們很榮幸得到越來(lái)越多人的幫助,也很感謝志愿者的熱情相挺,讓我們成功展開(kāi)對(duì)于簡(jiǎn)體中文的支持?!?/p>