IT之家 5 月 1 日消息,本周早些時候,Mozilla 宣布其 Common Voice 數據集現在包含超過 20000 小時的内容,世界各地的任何人都可以使用這些内容來改進他們的語音識别軟件,幾乎是一年前的兩倍。
IT之家了解到,最新的英語數據集有 71 GB,支持的語言也比以往任何時候都多,增加了蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。
根據 Mozilla 的說法,Common Voice 項目允許任何人為項目貢獻自己的聲音,從而讓虛拟助手能夠理解更多的口音。此外,Common Voice 項目是開源的,可确保大型科技公司無法獨占,為小型開發商和公司提供了構建競争産品和服務的機會。
Mozilla 在最新數據集版本中指出的亮點如下:
6 種新語言:蒂格雷語、閩南語、Meadow Mari、孟加拉語、道本語和粵語。
27 種語言至少有 100 小時的語音數據,包括孟加拉語、泰語、巴斯克語和弗裡斯蘭語。
9 種語言至少有 500 小時的語音數據,包括基尼亞盧旺達語(2383 小時)、加泰羅尼亞語(2045 小時)和斯瓦希裡語(719 小時)。
9 種語言有至少 45% 的性别标簽為女性,包括馬拉地語、迪維希語和盧幹達語。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!