記者從國家數(shù)據(jù)局獲悉:中文數(shù)據(jù)在國內(nèi)大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動我國人工智能模型性能快速提升。
在人工智能時代,Token(通常所說的詞元)是處理文本的最小數(shù)據(jù)單元。國家數(shù)據(jù)局局長劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已經(jīng)突破30萬億,1年半時間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。(記者 王云杉)
轉(zhuǎn)自:人民日報
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀