中文互聯(lián)網(wǎng)語(yǔ)料AI資源平臺(tái)發(fā)布:27個(gè)數(shù)據(jù)集、總量2.7T

2025-01-11 11:43:18閱讀()中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)
推薦題庫(kù)

中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)于1月9日發(fā)布公告,面向社會(huì)發(fā)布中文互聯(lián)網(wǎng)語(yǔ)料資源平臺(tái),支持行業(yè)領(lǐng)域、內(nèi)容模態(tài)、體量規(guī)模等多種標(biāo)簽分類,便于用戶下載與使用。

該協(xié)會(huì)表示在中央網(wǎng)信辦指導(dǎo)下,會(huì)同國(guó)家互聯(lián)網(wǎng)應(yīng)急中心,在前期發(fā)布中文互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)料 1.0的基礎(chǔ)上,依托專委會(huì)建立的語(yǔ)料共建共享機(jī)制,匯聚一批新的高質(zhì)量可信數(shù)據(jù),經(jīng)過(guò)信源篩選、內(nèi)容過(guò)濾、數(shù)據(jù)去重等一系列嚴(yán)格細(xì)致的數(shù)據(jù)加工處理措施,形成并對(duì)社會(huì)發(fā)布中文互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)料2.0,規(guī)模120GB,數(shù)據(jù)3800萬(wàn)條。

注:目前平臺(tái)共入駐27個(gè)語(yǔ)料數(shù)據(jù)集,數(shù)據(jù)總量約2.7T,主要分三類:

一是中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)會(huì)同國(guó)家互聯(lián)網(wǎng)應(yīng)急中心等建設(shè)的中文互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)料;

二是人民網(wǎng)、北京智源研究院、上海人工智能實(shí)驗(yàn)室等單位共享的互聯(lián)網(wǎng)語(yǔ)料;

三是中國(guó)網(wǎng)絡(luò)空間研究院、中國(guó)國(guó)家版本館、中國(guó)大百科全書出版社、中國(guó)社會(huì)科學(xué)院圖書館等單位貢獻(xiàn)的優(yōu)質(zhì)中文基礎(chǔ)語(yǔ)料樣本。

用戶登錄中國(guó)網(wǎng)絡(luò)空間安全協(xié)會(huì)網(wǎng)站(https://www.cybersac.cn/newhome),點(diǎn)擊“中文互聯(lián)網(wǎng)語(yǔ)料資源平臺(tái)”鏈接,通過(guò)注冊(cè)、認(rèn)證等程序,即可下載相關(guān)語(yǔ)料。

網(wǎng)安協(xié)會(huì)人工智能安全治理專委會(huì)負(fù)責(zé)人表示,數(shù)據(jù)是發(fā)展人工智能的基礎(chǔ)關(guān)鍵資源,中文互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)料2.0是各界協(xié)同共建高質(zhì)量中文語(yǔ)料的又一重要成果,專委會(huì)將持續(xù)加強(qiáng)中文互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)料建設(shè),為人工智能技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展提供有力支撐和保障。


掃一掃,手機(jī)繼續(xù)看
    特別聲明:文章多為招考官網(wǎng)轉(zhuǎn)載,如有侵權(quán)請(qǐng)聯(lián)系!
    部分?jǐn)?shù)據(jù)為彩果考試網(wǎng)(www.gregseastlake.com)收集整理,轉(zhuǎn)載或復(fù)制請(qǐng)注明出處!-彩果考試網(wǎng)-