(資料圖片)
7月11日,百川智能正式發(fā)布參數(shù)量130億的通用大語(yǔ)言模型Baichuan-13B-Base、對(duì)話模型Baichuan-13B-Chat及其INT4/INT8兩個(gè)量化版本。
這是百川智能發(fā)布的第二款通用大語(yǔ)言模型,而在前不久的6月15日,百川智能就已經(jīng)推出了首款70億參數(shù)量的中英文語(yǔ)言模型Baichuan-7B。
百川智能在發(fā)布預(yù)訓(xùn)練模型Baichuan-13B-Base的同時(shí)還發(fā)布了其對(duì)話模型Baichuan-13B-Chat,Baichuan-13B-Chat部署簡(jiǎn)單、開箱即用,極大降低了開發(fā)者的體驗(yàn)成本。
百川智能表示,相比此前發(fā)布的Baichuan-7B,Baichuan-13B在1.4萬(wàn)億token數(shù)據(jù)集上訓(xùn)練,超過(guò)LLaMA-13B 40%,是當(dāng)前開源13B尺寸下訓(xùn)練數(shù)據(jù)量最大的模型,
據(jù)百川智能介紹,Baichuan-13B上下文窗口長(zhǎng)度為4096,不同于Baichuan-7B的RoPE編碼方式,Baichuan-13B使用了ALiBi位置編碼技術(shù),能夠處理長(zhǎng)上下文窗口,甚至可以推斷超出訓(xùn)練期間讀取數(shù)據(jù)的上下文長(zhǎng)度,從而能夠更好的捕捉文本中上下文的相關(guān)性,做出更準(zhǔn)確的預(yù)測(cè)或生成。
百川智能表示,Baichuan-13B是一款中英文雙語(yǔ)大模型,采用了相對(duì)平衡的中英文語(yǔ)料配比和多語(yǔ)言對(duì)齊語(yǔ)料,在中英兩種語(yǔ)言上表現(xiàn)均很優(yōu)異.
Baichuan-13B-Base目前不僅對(duì)學(xué)術(shù)研究完全開放,所有開發(fā)者均可通過(guò)郵件向百川智能申請(qǐng)授權(quán),在獲得官方商用許可后即可免費(fèi)商用;此外,為了降低模型的使用門檻,百川智能同時(shí)開源了Baichuan-13B-Chat的INT8和INT4兩個(gè)量化版本,在近乎無(wú)損的情況下可以很方便的將模型部署在如3090等消費(fèi)級(jí)顯卡上。
百川智能創(chuàng)始人王小川表示,“Baichuan-13B是百川智能為科技強(qiáng)國(guó)送上的一份禮物,我們期待國(guó)內(nèi)大模型行業(yè)以及垂直領(lǐng)域能夠在此基礎(chǔ)上開發(fā)出更多優(yōu)秀產(chǎn)品及行業(yè)應(yīng)用,讓技術(shù)在真實(shí)、豐富的應(yīng)用場(chǎng)景中快速迭代創(chuàng)新,我們?cè)概c眾多企業(yè)、開發(fā)者一道為國(guó)內(nèi)開源社區(qū)的生態(tài)繁榮貢獻(xiàn)自己的力量。”
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
聯(lián)系方式:291 32 36@qq.com
Copyright ? 1998-2023 by 中陜網(wǎng)版權(quán) 所有 京ICP備12018864號(hào)-5