“我們現(xiàn)在要解決的三個問題,一是實現(xiàn)大模型與專業(yè)知識庫的融合。二是如何提升AIGC的內(nèi)容質量和數(shù)據(jù)安全,特別是在內(nèi)容事實核查方面。三是如何降低百億級大模型落地的成本。”林松濤表示。
6月6日,由、北京人工智能產(chǎn)業(yè)聯(lián)盟元宇宙專業(yè)委員會、中國文化產(chǎn)業(yè)協(xié)會文化元宇宙專業(yè)委員會主辦的“21世紀卓越董事會人工智能閉門會”召開,主題為“AI領域上市公司創(chuàng)新涌現(xiàn)、技術難題與發(fā)展路徑”。
(資料圖)
會上,拓爾思(300229)(300229.SZ)副總裁林松濤介紹了“拓天”大模型及行業(yè)應用。他表示,大模型技術場景落地中的挑戰(zhàn),主要是質量、可控、時效和成本。
質量方面,他認為,個人服務用ChatGPT,提示詞不準可以換一個,如果圖片生成不好也可以再換一個,可以說個人對AIGC的容忍度是很高的。但是企業(yè)不一樣,給政府寫顧問報告,數(shù)據(jù)來源必須是準確的。
可控層面,一是內(nèi)容安全,數(shù)據(jù)是有價值觀的,模型沒有價值觀。二是私域數(shù)據(jù)安全,中國大模型要數(shù)據(jù)化落地,如何在保證用戶私有數(shù)據(jù)安全的同時將大數(shù)據(jù)較好地運用也是一個問題。
時效方面,在大數(shù)據(jù)訓練上,災難性的遺忘一直都是訓練的問題,所以需要大模型解決這個問題。另外,怎樣輸入即時數(shù)據(jù),類似Chat GPT,數(shù)據(jù)最新只到2021年9月,因此在To B服務的時候用不好。
成本方面,千億模型私有化落地的時候需要訓練好,在企業(yè)端落地還需要讓企業(yè)用得起。拓爾思做To B服務,垂直場景落地成為“百模大戰(zhàn)”的核心要點。
據(jù)林松濤介紹,大模型出來以后顛覆了拓爾思此前積累的NLP技術,公司發(fā)現(xiàn),在大模型的基礎上再去結合知識圖譜、自然語言處理技術效果更好。與此同時,公司擁有長期數(shù)據(jù)采集和高質量數(shù)據(jù)資產(chǎn)積累優(yōu)勢,可將數(shù)據(jù)迅速投入到大模型當中。
“現(xiàn)在拓爾思擁有全網(wǎng)數(shù)據(jù)1500億,有人工整理、專家整理的數(shù)據(jù)庫達30多個,主題數(shù)據(jù)110億個,這是拓爾思能夠做大模型很重要的優(yōu)勢?!绷炙蓾Q。
據(jù)了解,拓爾思在大模型應用方面首先選擇政府、媒體和金融三個優(yōu)勢賽道。
在林松濤看來,做垂直領域首先要選好大模型基座,國內(nèi)頭部廠商自己做基座,也有一些廠商選擇開源,同時還需要有數(shù)據(jù)以及在專業(yè)領域的積累,最后在大模型落地時,不僅要有技術、數(shù)據(jù)、還需要讓用戶知道如何應用,包括真實場景的閉環(huán)、基于用戶反饋的學習等等。
“我們現(xiàn)在要解決的三個問題,一是實現(xiàn)大模型與專業(yè)知識庫的融合。二是如何提升AIGC的內(nèi)容質量和數(shù)據(jù)安全,特別是在內(nèi)容事實核查方面。三是如何降低百億級大模型落地的成本?!绷炙蓾硎尽?/p>
免責聲明:以上內(nèi)容為本網(wǎng)站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
聯(lián)系方式:291 32 36@qq.com