近日,在上海徐匯區(qū)“模速空間”舉辦的“2025金融大模型評(píng)測(cè)體系發(fā)布會(huì)”上,上海人工智能實(shí)驗(yàn)室和庫(kù)帕思聯(lián)合發(fā)布新版金融大模型評(píng)測(cè)體系和基準(zhǔn)。評(píng)測(cè)發(fā)現(xiàn),在測(cè)試難度提升的前提下,2025年大模型測(cè)試結(jié)果全面超越2024年。
據(jù)悉,該體系在標(biāo)準(zhǔn)引領(lǐng)、數(shù)據(jù)驅(qū)動(dòng)、安全可信與生態(tài)共建四大維度實(shí)現(xiàn)全面升級(jí),構(gòu)建覆蓋金融全場(chǎng)景的評(píng)測(cè)基線,為行業(yè)提供統(tǒng)一、權(quán)威、可操作的技術(shù)評(píng)估框架。
庫(kù)帕思COO施佳樑介紹,該評(píng)測(cè)體系匯聚了4個(gè)公開數(shù)據(jù)集與22個(gè)自建數(shù)據(jù)集,約3.6萬(wàn)條評(píng)測(cè)數(shù)據(jù),堅(jiān)持科學(xué)與魯棒的評(píng)測(cè)過(guò)程,采用循環(huán)選項(xiàng)打亂機(jī)制和多樣化提示詞,并研發(fā)金融裁判大模型,實(shí)現(xiàn)評(píng)測(cè)全流程自動(dòng)化、標(biāo)準(zhǔn)化,助力機(jī)構(gòu)選型、優(yōu)化及風(fēng)險(xiǎn)把控。
與會(huì)專家向記者解釋,采用循環(huán)選項(xiàng)打亂機(jī)制,目的是避免大模型猜題或者固定答案;設(shè)置多樣化提示詞,是針對(duì)同一個(gè)考點(diǎn)設(shè)計(jì)不同文本提問以反復(fù)評(píng)測(cè)準(zhǔn)確性;讓大模型來(lái)評(píng)測(cè)大模型,是為了減少人工在評(píng)測(cè)過(guò)程中的干擾和不穩(wěn)定性。
此外,該評(píng)測(cè)體系包括大語(yǔ)言模型評(píng)測(cè)體系和智能體評(píng)測(cè)體系兩部分。其中,智能體是2025年新增的評(píng)測(cè)對(duì)象。
對(duì)此,上海財(cái)經(jīng)大學(xué)教授張立文表示,金融智能體評(píng)測(cè)近期備受關(guān)注,也是實(shí)際評(píng)測(cè)中的難點(diǎn)領(lǐng)域。因?yàn)樵诮鹑趯?shí)務(wù)中,大模型能力只是一方面影響因素,金融機(jī)構(gòu)更多是以智能體的形式來(lái)提供服務(wù)。因此評(píng)測(cè)金融智能體更有實(shí)際意義。
對(duì)于推出金融大模型評(píng)測(cè)體系和基準(zhǔn)的必要性,上海市人工智能行業(yè)協(xié)會(huì)相關(guān)負(fù)責(zé)人表示,“人工智能技術(shù)正加速向金融行業(yè)縱深滲透,大模型在智能投研、風(fēng)險(xiǎn)控制、客戶服務(wù)、合規(guī)審查等場(chǎng)景中的應(yīng)用日益廣泛。然而,面對(duì)模型能力參差不齊、評(píng)測(cè)標(biāo)準(zhǔn)不統(tǒng)一、安全合規(guī)邊界模糊等現(xiàn)實(shí)挑戰(zhàn),行業(yè)亟需一套權(quán)威、開放、可復(fù)現(xiàn)、面向?qū)崙?zhàn)的金融 AI評(píng)測(cè)體系,以引導(dǎo)技術(shù)健康發(fā)展、加速產(chǎn)業(yè)落地進(jìn)程?!?/p>
上海市委金融辦副主任、一級(jí)巡視員葛平表示,2024年由庫(kù)帕思、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)發(fā)布的全國(guó)首個(gè)“以金融業(yè)務(wù)為中心”的金融大模型評(píng)測(cè)體系,為行業(yè)提供了科學(xué)選型與能力對(duì)標(biāo)的重要“標(biāo)尺”。2025年評(píng)測(cè)體系的全面升級(jí),將助力上海建設(shè)具有全球影響力的金融科技中心。
會(huì)上,上海市委金融辦金融科技處、徐匯區(qū)商務(wù)委、上海市經(jīng)信委人工智能處、上海市委網(wǎng)信辦網(wǎng)絡(luò)技術(shù)處,聯(lián)合上海人工智能實(shí)驗(yàn)室、庫(kù)帕思及上海財(cái)經(jīng)大學(xué),共同發(fā)布《金融大模型應(yīng)用評(píng)測(cè)報(bào)告(2025)》與《金融大模型評(píng)測(cè)數(shù)據(jù)集(2025)》。該報(bào)告基于真實(shí)金融業(yè)務(wù)場(chǎng)景構(gòu)建評(píng)測(cè)任務(wù),探索金融垂直領(lǐng)域大模型應(yīng)用的新理念、新機(jī)制與新手段,將有效支撐金融機(jī)構(gòu)科學(xué)選型、降本增效,加速大模型在投研、風(fēng)控、客服等核心環(huán)節(jié)的規(guī)模化落地。(記者 葉健)
轉(zhuǎn)自:經(jīng)濟(jì)參考網(wǎng)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964