對于具身智能產業(yè)而言,2026年注定是“數(shù)據(jù)”之年。從“數(shù)據(jù)孤島”到“數(shù)據(jù)底座”,從“炫技表演”到“務實應用”,行業(yè)正在經(jīng)歷一場深刻而艱難的蛻變。數(shù)據(jù)的規(guī)?;?、標準化、高質量化,將助力人形機器人跨越“泛化性”的天塹,真正成為賦能千行百業(yè)、走進千家萬戶的智能基礎設施。
這場關于數(shù)據(jù)的攻堅戰(zhàn),才剛剛拉開序幕。作為連接數(shù)字智能與物理世界的橋梁,具身智能數(shù)據(jù)正成為這場產業(yè)變革的“新石油”。
“數(shù)據(jù)”將是最后一道壁壘?
如果說大語言模型(LLM)的成功依賴于互聯(lián)網(wǎng)海量文本數(shù)據(jù)的“涌現(xiàn)”,那么具身智能的進化則依賴于高質量的真實物理交互數(shù)據(jù)。具身智能數(shù)據(jù),并非簡單的圖像或文本,它是機器人在與物理環(huán)境交互過程中產生的多模態(tài)、時空對齊的復雜信息集合,涵蓋了視覺、動作、力/觸覺、環(huán)境以及交互等多個維度。這些數(shù)據(jù)共同構成了智能體學習在真實世界中感知、決策與執(zhí)行的基礎。
上海交通大學助理教授穆堯指出,從目前趨勢看,數(shù)據(jù)是重要的,其中高質量數(shù)據(jù)是最重要的。他指出,硬件發(fā)展已到一定高度,但機器人手部操作的成熟度遠低于人類,模型架構也基本夠用,因此“優(yōu)質數(shù)據(jù)”是解決問題的重要因素。
行業(yè)內人士深知,機器人本體質量雖在提升,但“泛化性不足”導致機器人進入千行百業(yè)總還有“最后一公里”距離。讓模型理解物理規(guī)律、掌握靈巧操作本領,海量且真實的帶物理模態(tài)的數(shù)據(jù)是唯一解藥。IDC中國研究經(jīng)理李君蘭表示,當前具身智能機器人正處于技術高度復雜且潛力巨大的交匯點。虛實融合數(shù)據(jù)體系成為持續(xù)進化的核心基礎,仿真合成數(shù)據(jù)成為規(guī)?;柧毜闹黧w,視頻學習正在成為潛在擴展路徑,遙操作實采數(shù)據(jù)作為高質量補充,通過閉環(huán)訓練、仿真微調與在線反饋,支撐機器人在低成本條件下實現(xiàn)能力擴展與持續(xù)進化。
在這場關乎行業(yè)未來主動權的競賽中,誰掌握了數(shù)據(jù),誰就掌握了行業(yè)定義權。自今年以來,產業(yè)界對此的響應速度空前。
3月16日,京東集團宣布,依托其超級供應鏈和海量真實業(yè)務場景,將建成全球規(guī)模最大、場景最全的具身智能數(shù)據(jù)采集中心,并在未來兩年內積累超1000萬小時的優(yōu)質數(shù)據(jù)。據(jù)悉,京東將開放這些數(shù)據(jù),助力具身智能產業(yè)從算法仿真邁向真實數(shù)據(jù)驅動的新階段。
接著,帕西尼感知科技繼去年建成全球最大的天津數(shù)據(jù)工廠后,再次宣布在江蘇宿遷、湖北武漢、四川自貢、江西贛州新建4座超級數(shù)據(jù)采集工廠,形成覆蓋全國五大區(qū)域的具身智能數(shù)據(jù)集群,目標是以“百億級”實采數(shù)據(jù)為產業(yè)筑牢高質量底座。帕西尼創(chuàng)始人、CEO許晉誠表示:“高質量多模態(tài)數(shù)據(jù)的稀缺是制約智能進化的瓶頸,目前行業(yè)數(shù)據(jù)儲備與實際訓練需求之間存在指數(shù)級差距?!?/p>
3月27日,宇樹科技開源了面向全球開放的高質量全身遙操作真機數(shù)據(jù)集UnifoLM-WBT-Dataset,旨在構建場景覆蓋“最廣”、任務復雜度“最高”、操作多樣性“最豐富”的人形機器人真機數(shù)據(jù)體系。此外,北京人形機器人創(chuàng)新中心的數(shù)據(jù)基地也已成為國內數(shù)據(jù)采集的重要力量。據(jù)悉,該基地已牽頭制定了國內首個具身智能數(shù)據(jù)集行業(yè)標準《人工智能具身智能數(shù)據(jù)采集規(guī)范》,對外市場化交付超數(shù)萬小時高質量實采數(shù)據(jù),整體數(shù)據(jù)合格率穩(wěn)定在95%以上,有望迎來全球首個采集完成百萬小時高質量具身智能機器人數(shù)據(jù)的里程碑。
密集的行業(yè)動作表明,2026年,已然成為具身智能數(shù)據(jù)規(guī)?;a與應用的“元年”。
數(shù)據(jù)之困瓶頸在哪兒?
盡管行業(yè)熱情高漲,但具身智能數(shù)據(jù)的工程化落地之路并非坦途,在業(yè)內專家看來,當前行業(yè)面臨以下核心挑戰(zhàn)。
首先,數(shù)據(jù)孤島與“方言”問題嚴重。不同構型的機器人本體,其傳感器布局、關節(jié)自由度、控制接口各不相同,導致采集的數(shù)據(jù)天然帶有“機器人形態(tài)烙印”,難以跨本體遷移和復用。這直接構成了數(shù)據(jù)共享與復用的巨大障礙。
北京人形機器人創(chuàng)新中心數(shù)據(jù)基地負責人蔣未來指出:“數(shù)據(jù)異構形成數(shù)據(jù)孤島是行業(yè)大問題,需要積累到大語言模型內置級別涌現(xiàn)智能的數(shù)據(jù)等級,否則單個企業(yè)的數(shù)據(jù)量有限。”智源研究院院長王仲遠也表達了同樣的擔憂:“數(shù)據(jù)孤島下,大家各做各的數(shù)據(jù),格式都不一樣。重復采集數(shù)據(jù),訓練各自的模型,也很難部署在不同款型的機器人上。這就意味著大家都在重復造輪子,資源出現(xiàn)重大浪費?!?/p>
其次,數(shù)據(jù)采集成本高昂。真機數(shù)據(jù)質量最高,其成本也最為昂貴。賽迪智庫分析報告指出,單臺設備產生1萬小時訓練數(shù)據(jù)甚至需要消耗上百萬元。同時,人員成本也居高不下,一個數(shù)采員一天只能采集300~500條數(shù)據(jù),復雜任務產出更低。蔣未來坦言,真機數(shù)采的成本構成包括資產折舊、人員效率和數(shù)據(jù)損耗?!叭绻行试?5%以上和75%以上,成本會差很多?!彼f道。
再次,數(shù)據(jù)質量與有效性參差不齊。數(shù)據(jù)質量不僅關乎采集的精度,更關乎其是否能為模型訓練提供有效“養(yǎng)分”。劣質數(shù)據(jù)不僅浪費資源,更可能誤導模型。
最后,數(shù)據(jù)標準體系缺失。這是行業(yè)最底層的痛點。無論是數(shù)據(jù)采集的格式、標注的規(guī)范,還是數(shù)據(jù)質量的評估,都缺乏統(tǒng)一的標準。專家表示,數(shù)據(jù)標準不一致,使用的組織就需要用大量精力去做后端的工具鏈開發(fā)。此外,現(xiàn)在不同機構的開源數(shù)據(jù)集在數(shù)據(jù)格式、標注體系等方面存在顯著差異,導致數(shù)據(jù)難以跨項目集成與復用。
破局之道從何出發(fā)?
面對重重挑戰(zhàn),產業(yè)界并未卻步,而是從多個維度積極探索破局之道。
首先,對數(shù)據(jù)采集的范式進行革新。帕西尼重塑數(shù)據(jù)集第一性原理,創(chuàng)建了“以人為中心”(Human-Centered)的數(shù)采體系,讓人做回數(shù)據(jù)的“生產者”。以自研的高精度自主物理感知硬件為觸點,帕西尼開發(fā)了高精度多維觸覺采集終端PMEC,配合空間視覺矩陣,共同構建起“以人為中心”的含稀缺觸覺模態(tài)的全模態(tài)感知高精度實采具身數(shù)據(jù)體系。此外,它石智航也提出了“以人為中心”的數(shù)據(jù)采集范式,思路是“好的數(shù)據(jù)范式是你工作、你生活,而我記錄你”。這一理念的核心在于,構建通用物理智能的關鍵是讓模型學習人類在真實環(huán)境中的自然行為,而不是用遙操或仿真數(shù)據(jù)得到一個頭重腳輕、不能在真實復雜環(huán)境中使用的VLA模型。為此,它石智航自主研發(fā)了SenseHub數(shù)據(jù)采集套件,去規(guī)避遙操作難以規(guī)?;钠款i,彌補仿真數(shù)據(jù)與現(xiàn)實之間的鴻溝。
其次,為了在數(shù)據(jù)規(guī)模與成本之間找到平衡點,行業(yè)也在積極探索無本體數(shù)據(jù)采集和高質量仿真數(shù)據(jù)生成。比如,無本體采集不和具體機器人綁定,理論上可以擴大規(guī)模、降低投入,并解決數(shù)據(jù)孤島問題,但有效性還需更多檢驗和證明。專家表示,無本體、世界模型路線嘗試解耦數(shù)據(jù)和機型,需要研發(fā)突破,先證明這些數(shù)據(jù)訓練效果和真機一樣好,再解決構型綁定問題,才容易形成統(tǒng)一市場,方便交易。
再次,加速數(shù)據(jù)標準制定,打通產業(yè)“任督二脈”。標準化是解決數(shù)據(jù)孤島、降低行業(yè)成本、促進生態(tài)繁榮的根本途徑。去年年末,工信部人形機器人與具身智能標準化技術委員會正式成立,我國首個覆蓋全產業(yè)鏈、全生命周期的《人形機器人與具身智能標準體系(2026版)》隨之發(fā)布,標志著行業(yè)進入規(guī)范化、系統(tǒng)化發(fā)展新階段。專家指出:“現(xiàn)在人形機器人的標準在全世界范圍內都是沒有的,這給了我們一個很好的契機,讓中國標準成為世界標準。”
最后,構建數(shù)據(jù)生態(tài),開放共享,協(xié)同進化。數(shù)據(jù)作為新型生產要素,其價值在于流通與復用。京東、宇樹科技、帕西尼等企業(yè)紛紛選擇開源或開放數(shù)據(jù),正是看到了這一點。
從京東的千萬小時數(shù)據(jù)布局,到帕西尼的全國數(shù)據(jù)集群,再到行業(yè)標準的逐步落地,2026年的具身智能產業(yè),已經(jīng)告別“炫技式”發(fā)展的浮躁,穩(wěn)步邁入務實落地的深水區(qū)。未來,隨著數(shù)據(jù)生態(tài)的不斷完善、技術范式的持續(xù)革新,具身智能終將憑借堅實的數(shù)據(jù)底座,真正走進千家萬戶、賦能千行百業(yè),開啟人機共生的全新篇章。(記者 楊鵬岳)
轉自:中國電子報
【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀