中國(guó)開源模型再次吸引全球關(guān)注。日前,百度文心衍生模型PaddleOCR在國(guó)際開源社區(qū)GitHub上的星標(biāo)數(shù)突破7.33萬(wàn),首次超越谷歌旗下開源OCR(光學(xué)字符識(shí)別)標(biāo)桿產(chǎn)品TesseractOCR,成為目前GitHub上星標(biāo)數(shù)最高的OCR項(xiàng)目,得到全球開發(fā)者的高度關(guān)注與認(rèn)可。
OCR是指利用圖像處理與模式識(shí)別技術(shù)將文字轉(zhuǎn)換為可編輯文本的計(jì)算機(jī)視覺技術(shù)。1985年,該領(lǐng)域的標(biāo)桿產(chǎn)品TesseractOCR誕生于惠普實(shí)驗(yàn)室,2005年開源后由谷歌接手維護(hù)并持續(xù)迭代至今。此次PaddleOCR的超越,標(biāo)志著在AI時(shí)代,OCR的技術(shù)體系正迎來(lái)重構(gòu),其與大模型之間形成雙向賦能關(guān)系。
當(dāng)前,大模型訓(xùn)練普遍面臨數(shù)據(jù)短缺問題,已有的標(biāo)準(zhǔn)化數(shù)據(jù)無(wú)法滿足大模型逐漸擴(kuò)大的“胃口”。PaddleOCR相關(guān)技術(shù)負(fù)責(zé)人認(rèn)為,目前超過80%的信息仍以書籍、合同、表格等傳統(tǒng)文本形式呈現(xiàn)。面對(duì)這些格式各異的信息,OCR扮演著關(guān)鍵的數(shù)據(jù)“挖掘機(jī)”角色。其可以將圖像、PDF文檔中的文字與版面結(jié)構(gòu)轉(zhuǎn)化為機(jī)器可理解的電子化文本,能夠?yàn)榇竽P吞峁└S富、更真實(shí)、更高價(jià)值的數(shù)據(jù)。因此,掌握強(qiáng)大的OCR技術(shù),意味著有機(jī)會(huì)打通現(xiàn)實(shí)世界的優(yōu)質(zhì)信息入口,進(jìn)而打造出更加前沿、優(yōu)質(zhì)的模型。
現(xiàn)實(shí)世界中,各類文檔質(zhì)量參差不齊,許多看似微小的細(xì)節(jié)影響著OCR對(duì)信息的識(shí)別應(yīng)用效果。例如,許多紙質(zhì)文檔掃描后往往存在傾斜、彎折、畸變等問題,難以被精準(zhǔn)識(shí)別。針對(duì)這一現(xiàn)實(shí)痛點(diǎn),PaddleOCR首次提出異形框定位技術(shù),讓“歪文檔”也能實(shí)現(xiàn)穩(wěn)定、可規(guī)模化解析。
目前,聚焦真實(shí)業(yè)務(wù)場(chǎng)景中的文檔數(shù)字化需求,PaddleOCR支持覆蓋110余種語(yǔ)言的圖文混排、表格結(jié)構(gòu)、公式符號(hào)等復(fù)雜文檔元素精準(zhǔn)解析,可直接輸出符合標(biāo)準(zhǔn)格式的結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)從圖像輸入到后續(xù)數(shù)據(jù)處理與智能應(yīng)用的無(wú)縫銜接。
在為AI發(fā)展提供數(shù)據(jù)養(yǎng)料的同時(shí),大模型技術(shù)的引入也顯著推動(dòng)了OCR技術(shù)加快迭代。
PaddleOCR便是基于百度文心大模型訓(xùn)練而成。PaddleOCR能夠以高精度文本提取能力,把文檔中的文字、表格、公式等精準(zhǔn)捕獲;文心大模型則像持續(xù)進(jìn)化的大腦,在視覺理解、跨模態(tài)融合上持續(xù)突破,把對(duì)復(fù)雜文檔的深層理解不斷反哺回PaddleOCR,使其從“認(rèn)字工具”蛻變?yōu)椤白x懂世界的利器”。
就在PaddleOCR登頂GitHub不久,PaddleOCR OCEAN生態(tài)聯(lián)盟也正式成立,面向核心開源貢獻(xiàn)者、深度企業(yè)用戶及全球平臺(tái)伙伴開放,首批成員包括知名開源平臺(tái)Hugging Face等全球平臺(tái)伙伴,共同推動(dòng)OCR技術(shù)在更廣泛場(chǎng)景中的應(yīng)用落地。(記者 都芃)
轉(zhuǎn)自:科技日?qǐng)?bào)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964