近日,ICCV2023 細粒度行為檢測挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結(jié)束,云從科技在行為分類賽道(以下簡稱OpenFAD23-ICCV23)中斬獲冠軍。
挑戰(zhàn)賽中,云從從容大模型展示了對多種模態(tài)信息的優(yōu)秀理解和處理能力,從早稻田大學(xué)、軟銀等國內(nèi)外多家知名企業(yè)、科研機構(gòu)中脫穎而出,刷新世界紀(jì)錄,再次展示了云從科技在多模態(tài)大模型領(lǐng)域的技術(shù)實力。
表1: 云從科技在OpenFAD23-ICCV23數(shù)據(jù)集上的表現(xiàn)
專注領(lǐng)先技術(shù)研發(fā) 推動視覺大模型落地應(yīng)用
3D行為識別技術(shù)相比2D圖像識別增加了時間維度的建模,是以人為中心的感知任務(wù)的重要組成部分,一直是人工智能領(lǐng)域的研究熱點。
大模型具有強大的表征能力,并且在多模態(tài)(如語言、音頻、圖像、視頻、視覺語言)上得到驗證,云從結(jié)合實際業(yè)務(wù)落地需求研發(fā)了基于時空建模的3D行為識別基礎(chǔ)大模型。
該模型基于Vision Transformer結(jié)構(gòu)進行設(shè)計,通過自注意力機制將空間維度和時間維度的信息進行充分關(guān)聯(lián)。
在預(yù)訓(xùn)練階段,采用掩碼重建的方式進行自監(jiān)督學(xué)習(xí),為了讓模型同時學(xué)到場景語義和時序動作,采用偏場景的多模態(tài)語義特征和偏時序的動作特征同時做為教練模型(teacher)進行多分支特征蒸餾,使得模型同時具有場景語義和時序動作理解能力。
基于大模型預(yù)訓(xùn)練獲得的基礎(chǔ)時空特征,能夠廣泛用于視頻檢索、視頻問答、3D行為識別、行為關(guān)鍵幀檢測等下游任務(wù)中。在下游任務(wù)微調(diào)(fine-tune)階段,通過幀間信息互補的方式自適應(yīng)去除模型冗余的部分,極大提升了下游任務(wù)的訓(xùn)練和推理速度。
表2:云從科技在3D行為識別領(lǐng)域權(quán)威數(shù)據(jù)集Something-Something V2上的表現(xiàn)
本次OpenFAD23-ICCV23數(shù)據(jù)集包含491個日常生活中的人類行為,部分行為之間只有極其微小的差別,需要從視頻中抽取多幀畫面并采用3D時空建模算法進行分析。
云從科技從容大模型憑借在視覺領(lǐng)域的深厚積累,在OpenFAD23-ICCV23數(shù)據(jù)集粗粒度(coarse)行為類別上精度達到93.87%,在細粒度(fine-grain)行為類別上精度達到91.96%,識別精度相比上一屆OpenFAD22的冠軍方案高出4%以上。
準(zhǔn)確率的大幅提升表明大模型在時空關(guān)系特征建模上的優(yōu)勢,意味著3D行為識別算法已經(jīng)邁入多模態(tài)大模型時代,將極大提升該技術(shù)的商業(yè)應(yīng)用價值。目前,該技術(shù)已在金融、安防等領(lǐng)域得到了廣泛應(yīng)用,例如人員動作合規(guī)識別,打架、跌倒等行為檢測。
多次刷新紀(jì)錄 構(gòu)建多模態(tài)大模型技術(shù)閉環(huán)
今年以來,云從科技多次在多模態(tài)領(lǐng)域?qū)崿F(xiàn)技術(shù)突破。
6月
云從在CVPR 2023提出視覺大模型自監(jiān)督學(xué)習(xí)方法,僅需過往1%的數(shù)據(jù)量或者無需真實數(shù)據(jù)便可以達到相同的效果;
7月
云從行人基礎(chǔ)大模型在PA-100K、RAP V2、PETA、HICO-DET四個數(shù)據(jù)集成為世界第一,商品基礎(chǔ)大模型在MUGE、Product1M 兩個規(guī)模最大的開源中文多模態(tài)商品檢索數(shù)據(jù)集上刷新世界紀(jì)錄;
8月
云從視覺-語言跟蹤大一統(tǒng)模型在4個富有挑戰(zhàn)性的跨模態(tài)數(shù)據(jù)集(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)上刷新了四項世界紀(jì)錄;
這使得從容大模型能夠以更好的交互性能,應(yīng)用于金融、安防、政務(wù)、交通、能源、教育、醫(yī)療、文娛等行業(yè)領(lǐng)域。
那么多模態(tài)到底意味著什么?
當(dāng)你輸入一張照片,并用語音或文字“指揮”AI將其部分摳圖修改,并發(fā)送給朋友時,它能立即理解并完成指令。
多模態(tài)交互降低了AI使用的門檻,使AI有望成為萬千大眾都能使用的生產(chǎn)工具和個人助理。
如今,多模態(tài)大模型已成為大模型邁向通用人工智能(AGI)目標(biāo)的下一個前沿焦點,云從科技持續(xù)專注多模態(tài)技術(shù)研發(fā)與儲備,推動視覺、語言、音頻等技術(shù)的邊界融合,為更多行業(yè)帶來創(chuàng)新與變革。
云從視覺基礎(chǔ)大模型表現(xiàn)出很強的泛化性能,大大降低了下游任務(wù)所需的數(shù)據(jù)依賴與開發(fā)成本,同時zero-shot大幅提高了訓(xùn)練開發(fā)效率,使得廣泛應(yīng)用和快速部署成為可能。
云從科技及聯(lián)合研究團隊的論文《PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos》(基于掩碼預(yù)測的點云視頻自監(jiān)督學(xué)習(xí))成功入選。
近日,ICCV2023 細粒度行為檢測挑戰(zhàn)賽(Open Fine Grained Activity Detection Challenge)順利結(jié)束,云從科技在行為分類賽道(以下簡稱OpenFAD23-ICCV23)中斬獲冠軍。
周一到周五9:30-18:00(北京時間)
商務(wù)合作:business@cloudwalk.com
媒體合作:Media@cloudwalk.com
渠道合作:business_partner@cloudwalk.com
人才招聘:zhaopin@cloudwalk.com