久久网亚洲_日本一区二区不卡视频|HD中文字幕在线播放,好紧好湿含着它h,被黑人玩得高潮抽搐在线观看,耽美多肉文

無需標注數(shù)據(jù) 云從科技及聯(lián)合研究團隊提出一種視覺模型自監(jiān)督學習方法

2023-06-27
back

游戲《光環(huán)》中的

人工智能科塔娜說過一句話,

“我是他的盾牌,我是他的利刃;我深知他,連同他的過去和未來”。

作為“六感”之首的視覺,占據(jù)了人類吸收外部信息的70%以上。如果說人工智能的遠景是打造一個具有大腦、神經(jīng)、軀干與四肢的機器人,那么,硬件基礎是軀干、四肢,更重要的是,要使得機器人能看會想,能聽會說,就要搭建神經(jīng)和大腦。


訓練視覺模型的目標是教會AI看見和理解現(xiàn)實世界,其中,點云視頻理解對于智能體與世界的交互至關重要。

近日,國際計算機視覺頂會CVPR 2023在加拿大溫哥華舉行。作為國際計算機視覺與模式識別領域的三大頂級會議之一,CVPR備受關注。云從科技及聯(lián)合研究團隊的論文《PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos》(基于掩碼預測的點云視頻自監(jiān)督學習)成功入選。


01

簡介

從靜態(tài)點云中解析現(xiàn)實世界已經(jīng)取得了巨大的成就。最近,對點云視頻的理解也越來越受關注。與此同時,自監(jiān)督學習可以從未標注的數(shù)據(jù)中提取高質(zhì)量的表征,這將為標注成本高昂的點云視頻理解任務帶來幫助。
因此,我們探索了以自監(jiān)督的方式從點云視頻中學習表征的方法。盡管基于對比學習和掩碼預測的自監(jiān)督學習范式已經(jīng)在圖像和靜態(tài)點云領域顯示出了強大的有效性,但是將這些方法直接擴展到點云視頻上仍存在諸多挑戰(zhàn)。

在本文中,我們提出了PointCMP,一種用于點云視頻自監(jiān)督學習的對比掩碼預測框架。PointCMP采用雙分支結構,同步學習點云視頻的局部和全局時空信息。在此之上,我們提出了一個基于互相似度的增強模塊,以實現(xiàn)基于特征的樣本生成。
通過計算各局部表征與該樣本全局語義之間的相似度,我們可以找到那些與語義高度相關的關鍵部分。將這些關鍵部分掩蔽可以提升自監(jiān)督預測任務的挑戰(zhàn)性,以促使模型學習更有效的表征。與此同時,我們也嘗試擦除關鍵的特征通道,從而針對性的生成難負例用于全局對比學習。


02

方法

我們的PointCMP架構如圖1所示。給定一個點云視頻,首先將其均勻地分成多個視頻片段。然后,將這些片段送入編碼器得到局部Token以及具有全局語義的全局Token。接下來,將它們傳遞給基于互相似度的增強模塊。


圖1 PointCMP的架構示意圖


從直覺上來說,當與全局Token具有較高相似度的局部Token可見時,預測任務會變得更容易。因此,我們掩蔽掉這些具有高相似度的局部Token以生成有難度的掩碼樣本。我們選擇相似度高的Token作為關鍵Token。各局部Token所覆蓋的點云通常有重疊,而視頻片段之間有一定的信息隔離。
因此,我們選擇包含最多個關鍵Token的視頻片段,并將此片段下聚合而成的所有局部Token都掩蔽掉。此外,我們將具有高相關度的特征通道視為主通道,并將它們擦除以生成難負樣本。直觀上來說,擦除掉這些重要的主成分特征后勢必會與原始樣本形成一個負樣本對。

我們將帶有掩碼的Token序列與位置編碼相加后輸給一個回歸器,來預測被掩碼處的表征。被預測的表征與編碼器得到的相對應的原始表征組成正樣本對,而與其余的組成負樣本對。我們使用InfoNCE損失來完成此局部對比學習分支。

與此同時,我們還為樣本的全局表征構建了全局對比學習分支。由回歸器重新補全的Token序列經(jīng)過池化層得到新的全局表征,并與原始全局表征構成正樣本對。
擦除主特征通道后的Token序列經(jīng)過池化層得到全局難負例。并且,同一批次內(nèi)的其他視頻的全局表征也作為當前樣本的負樣本。我們同樣使用InfoNCE損失來完成此全局對比學習分支。


03

實驗

首先,我們對預訓練后的編碼器進行微調(diào),來評估PointCMP學習到的表征。我們將MSRAction-3D數(shù)據(jù)集同時用于預訓練和端到端微調(diào)。當使用PSTNet作為編碼器時,相對于基線,PointCMP預訓練帶來了顯著的精度改進。

表1 MSRAction-3D數(shù)據(jù)集上的驗證結果

如表1所示,在使用8 幀時,行為識別的精度從83.50%提高到89.56%。這表明,PointCMP預訓練可以以自監(jiān)督的方式從點云視頻中學習到有益的知識,這有助于在微調(diào)后獲得更高的精度。


然后,我們通過線性實驗來驗證PointCMP預訓練所學到的表征的有效性。同樣的,MSRAction-3D數(shù)據(jù)集被用于預訓練和線性測試。預訓練的編碼器被凍結,并添加一個額外的線性分類器用于監(jiān)督訓練。我們的方法在大多數(shù)幀數(shù)設置下都超過了基線。這證明了PointCMP預訓練讓模型學習到了高質(zhì)量的表征。



表2 NTU-RGBD (Cross-Subject) 數(shù)據(jù)集上的驗證結果

此外,我們還在NTU-RGBD數(shù)據(jù)集上做了半監(jiān)督實驗,即在自監(jiān)督預訓練后用一部分有標注的數(shù)據(jù)微調(diào)模型。從表2的結果來看,當我們使用PSTNet作為編碼器時,只用50%的標注數(shù)據(jù)微調(diào)模型就可以接近全監(jiān)督的基線精度。這表明PointCMP預訓練可以在無標注數(shù)據(jù)中挖掘數(shù)據(jù)自身所蘊含的知識,這不僅可以節(jié)約人力成本還可以將預訓練模型作為初始化從而進一步提升模型的性能。


圖2 高相似度局部Token及其鄰域點(綠色)的可視化結果


我們在圖2中進一步可視化了與全局Token具有高度相似性的關鍵局部Token及其鄰域點。正如我們所看到的,與運動的關鍵身體部位相對應的點被突出顯示。這與我們的直覺是一致的。通過掩蔽這些關鍵區(qū)域,鼓勵編碼器利用更多上下文進行掩碼預測,以此學習更高質(zhì)量的表征。


總結展望

自監(jiān)督學習的優(yōu)勢主要是利用輔助任務從無標注數(shù)據(jù)中挖掘自身的監(jiān)督信息。相比于利用特定任務的標注作為監(jiān)督信息訓練,這不僅可以節(jié)省標注成本,還可以使模型學習到更泛化的知識和對多種下游任務有價值的表征。在數(shù)據(jù)為王的時代,此特點也使得大家充分相信自監(jiān)督學習才是人工智能的發(fā)展方向。

另一方面,點云視頻含有豐富的動態(tài)視覺信息,可以幫助智能體充分了解這個實時變化的3D世界。且相比于傳統(tǒng)視頻以紋理信息為主,點云視頻涵蓋更精確的幾何信息和位置坐標。
所以,點云視頻可以為低能見度環(huán)境中的動作識別等任務提供保障。由此可見,點云視頻理解對于人工智能系統(tǒng)與世界交互非常重要。在海量數(shù)據(jù)之上,借助自監(jiān)督技術推動點云視頻理解,也許會幫助我們打造一個能想會說、能聽會看的AI。

您可能感興趣

全國熱線電話

400-151-5992

周一到周五9:30-18:00(北京時間)

  • 商務合作:business@cloudwalk.com

  • 媒體合作:Media@cloudwalk.com

  • 渠道合作:business_partner@cloudwalk.com

  • 人才招聘:zhaopin@cloudwalk.com

Copyright?2025 粵公網(wǎng)安備 44011502001099號

粵ICP備15087156號 云從科技集團股份有限公司

AI開放平臺/云從logo/使用條款/法律聲明/防詐騙聲明
關注我們

掃描二維碼,關注云從科技
精彩一手掌握

留言咨詢

請?zhí)顚懸韵卤砀瘢覀兊匿N售代表會盡快與您聯(lián)系

  • 姓名 *
  • 工作郵箱
  • 電話 *
  • 城市 *
  • 公司名稱 *
  • 行業(yè)
  • 職位
  • 產(chǎn)品/解決方案
    AI定義設備
    場景定義設備
    機場專用產(chǎn)品
    刷臉支付終端
    活體模組
    智慧金融
    智慧治理
    智慧交通
    智慧商業(yè)
  • 預算
  • 請輸入需求描述 *

提交成功

我們的銷售代表會盡快與您聯(lián)系