6月19日-23日,全球人工智能計算機視覺領域頂級國際會議CVPR 2022(Computer Vision and Pattern Recognition,即國際計算機視覺與模式識别)在美國新奧爾良舉行,并同步進行線上會議。商湯科技及聯合實驗室共71篇論文入選本屆CVPR,再創新高,其中有接近四分之一被錄用為Oral(口頭報告),涵蓋三維視覺、自動駕駛等多個備受關注的前沿研究領域和方向,繼續鞏固在全球計算機視覺研究領域的領跑勢頭。
自成立以來,商湯及聯合實驗室已在各學術頂會發表論文超過700篇,在各項競賽中赢得超過70個世界冠軍。與此同時,一直以來商湯沒有把論文數量作為衡量公司技術發展的标準。商湯科技聯合創始人、研究院院長王曉剛博士表示:“我們希望通過為科研工作者提供高效科研的良好環境,鼓勵和引導年輕的研究者從解決業界實際問題角度出發,做高水平、高質量的研究。”
在本屆CVPR上,商湯科技還參與了多項學術競賽,同樣取得了令人矚目的成績。例如,商湯科技與中科院自動化所、上海人工智能實驗室聯合參加Embodied AI 2022 (2022具身智能挑戰賽),在RxR-Habitat賽道斬獲冠軍。作為全球embodied AI研究領域權威性競賽,比賽要求用自然語言控制解決室内機器人的導航問題。商湯的方法達到90%以上效果提升,導航準确率從24.08%提升至45.82%,導航保真度從37.39%提升到55.43%。同時,在為推動基于深度學習的視覺編碼技術而舉辦的CLIC(Challenge on Learned Image Compression)競賽中,商湯科技團隊提供的方案成功獲得圖像編碼賽道冠軍,不僅在全部三個測試碼點上取得了最優主觀評測分數,還擁有所有深度學習方案中最快的解碼速度。
推動技術賦能産業,以創新引領行業突破
商湯科技一直以來鼓勵研究團隊,關注産業需求和痛點,将研究工作與實際業務場景相結合。近年來,依托SenseCore商湯AI大裝置等AI基礎設施的構建,商湯在前沿研究領域擁有更強大的支撐,進一步推動了與産業協同的深化,以AI技術創新引領行業發展。
例如在《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》這篇論文中,研究人員提出了一種新的音樂到舞蹈框架Bailando,它可以驅動3D角色跟随音樂做出舞蹈動作,而且不僅能保證動作的标準與美感,還能在時間上保持與不同音樂節奏的一緻性。當前,在AI、雲計算等技術能力提升的背景下,數字人的應用範圍日漸豐富,在社交、遊戲、直播、虛拟偶像等領域逐漸融入我們的生活。這一研究無疑為未來數字人産業進行更加智能、個性的人物塑造,滿足多樣化需求提供了潛在方向。
點雲跟蹤框架PTTR示意圖
近年來,随着自動駕駛和激光雷達技術的發展,基于點雲的目标跟蹤也獲得了更多的關注。針對點雲數據特有的挑戰和現有算法的缺陷,在論文《PTTR: Relational 3D Point Cloud Object Tracking with Transformer》中,商湯研究團隊提出了一個新穎的點雲跟蹤框架PTTR,在多個數據集上顯著提升了目标跟蹤的準确性,為自動駕駛的安全運行打下了基礎。
商湯科技還聯合北京航空航天大學劉祥龍教授團隊,共同舉辦了面向複雜場景的魯棒機器學習大賽——Robust Models towards Open-world Classification。比賽以推動安全可靠AI模型研究為目标,鼓勵打造更安全、更可靠的AI,支持人工智能技術更可持續地發展。大賽共吸引286隻隊伍、416位參賽者參加。6月19日,大賽在CVPR2022 Art of Robustness Workshop上正式公布獲獎名單。
加強基礎設施與生态建設,助力成果生成
商湯科技在學術研究及技術創新方面取得的突出成績,離不開領先的軟硬件基礎設施整合的強大算力基礎和領先的算法能力,以及商湯在學術生态和開源生态建設方面的長期積累。商湯通過建設并不斷完善以SenseCore商湯AI大裝置為核心的基礎設施,為技術研發和落地提供重要基礎支撐。研究人員能夠高效地進行科研,快速實驗并驗證新的想法,加速創新與叠代,促進高水平論文的産生,同時解決産業落地中的問題。
商湯十分重視學術生态建設。2017年以來,商湯科技陸續與上海交通大學、南洋理工大學、浙江大學分别成立聯合研究院或實驗室,與清華大學建立“感知計算”産學研深度融合專項計劃,并推動成立全球人工智能高校學術聯盟,通過與學術界的緊密聯系,促進各種學術成果的産生以及國際間的學術交流與合作。今年6月11日,商湯科技聯合全球高校人工智能學術聯盟成功舉辦“研無止境:商湯論文分享會”活動,彙聚來自商湯科技以及香港中文大學、浙江大學、南洋理工大學、北京大學等高校的研究學者嘉賓,在線解讀在3D視覺、姿态估計、底層視覺、表征學習、場景理解等領域的CVPR 2022 Oral 論文,分享寶貴學術經驗。
此外,商湯持續鞏固開源生态建設。基于視覺算法的開源項目OpenMMLab目前在GitHub已經擁有超過5萬顆星,并成功向研究者和業界開源上千個模型。基于決策智能的OpenDILab去年在WAIC大會發布并向學術和工業界開源。在大模型方向,商湯與上海人工智能實驗室及高校聯合發布了通用視覺技術體系書生INTERN,并開源了OpenGVLab,助力通用人工智能基礎研究和生态構建。OpenMMLab還在CVPR期間舉辦了主題為《OpenMMLab:計算機視覺研究和生産基礎平台》的研讨會,邀請學術大咖參與分享讨論,共建開源生态。
随着基礎設施的構建完善,學術與開源生态的培育,人工智能技術研究的基礎将能夠更加的穩固、更加寬廣。商湯将以此為支撐持續引領人工智能技術創新,加強AI産業落地的深化,加快規模化應用,推動人工智能技術與産業發展不斷取得突破。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!