4月10日,商湯科技舉辦2025技術交流日活動,重磅推出全新升級的“日日新sensenova v6”(以下簡稱:日日新 v6)大模型體系,通過多模態長思維鏈訓練、全局記憶、強化學習的技術突破,形成領先的多模態推理能力,并突破成本邊界。
商湯科技董事長兼首席執行官徐立表示:“ai之道,在于百姓之日用。商湯日日新 v6將跨越多模態邊界,釋放推理與智能的無限可能。”
據介紹,通過構造多模態的強思維鏈數據和搭建多模態強化學習的語境,和去年發布的日日新大模型5.0及5.5相比,日日新 v6在多模態方面表現更加出眾,并針對推理能力進行了強化。
為滿足不同場景的需要,日日新 v6包含若干版本。其中sensenova v6 pro為原生多模態通用大模型,采用了6200億參數的混合專家架構,實現文本、圖像和視頻的原生融合;sensenova v6 reasoner pro在sensenova v6 pro基礎上,通過多模態長思維鏈訓練和多模態增強學習,形成突出的多模態推理能力;sensenova v6 video是視頻理解模型,可以理解總結視頻內容,并在此基礎上進行深入分析和推理;sensenova v6 omni是輕量級的全模態交互模型,深度融合語言、語音和視頻,提供實時交互體驗。
作為擁有超6000億參數的moe原生多模態通用大模型,日日新 v6實現了多項技術突破,憑借單一模型就可以完成文本、多模態等各類任務:擁有超過200b高質量多模態長思維鏈數據,最長64k思維鏈;數據分析能力大幅領先gpt-4o;多模態深度推理能力對標openai o1;憑借其全局記憶能力,日日新 v6突破長視頻理解,支持10分鐘的視頻理解及深度推理。
在現場,徐立展示了日日新 v6的多模態能力。例如,用戶可以將自己的數學題手寫答案拍照上傳,通過v6 reasoner pro的多步驟推理思考,模型先進行解題,并對用戶的答案進行分析,然后通過v6 omni的音視頻溝通能力,模型以引導提問的方式為用戶逐步剖析解題思路,還支持語音實時答疑,隨時解答用戶在解題過程中遇到的問題。
比起市面上的其他拍照搜題應用,日日新 v6更像是一個“一對一私教”。v6還可以實現通過攝像頭實時解讀繪本,根據畫面和用戶的語音要求講故事,在交流中,v6可針對不同的對話內容和場景需求,即時切換語氣、情感與音調。
目前,基于多模態大模型,商湯開發了多種新場景應用。例如在長視頻上,商湯上線了視頻理解功能,提供對教學視頻、旅游視頻、生活視頻的解析、總結、對話,以及對情景之外的情節和邏輯的補全。面向日常應用的需求,sensenova v6 omni具備數學解題、點讀翻譯、文旅講解、繪本講解四大功能。在財務審核、購物比價、商鋪運營等場景中,也可以利用v6來解決用戶需求。
徐立表示,商湯發展ai的目標便是“在真實的環境中解決那些日常煩瑣、但是重要的行業需求”,“當ai聚集了人類現有的大量平均水平的知識之后,它就能夠運用觸類旁通的能力,為開放問題形成一種真正意義上的確定性,完成從模型到客戶使用的‘最后一公里’。”
在技術交流日上,商湯宣布了與多家軟硬件企業的戰略簽約,其中包括具身智能企業傅利葉。基于sensenova v6 omni,傅利葉的機器人可以通過融合圖像、視頻、語音和文本信息理解環境,進行思考與表達,洞察用戶的需求與情緒,與人類進行交互。機器人在輸出語音的同時,還能同步生成與語義相匹配的動作,實現語言與行為的統一。
整合日日新 v6全部能力,商湯商量也迎來全面升級,并推出全新商量app。用戶通過一個入口,即可體驗文字、圖像、視頻等多種模態流式交互體驗,目前已開放內測。
記者:王永娟
編輯:寧平英
校對:孫清渠
審校:韋麗
轉載請注明來自上海徐匯官方賬號
上觀號作者:徐匯通
全部評論 (0)