快科技6月4日消息,据媒体报道,英伟达在台北举办的GTC活动上正式发布Cosmos 3,并将其称为全球首个“完全开放的全能模型”。
该模型面向机器人、自动驾驶汽车及视觉智能体,主打基于视觉的推理能力,同时可生成文本、图像、视频、环境声音和动作等多模态内容。
据英伟达介绍,Cosmos 3采用由推理Transformer与生成Transformer组成的双模块架构。其中,推理Transformer负责理解物体交互、运动轨迹及时空关系,生成Transformer则在此基础上输出视频内容与动作轨迹。

这一设计使模型能够先理解现实世界中的物理互动,再生成对应的画面和行为结果,从而显著提升对复杂环境的建模能力。
英伟达指出,Cosmos 3主要致力于解决机器人、自动驾驶车辆和视觉智能体在真实环境理解方面长期面临的难题。
当前,相关训练数据仍然有限,仿真系统也较为分散,导致机器在学习物理世界规律时面临较高门槛。Cosmos 3的目标是以更高的物理准确性,原生理解并生成文本、图像、视频、环境声音及动作信息。
从应用定位来看,英伟达表示,Cosmos 3既可作为视觉语言模型使用,也可作为模拟物理环境、预测未来世界状态的世界模型,还可作为其他世界模型的基础平台。
在产品规划方面,响应精度最高的Cosmos 3 Super与轻量版本Cosmos 3 Nano已正式可用,面向边缘设备实时推理的Cosmos 3 Edge将于后续推出。
在技术层面,Transformer是一类擅长处理序列数据中上下文关系的深度学习神经网络,可通过并行计算提升生成效率。英伟达此次将推理与生成能力相结合,旨在为机器人与自动驾驶系统提供更接近真实物理世界的基础模型能力。

热门排序
推荐文章
全新问界M9配置升级强化高端市场份额 中金公司:赛力斯估值具备上行空间
万智互联 跃升行业智能化 华为全景亮相数字中国建设峰会
55.8%增速!2026全球IT支出冲向45万亿人民币:AI已成最贵打工仔
再创佳绩!张雪机车53号车手德比斯WSBK捷克站正赛首回合夺冠 收获本赛季第四冠
五一假期最大锦鲤诞生!男子凭手机发票抽中29万红旗HS7
曹操出行Robotaxi启用3600个上下车点 高密度站点网络加速规模化运营
闪魔康宁钢化膜定义手机屏幕保护新标准 全场景产品矩阵与AR技术优势领跑行业
阿里Q4财报出炉:云外部收入猛增40% AI业务年化收入358亿
印度半导体计划2.0来了!五年免税+近乎零关税狂砸优惠
宁夏5A景区持零彩礼证书可免门票 工作人员:实施已一年 尚无人免单





