新闻资讯

News information

英伟达高级研究科学家范麟熙:基于合成数据训练AI将是未来方向

发布时间:2023-11-01 23:06:46 |   阅读量:2275  |  文章来源:电竞竞猜官网,lol正规押注平台,电竞比赛竞猜平台

·“我们正在迅速用尽网络上高质量的英伟于合真实token。从人工合成数据中获得人工智能将是达高前进的途径。”

·MimicGen使用不到200个人类演示,研究科据训可自主生成超过5万个训练数据,学家熙基涵盖18个任务、范麟多个模拟环境。成数

“合成数据将为满足大模型提供下一个万亿token(文字或语言符号)。未方”当地时间10月27日,英伟于合英伟达高级研究科学家范麟熙(Jim Fan)介绍了关于合成数据的达高最新研究——MimicGen系统,该系统可以生成机器人的研究科据训训练数据。


机器人准备咖啡。学家熙基

根据研究论文《MimicGen:使用人类演示进行可扩展机器人学习的范麟数据生成系统》,MimicGen使用不到200个人类演示,成数可自主生成超过5万个训练数据,未方涵盖18个任务、英伟于合多个模拟环境。


MimicGen可自主生成超过5万个训练数据,涵盖18个任务、多个模拟环境。

从大量人类示范中进行模仿学习,已经被证明是构建有能力的机器人智能体的有效范例。然而,示范的收集可能非常昂贵且耗时。研究发现,机器人智能体可以通过模仿学习在生成的数据集上进行有效训练,以在长期和高精度任务中获得出色的性能,例如多部件组装和制备咖啡。此外,研究团队进一步证明了MimicGen数据的有效性和实用性优于额外收集的人类演示,这使其成为扩大机器人学习规​​模的强大且经济的方法。


部分任务示例。

机器人智能体可以通过模仿学习在这个生成的数据集上进行有效训练,以在长期和高精度任务中获得出色的性能,例如多部件组装和制备咖啡。

这项研究的所有数据集全部开源。“我们是开源社区的忠实拥护者。像往常一样,我们开源一切,包括生成的数据集。”范麟熙说。

对于这项研究的具体逻辑,范麟熙阐释道:首先,人类远程操控机器人完成一个任务,生成非常高质量的演示数据,但这个过程缓慢且昂贵。其次,在高保真的GPU(图形处理器)加速的模拟环境中,创建机器人和场景的数字孪生。然后,在模拟环境中移动对象,替换新的物体,甚至改变机械臂,基本上是使用程序生成的方式扩充训练数据。最后,导出成功的场景,提供给神经网络进行训练。


MimicGen适用于毫米级精度的接触式任务。

“这样就获得了一个近乎无限的训练数据流。”范麟熙认为,机器人技术落后于其他人工智能领域的一个关键原因是缺乏数据,其无法从互联网上获取控制信号,同时它们在野外(自然环境)里根本不存在。

“MimicGen展示了合成数据和模拟的力量”,范麟熙相信这一原则也适用于机器人以外的领域。“我们正在迅速用尽网络上高质量的真实token。从人工合成数据中获得人工智能将是前进的途径。”

此前,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。研究机构Epoch估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

电竞竞猜官网,lol正规押注平台,电竞比赛竞猜平台

A股上市房企三季报:短期流动性压力略有缓解 《逆风去》:28岁向朝阳,为了10万,被母亲出卖,原生家庭更可怕 我们的歌5, 吴莫愁是苏醒的前辈! 腾格尔曝专家过度解读 茶颜悦色否认IPO,但规模焦虑或写脸上 球探:人们不看好哈登交易是因为他去的是快船 换成湖人就不一样 《山河月明》看懂徐氏主持常氏大丧,才明白朱标为何不让吕氏祭奠 公募基金前三季累计亏损逾2045亿元 不堪入目,父母竟在孩子面前寻求刺激,画面辣眼,网友:道德何在 联建光电2天1板:公司基本面不存在重大变化 好家伙,《梅花红桃》的大结局,是我今年看过最刀心刀肺的大结局