具身智能

大模型时代的具身智能系列专题(六)

UCSD 王小龙组王小龙是UCSD电子与计算机工程系的助理教授。他曾在加州大学伯克利分校与Alexei Efros和Trevor Darrell一起担任博士后研究员，在CMU RI获得了机器人学博士学位，师从Abhinav Gupta。他的研究重点是通过视频和物理机器人交互数据来学习3D和…

ICLR 2023丨3DSQA：3D 场景中的情景问答

来源：投稿作者：橡皮编辑：学姐论文链接：https://arxiv.org/pdf/2210.07474.pdf 主页链接：http://sqa3d.github.io 图 1：3D 场景中情景问答 (SQA3D) 的任务图示。给定场景上下文 S（例如&#…

Open-TeleVision——通过VR沉浸式感受人形机器人视野：兼备远程控制和深度感知能力

前言 7.3日，我司七月在线(集AI大模型职教、应用开发、机器人解决方案为一体的科技公司)的「大模型机器人(具身智能)线下营」群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接，我当时快速看了一…

【EAI 005】EmbodiedGPT：通过具身思维链进行视觉语言预训练的具身智能大模型

论文描述：EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought 论文作者：Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo 作者单位：The Universi…

机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E，发表时间为2023.03，其中的Palm是谷歌内部在2022.04开发的大语言模型，功能类似ChatGPT，只是由于各种原因没有那样火起来，E是Embodied的首字母，翻译过来就是具身多模态大语言模型…

大模型时代的具身智能系列专题(十一)

UMass Amherst 淦创团队淦创是马萨诸塞大学阿默斯特分校的一名教员，也是麻省理工学院- ibm沃森人工智能实验室的研究经理。在麻省理工学院博士后期间，和Antonio Torralba教授、Daniela Rus教授和Josh Tenenbaum教授一起工作。在此之前，在清…

大模型时代的具身智能系列专题(九)

NYU Lerrel Pinto团队 Lerrel Pinto是NYU Courant的计算机科学助理教授，也是用机器人和人工智能实验室(CILVR小组)的一员。在加州大学伯克利分校读博士后，在CMU机器人研究所读博士，在印度理工学院古瓦哈蒂读本科。研究目标是让机器人在我们生…

RT2-使用NLP的方式去训练机器人控制器

目标研究在网络数据上训练的视觉语言模型也可以直接结合到端到端的机器人控制中，提升泛化性以及获得突出的语义推理；使得单个的端到端训练模型可以同时学习从机器人观测到动作的映射，这个过程可以受益于基于网络上的语言和视觉语言数据的预训…

基于大象机器人UltraArm P340机械臂和传送带，实现教育场景中的自动化分拣系统！

引言今天我们将展示一个高度自动化的模拟场景，展示多个机械臂与传送带协同工作的高效分拣系统。在这个场景中，机械臂通过视觉识别技术对物体进行分类，并通过精确的机械操作将它们放置在指定的位置。这一系统不仅提高了分拣的速度和准确性&am…

大模型时代的具身智能系列专题(三)

清华高阳团队高阳为清华叉院助理教授，本科毕业于清华大学计算机系，博士毕业于UC Berkeley。博士导师是Vision领域的大牛Trevor Darrell，读博期间和Sergey Levine合作开始强化学习方面的探索，博后跟随Pieter Abbeel做强化学习&am…

【EAI 004】LLM+P：借助LLM和PDDL赋予机器人最优规划能力

论文标题：LLMP: Empowering Large Language Models with Optimal Planning Proficiency 论文作者：Bo Liu, Yuqian Jiang, Xiaohan Zhang, Qiang Liu, Shiqi Zhang, Joydeep Biswas, Peter Stone 作者单位：Department of Computer Science, Th…

UMass、MIT等提出3D世界具身基础模型，机器人根据生成的世界模型无缝连接3D感知、推理和行动

在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是2D数据，没有集成更通用的3D物理世界。此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了…

【具身智能评估7】ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

论文标题：ProcTHOR: Large-Scale Embodied AI Using Procedural Generation 论文作者：Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha Kembhavi, Roozbeh M…

【具身智能综述1】A Survey of Embodied AI: From Simulators to Research Tasks

论文标题：A Survey of Embodied AI: From Simulators to Research Tasks 论文作者：Jiafei Duan, Samson Yu, Hui Li Tan, Hongyuan Zhu, Cheston Tan 论文原文：https://arxiv.org/abs/2103.04918 论文出处：IEEE Transactions on E…

Wi-Fi还可以做什么？柯南解释IOT应用

大会报告：无线人工智能技术正在改变世界 Wi-Fi还可以做什么？随着带宽的提升，无线终端可以识别出更多的多径，每条多径都可以视作一个虚拟传感器，以感知周边环境。基于此，越来越多的无线感知产品应运而生。20…

【EAI 016】VIMA: General Robot Manipulation with Multimodal Prompts

论文标题：VIMA: General Robot Manipulation with Multimodal Prompts 论文作者：Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan 作者单位：Stanfo…

使用myAGV、Jetson Nano主板和3D摄像头，实现了RTAB-Map的三维建图功能！

引言在现代机器人技术中，高精度的环境感知与建图是实现自主导航的关键。本文将展示如何使用myAGV Jetson Nano移动平台搭载Jetson Nano BO1主板，结合RTAB-Map和3D相机，实现更加立体和细致的环境建图。myAGV Jetson Nano具备SLAM雷达导航功能…

ViT：2 理解CLIP

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提…

【EAI 015】CLIPort: What and Where Pathways for Robotic Manipulation

论文标题：CLIPort: What and Where Pathways for Robotic Manipulation 论文作者：Mohit Shridhar1, Lucas Manuelli, Dieter Fox1 作者单位：University of Washington, NVIDIA 论文原文：https://arxiv.org/abs/2109.12098 论文出处…

Octo 精武门？：开源的通用机器人模型

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技…

医疗机器人中的具身智能进展——自主超声策略模型的任务编码和局部探索

医疗机器人一直是具身智能的研究热点。医学图像、医疗触诊、血压血氧、心率脉搏和生物电信号等多模态生物医学信息，不断丰富着医疗机器人的感知范畴。自主超声 “自主超声”属于具身智能医疗机器人领域中话题度较高的研究方向。作为临床检查的重要手段之一&#…

大模型时代的具身智能系列专题(二)

李飞飞团队李飞飞是华人在AI领域最具影响力的学者之一，她是斯坦福大学人工智能实验室（SAIL）教授，美国国家工程院院士，知名CV数据集ImageNet的牵头人，斯坦福视觉与学习实验室（SVL）的…

【具身智能模型1】PaLM-E: An Embodied Multimodal Language Model

论文标题：PaLM-E: An Embodied Multimodal Language Model 论文作者：Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen C…

$DexCap——斯坦福李飞飞团队泡茶机器人：更好数据收集系统的原理解析、源码剖析$

DexCap——斯坦福李飞飞团队泡茶机器人：更好数据收集系统的原理解析、源码剖析

前言 2023年7月，我司组建大模型项目开发团队，从一开始的论文审稿，演变成目前的两大产品线论文方面，除了论文审稿之外，目前正在逐一开发论文翻译、论文对话、论文idea提炼、论文修订/润色/语法纠错、论文检索机器人方…

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

论文标题：Eureka: Human-Level Reward Design via Coding Large Language Models 论文作者：Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar 作者单位&#xff…

Soft Robotics：两栖环境下螃蟹仿生机器人的行走控制

传统水陆两栖机器人依靠轮胎或履带与表面的接触及摩擦产生推进力，这种对于表面接触的依赖性限制了现有水陆两栖机器人在低重力环境下（如水中）的机动性。利用生物自身的推进机制，人为激发生物运动行为，由活体生物与微机…

Open3D 与 Point Cloud 处理

点云基础3D数据结构点云采集方法点云处理框架点云操作 Open3D基础操作点云基础 3D数据结构点云（Point Cloud）： 点云是由一组离散的点构成的三维数据集合，每个点都包含了坐标信息 (x, y, z) 、颜色 (RGB)、类别 (cls)、强度值等…

大模型时代的具身智能系列专题(五)

stanford宋舒然团队宋舒然是斯坦福大学的助理教授。在此之前，他曾是哥伦比亚大学的助理教授，是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。主题相关作品 diffusio…

Open-TeleVision——通过VR沉浸式感受人形机器人视野的远程操作

前言 7.3日，我司大模型机器人(具身智能)线下营群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接，我当时快速看了一遍，还是有价值的一个工作(其有受mobile aloha工作的启发)&#x…

大模型时代的具身智能系列专题(四)

google deepmind团队谷歌旗下最大的两个 AI 研究机构——地处伦敦 DeepMind 与位于硅谷的 Google Brain 合并成立新部门 Google DeepMind。其将机器学习和系统神经科学的最先进技术结合起来，建立强大的通用学习算法。代表作有AlphaGo，AlphaStar&#x…

基于3D感知的端到端具身操作论文导读

DexIL：面向双臂灵巧手柔性操作的端到端具身执行模型模型架构输入： 观测Ot： RGB点云，使用PointNet进行编码; 状态St： 双臂末端7x2Dof位姿16x2灵巧手关节位置，只进行归一化，无编码&am…

人工智能在产业中应用--生成智能

二、生成式人工智能前面介绍了很多人工智能的应用，接下来部分我们会介绍当前正在进行的生成智能。生成智能和以往的人工智能有什么区别，个人觉得主要区别就在于“度”。在表现上就是以前的人工智能更多是利用既有的数据集分布挖掘和解决在这个数据集下…

【具身智能评估2】具身视觉语言规划（EVLP）数据集基准汇总

参考论文：Core Challenges in Embodied Vision-Language Planning 论文作者：Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh 论文原文：https://arxiv.org/abs/2106.13948 论文出处：Jo…

伯克利、斯坦福和CMU面向具身智能端到端操作联合发布开源通用机器人Policy，可支持多种机器人执行多种任务

不同于LLM或者MLLM那样用于上百亿甚至上千亿参数量的大模型，具身智能端到端大模型并不追求参数规模上的大，而是指其能吸收大量的数据，执行多种任务，并能具备一定的泛化能力，如笔者前博客里的RT1。目前该领域一个前沿工…

腾讯发布2024大模型十大最新趋势！

近日，在2024世界人工智能大会上，腾讯正式发布了《2024大模型十大趋势——走进“机器外脑”时代》报告。目前，这一报告正在AI产业界各大社群快速传播。报告中，腾讯研究院试图通过10个关键性的趋势，去理解全世界范围内正…

开源六轴协作机械臂myCobot280实现交互式乘法！让学习充满乐趣

本文经作者Fumitaka Kimizuka 授权我们翻译和转载。原文链接：myCobotに「頷き」「首振り」「首傾げ」をしてもらう 🤖 - みかづきブログ・カスタム引言 Fumitaka Kimizuka 创造了一个乘法表系统，帮助他的女儿享受学习乘法表的乐趣。她可以…

WAIC热点聚焦|具身智能简介：AI新浪潮的领跑者

WAIC热点聚焦|具身智能简介：AI新浪潮的领跑者引言随着"具身智能"（Embodied Intelligence）的火热讨论，2024年标志着人机交互新时代的开启。在大模型技术的推动下，机器人响应语音指令成为现实，…

【EAI 006】ChatGPT for Robotics：将 ChatGPT 应用于机器人任务的提示词工程研究

论文标题：ChatGPT for Robotics: Design Principles and Model Abilities 论文作者：Sai Vemprala, Rogerio Bonatti, Arthur Bucker, Ashish Kapoor 作者单位：Scaled Foundations, Microsoft Autonomous Systems and Robotics Research 论文原…

具身智能17篇创新性论文及代码合集，2023最新

今天来聊聊人工智能领域近期的一个热门研究方向——具身智能。具身智能（Embodied Intelligence）指的是机器人或智能体通过感知、理解和交互来适应环境，并执行任务的能力。与传统的基于规则或符号的人工智能不同，具身智能强调将感…

Talk | 纽约州立宾汉姆顿大学博士生丁琰：开放环境中机器人的任务与动作规划

本期为TechBeat人工智能社区第541期线上Talk。北京时间10月26日（周四）20:00，纽约州立宾汉姆顿大学博士生—丁琰的Talk已准时在TechBeat人工智能社区开播！ 他与大家分享的主题是: “开放环境中机器人的任务与动作规划”&#xff0…

轻量化Backbone | ShuffleNet+ViT结合让ViT也能有ShuffleNet轻量化的优秀能力

视觉Transformer（ViTs）在各种计算机视觉任务中表现出卓越的性能。然而，高计算复杂性阻碍了ViTs在内存和计算资源有限的设备上的适用性。尽管某些研究已经深入探讨了卷积层与自注意力机制的融合，以增强ViTs的效率，但在纯…

北京通用人工智能研究院提出了首个三维世界中的具身多任务多模态的通才智能体 LEO

想要迈向通用人工智能，必须要构建一个能够理解人类生活的真实世界，并掌握丰富技能的具身通用智能体。今年以来，以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型（Multi-modal Large Language Model&#xff…

PRCV 2023 - Day3

主会场——主旨报告报告题目：变与不变：有关大模型的一些数理基础问题讲者：徐宗本（中国科学院院士） 徐宗本院士的演讲首先通过一系列示例阐释了ChatGPT引领了人工智能研究的新浪潮，推动了人工智能从深度…

具身智能机器人实现新里程碑！新型3D世界模型问世

随着人工智能技术的不断进步，视觉-语言-动作（VLA）模型在机器人控制、自动驾驶、智能助手等领域展现出了广阔的应用前景。这类模型能够将视觉、语言、动作等多模态信息进行融合，实现从感知到决策的端到端学习。然而，现有…

Robotics+LLM系列具身智能视觉表征大模型

对于具身智能来说，视觉肯定是一个不可缺少的信息来源。那么是否有针适用于具身智能的预训练视觉表征（Pre-trained Visual Representations, PVRs）大模型是一个值得研究的点。这篇文章就从多种具身智能任务，构建了CortexBench&…

【具身智能评估1】具身视觉语言规划（EVLP）仿真环境汇总

参考论文：Core Challenges in Embodied Vision-Language Planning 论文作者：Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh 论文原文：https://arxiv.org/abs/2106.13948 论文出处：Jo…