Notebookcheck Logo

Nvidia 的 DiffUHaul 人工智能工具可移动图像中的物体

Nvidia 的 DiffUHaul AI 模型可以移动图像中的物体(图片来源:Omri Avrahami on YouTube)
Nvidia 的 DiffUHaul AI 模型可以移动图像中的物体(图片来源:Omri Avrahami on YouTube)
Nvidia 公司的研究人员开发了一种新的人工智能工具,可以重新定位图像中的物体。该工具可以在不影响背景的情况下改变图像中物体的位置。
AI

来自 Nvidia 的研究人员在上发表了一篇论文。该工具可以在不改变图像大小或背景的情况下理解并移动图像中的物体。论文称,该工具 "利用本地化文本到图像模型的空间理解能力,完成物体拖动任务"。

目前的文本到图像模型由于缺乏 "空间推理 "能力,在处理复杂的图像编辑任务时举步维艰。DiffuHaul 通过在模型中加入空间推理来解决这个问题,让模型在图像中追踪对象,"无缝 "地重新定位它们,而不改变其他任何东西。

为了实现这一目标,该工具在去噪步骤中对物体进行遮挡,帮助它了解物体的位置,并将其从背景中分离出来。然后,它对原始图像和生成图像之间的差值进行插值,在不触及背景的情况下将物体放置在新的位置。然后,将原始图像中更精细的细节和特征移到新图像中,以保持一致性。

DiffUHaul 基于BlobGEN。模型,该模型利用空间理解能力,根据复杂的提示合成图像。论文称,该工具无需训练,这意味着它是在没有任何数据集的情况下创建的,并且开箱即用。

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 12 > Nvidia 的 DiffUHaul 人工智能工具可移动图像中的物体
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)