Nvidia 的 DiffUHaul 人工智能工具可移动图像中的物体
来自 Nvidia 的研究人员在上发表了一篇论文。该工具可以在不改变图像大小或背景的情况下理解并移动图像中的物体。论文称,该工具 "利用本地化文本到图像模型的空间理解能力,完成物体拖动任务"。
目前的文本到图像模型由于缺乏 "空间推理 "能力,在处理复杂的图像编辑任务时举步维艰。DiffuHaul 通过在模型中加入空间推理来解决这个问题,让模型在图像中追踪对象,"无缝 "地重新定位它们,而不改变其他任何东西。
为了实现这一目标,该工具在去噪步骤中对物体进行遮挡,帮助它了解物体的位置,并将其从背景中分离出来。然后,它对原始图像和生成图像之间的差值进行插值,在不触及背景的情况下将物体放置在新的位置。然后,将原始图像中更精细的细节和特征移到新图像中,以保持一致性。
DiffUHaul 基于BlobGEN。模型,该模型利用空间理解能力,根据复杂的提示合成图像。论文称,该工具无需训练,这意味着它是在没有任何数据集的情况下创建的,并且开箱即用。
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名