Notebookcheck Logo

拥抱人脸 "发布新的开源视觉语言模型 SmolVLM

Hugging Face 发布新的开源视觉语言模型 SmolVLM(图片来源:Hugging Face)
Hugging Face 发布新的开源视觉语言模型 SmolVLM(图片来源:Hugging Face)
Hugging Face 推出了一款轻量级开源视觉语言模型 SmolVLM,该公司表示,该模型旨在提高效率和速度。
AI

Hugging Face 是一个机器学习、数据集和人工智能工具的存储库,它在发布了一个开源视觉语言模型。一个开源的视觉语言模型,该模型轻便、高效、快速。视觉语言模型(VLM)可以理解文本和视觉输入。

该模型可通过开放的训练管道用于商业用途,这意味着用于训练该模型的数据集、代码和方法可供公众使用。Hugging Face 有三种模型变体--SmolVM-Base、SmolVM-Synthetic 和 SmolVM Instruct。

SmolVM-Base 是为下游微调而设计的,这意味着它可以被采用并针对特定任务进行训练。Synthetic是在人工数据上训练的,不使用真实世界的数据集,而Instruct可以 "开箱即用,用于交互式终端用户应用"。

Hugging Face表示,SmolVM只需要5.7GB的GPU RAM,因此比PaliGemma 3B、InternVL2 2B和Qwen2-VL-2B等竞争对手更小巧、更高效。这使它可以在 VRAM 有限的笔记本电脑上运行。

与其他型号相比,它的代币效率也更高。令牌衡量一个模型的速度和效率,SmolVM 可以用 81 个令牌编码一幅 384x384 的图像,而 Qwen2-VL 则需要 16k 个令牌。该模型运行所需的计算能力和内存也更少。

拥抱脸 "是上的一个演示提供了一个基于 SmolVM-Instruct 和监督训练脚本的演示,供任何人试用。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 12 > 拥抱人脸 "发布新的开源视觉语言模型 SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)