拥抱人脸 "发布新的开源视觉语言模型 SmolVLM

Hugging Face 发布新的开源视觉语言模型 SmolVLM（图片来源：Hugging Face）

Hugging Face 推出了一款轻量级开源视觉语言模型 SmolVLM，该公司表示，该模型旨在提高效率和速度。

Rohith Bhaskar (translated by Ninh Duy), Published 12/03/2024 🇺🇸 🇮🇹 ...

Hugging Face 是一个机器学习、数据集和人工智能工具的存储库，它在发布了一个开源视觉语言模型。一个开源的视觉语言模型，该模型轻便、高效、快速。视觉语言模型（VLM）可以理解文本和视觉输入。

该模型可通过开放的训练管道用于商业用途，这意味着用于训练该模型的数据集、代码和方法可供公众使用。Hugging Face 有三种模型变体--SmolVM-Base、SmolVM-Synthetic 和 SmolVM Instruct。

SmolVM-Base 是为下游微调而设计的，这意味着它可以被采用并针对特定任务进行训练。Synthetic是在人工数据上训练的，不使用真实世界的数据集，而Instruct可以 "开箱即用，用于交互式终端用户应用"。

Hugging Face表示，SmolVM只需要5.7GB的GPU RAM，因此比PaliGemma 3B、InternVL2 2B和Qwen2-VL-2B等竞争对手更小巧、更高效。这使它可以在 VRAM 有限的笔记本电脑上运行。

与其他型号相比，它的代币效率也更高。令牌衡量一个模型的速度和效率，SmolVM 可以用 81 个令牌编码一幅 384x384 的图像，而 Qwen2-VL 则需要 16k 个令牌。该模型运行所需的计算能力和内存也更少。

拥抱脸 "是上的一个演示提供了一个基于 SmolVM-Instruct 和监督训练脚本的演示，供任何人试用。

Editor of the original article: Rohith Bhaskar - Tech Writer - 226 articles published on Notebookcheck since 2024

contact me via: LinkedIn

Translator: Ninh Ngoc Duy - Editorial Assistant - 521685 articles published on Notebookcheck since 2008

Please share our article, every link counts!

> Notebookcheck中文版（NBC中国） > 新闻 > 新闻档案 > 新闻档案 2024 12 > 拥抱人脸 "发布新的开源视觉语言模型 SmolVLM

Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)