拥抱人脸 "发布新的开源视觉语言模型 SmolVLM
Hugging Face 是一个机器学习、数据集和人工智能工具的存储库,它在发布了一个开源视觉语言模型。一个开源的视觉语言模型,该模型轻便、高效、快速。视觉语言模型(VLM)可以理解文本和视觉输入。
该模型可通过开放的训练管道用于商业用途,这意味着用于训练该模型的数据集、代码和方法可供公众使用。Hugging Face 有三种模型变体--SmolVM-Base、SmolVM-Synthetic 和 SmolVM Instruct。
SmolVM-Base 是为下游微调而设计的,这意味着它可以被采用并针对特定任务进行训练。Synthetic是在人工数据上训练的,不使用真实世界的数据集,而Instruct可以 "开箱即用,用于交互式终端用户应用"。
Hugging Face表示,SmolVM只需要5.7GB的GPU RAM,因此比PaliGemma 3B、InternVL2 2B和Qwen2-VL-2B等竞争对手更小巧、更高效。这使它可以在 VRAM 有限的笔记本电脑上运行。
与其他型号相比,它的代币效率也更高。令牌衡量一个模型的速度和效率,SmolVM 可以用 81 个令牌编码一幅 384x384 的图像,而 Qwen2-VL 则需要 16k 个令牌。该模型运行所需的计算能力和内存也更少。
拥抱脸 "是上的一个演示提供了一个基于 SmolVM-Instruct 和监督训练脚本的演示,供任何人试用。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名