Notebookcheck Logo

谷歌宣布推出新的 PaliGemma 2 视觉语言模型

谷歌发布新的 PaliGemma 2 视觉语言模型(图片来源:Google)
谷歌发布新的 PaliGemma 2 视觉语言模型(图片来源:Google)
谷歌的 PaliGemma 2 型号有多种尺寸和分辨率,可以理解文本、图像和视频。此外,谷歌还宣传其能够创建详细的、与上下文相关的字幕。
AI

谷歌发布了 2024 年 5 月推出的视觉语言模型 PaliGemma 的后续版本。PaliGemma 2有多种尺寸,参数范围从 30 亿到 280 亿,分辨率最高达 896px。

该公司称,该型号在"https://arxiv.org/abs/2412.03555在化学式识别、乐谱识别、空间推理和胸部 X 光报告生成等方面性能领先"。

它还具有长字幕功能,"为图像提供详细的、与上下文相关的字幕,不仅仅是简单的物体识别,还能描述动作、情绪和场景的整体叙述"。

新模型将作为多种尺寸的 "即插即用替代品 "提供,无需 "对代码进行重大修改"。预训练模型可在Hugging FaceKaggle上,任何人都可以免费下载和试用。它还支持多种框架,包括 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp。

谷歌表示,PaliGemma 2 的 "灵活性使得针对特定任务和数据集的微调变得简单明了,让你能够根据自己的精确需求定制其功能"。

资料来源

Please share our article, every link counts!
Mail Logo
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2024 12 > 谷歌宣布推出新的 PaliGemma 2 视觉语言模型
Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)