谷歌宣布推出新的 PaliGemma 2 视觉语言模型
谷歌发布了 2024 年 5 月推出的视觉语言模型 PaliGemma 的后续版本。PaliGemma 2有多种尺寸,参数范围从 30 亿到 280 亿,分辨率最高达 896px。
该公司称,该型号在"https://arxiv.org/abs/2412.03555在化学式识别、乐谱识别、空间推理和胸部 X 光报告生成等方面性能领先"。
它还具有长字幕功能,"为图像提供详细的、与上下文相关的字幕,不仅仅是简单的物体识别,还能描述动作、情绪和场景的整体叙述"。
新模型将作为多种尺寸的 "即插即用替代品 "提供,无需 "对代码进行重大修改"。预训练模型可在Hugging Face和Kaggle上,任何人都可以免费下载和试用。它还支持多种框架,包括 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp。
谷歌表示,PaliGemma 2 的 "灵活性使得针对特定任务和数据集的微调变得简单明了,让你能够根据自己的精确需求定制其功能"。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名