dark mode

谷歌宣布推出新的 PaliGemma 2 视觉语言模型

谷歌发布新的 PaliGemma 2 视觉语言模型（图片来源：Google）

谷歌的 PaliGemma 2 型号有多种尺寸和分辨率，可以理解文本、图像和视频。此外，谷歌还宣传其能够创建详细的、与上下文相关的字幕。

Rohith Bhaskar (translated by Ninh Duy), Published 12/06/2024 🇺🇸 🇫🇷 ...

AI

谷歌发布了 2024 年 5 月推出的视觉语言模型 PaliGemma 的后续版本。PaliGemma 2有多种尺寸，参数范围从 30 亿到 280 亿，分辨率最高达 896px。

该公司称，该型号在"https://arxiv.org/abs/2412.03555在化学式识别、乐谱识别、空间推理和胸部 X 光报告生成等方面性能领先"。

它还具有长字幕功能，"为图像提供详细的、与上下文相关的字幕，不仅仅是简单的物体识别，还能描述动作、情绪和场景的整体叙述"。

新模型将作为多种尺寸的 "即插即用替代品 "提供，无需 "对代码进行重大修改"。预训练模型可在Hugging Face和Kaggle上，任何人都可以免费下载和试用。它还支持多种框架，包括 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp。

谷歌表示，PaliGemma 2 的 "灵活性使得针对特定任务和数据集的微调变得简单明了，让你能够根据自己的精确需求定制其功能"。

资料来源

Related Articles

谷歌的 105 量子比特 Willow 量子芯片实现了突破性的纠错和性能（图片来源：谷歌）

谷歌 "柳 "量子芯片在几分钟内解决了耗时 100 亿年的任务 12/11/2024

谷歌起诉美国 CSFB 政府越权（图片来源：Matthew Kwong 在 Unsplash 上拍摄的照片）

谷歌起诉美国 CSFB 政府越权 12/09/2024

谷歌文档现在使用人工智能创建格式化文档（图片来源：谷歌）

谷歌文档现在使用人工智能创建格式化文档 12/09/2024

距离谷歌 Pixel 10 的预期发布时间仅剩 8 个月，据说有一款手机壳提供了这款手机摄像头设计的第一视角。(图片来源：谷歌）

谷歌 Pixel 10：据称首款手机壳提供了相机设计的早期外观 12/09/2024

还有更多时间将 Stadia 控制器切换到蓝牙模式，进行无线游戏。(图片来源：Google Stadia）

谷歌延长 Stadia 控制器蓝牙开关的有效期 12/09/2024

谷歌 DeepMind 的 Genie 2 是一款实时 3D 世界生成器（图片来源：Google DeepMind）

谷歌 DeepMind 的 Genie 2 是一款实时 3D 世界生成器 12/06/2024

谷歌 Pixel 7 Pro 现在总共获得了五个主要的Android 更新，而不仅仅是三个。(图片来源：Triyansh Gill）

谷歌 Pixel 6（Pro）、Pixel 7（Pro）和 Pixel Fold 将获得五个主要Android 更新，而不仅仅是三个 12/06/2024

Pixel Watch 3 现在能识别用户的心跳何时停止。(图片来源：谷歌）

谷歌 Pixel 手表 3 在德国和葡萄牙失去脉搏检测功能并新增紧急功能 12/06/2024

谷歌的 GenCast 人工智能可以快速准确地预测天气（图片来源：谷歌）

谷歌 GenCast 人工智能可快速准确地预测天气情况 12/05/2024

Pixel Tablet 2 相比 Pixel Tablet（如图）会有适度的全面升级。(图片来源：Notebookcheck）

谷歌 Pixel 平板电脑 2 硬件升级详解，此前曾有取消传闻 12/03/2024

谷歌为 Pixel 9 Pro 等发布 12 月份功能预告...

圣诞老人网络又回来了：通过火腿无线电与圣诞老人通话...

Rohith Bhaskar

Editor of the original article: Rohith Bhaskar - Tech Writer - 225 articles published on Notebookcheck since 2024

contact me via: LinkedIn

Ninh Duy

Translator: Ninh Ngoc Duy - Editorial Assistant - 521059 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Notebookcheck中文版（NBC中国） > 新闻 > 新闻档案 > 新闻档案 2024 12 > 谷歌宣布推出新的 PaliGemma 2 视觉语言模型

Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)