Gemini：Google的高性能多模态模型家族

134 浏览量更新于2024-06-18 收藏 12.49MB DOCX 举报

"Gemini双子座是一系列由Google开发的高性能多模态模型，旨在通过共同训练图像、音频、视频和文本数据，构建出在各模态中具有强大通用能力和尖端理解推理性能的模型。该模型家族包括三个尺寸：Gemini Ultra、Gemini Pro和Gemini Nano，分别针对复杂任务、大规模部署和设备应用。" Gemini模型家族的出现标志着多模态学习领域的重大进展，其核心目标是创建一个能够在多种媒体类型中表现出色的通用智能体。这一系列模型不仅关注单一模态的任务，如图像识别或语言理解，还特别强调跨模态的推理能力，这使得它们能够在不同的应用场景中提供更丰富的理解和响应。 Gemini 1.0作为首个版本，提供了不同规模的模型以适应不同的计算需求。Gemini Ultra是最高性能的模型，已在32个基准测试中有30个超越了最先进的水平，尤其是在MMLU基准上达到了人类专家的表现，这是首个在该挑战中达到此成就的模型。Gemini Pro则在性能和可扩展性之间找到了平衡，适合大规模部署，而Gemini Nano则考虑到了设备内存限制，适用于在移动设备上运行的场景。这些模型在各种任务上展示了强大的性能，包括语言建模、图像理解、音频处理和视频理解。Gemini Ultra在MATH基准中的表现尤为突出，解决了中学和高中数学竞赛级别的问题，准确率达到53.2%，超越了所有已知的竞争对手。此外，Gemini模型的训练和优化利用了改进的架构和模型优化技术，确保了在Google的Tensor Processing Units (TPUs) 上的高效推理。值得注意的是，Google不仅关注模型的技术进步，还强调了负责任的模型部署。这意味着在将Gemini模型引入实际应用时，会考虑其潜在的社会影响，确保模型的公平性、透明度和安全。 Gemini双子座模型家族代表了多模态学习的一个重要里程碑，它们的出色性能和适应性预示着未来在跨模态推理和理解方面有巨大的潜力，能够推动人工智能在各种实际场景中的应用，从智能家居到自动驾驶汽车，甚至医疗诊断等领域。随着技术的不断进步，我们期待Gemini模型能够继续带来更多的创新和突破。

Gemini: A Family of Highly Capable Multimodal Models

5.1.6.

人类偏好评估

人类对模型输出的偏好提供了一个重要的质量指标，补充了自动评估。我们对Gemini模型进行了

并行盲评估，人工评分员评判两个模型对相同提示的回应。我们进行指令调整（Ouyang等人）

2022年，我们使用第6.4.2节讨论的技术对预训练模型进行了优化。模型的指导调优版本在多个特

定能力上进行评估，如遵循指令、创造性写作、多模态理解、长篇上下文理解和安全性。这些能

力涵盖了一系列受当前用户需求和研究潜在未来用例启发的用例。

经过调整的Gemini Pro模型在一系列能力上有很大的改进，包括在创意写作方面优于PaLM 2模

型API，提高了65.0%的时间，在遵循指令方面提高了59.2%的时间，并在更安全的响应方面提高了

68.5%的时间，如表6所示。这些改进直接转化为更有帮助和更安全的用户体验。

创造力

指令跟随

安全性

胜率

65.0%

59.2%

68.5%

95%置信区

间。间隔

[

62.9%,

67.1%]

[ 57.6%, 60.8%]

[66.0%

，

70.8%]

表6 | Gemini Pro在PaLM 2（文本- bison@ 001）上的胜率，带有95％的置信区间。

5.1.7.

复杂推理系统

双子座还可以与搜索和工具使用等附加技术相结合，创建强大的推理系统，可以解决更复杂的多

步问题。这样一个系统的一个例子是AlphaCode 2，这是一个在解决竞争性编程问题方面表现出色

的最新技术代理人（Leblond等，2023年）。AlphaCode 2使用了一种专门版本的Gemini Pro，该

版本经过了类似于Li等人（2022年）中使用的竞赛编程数据的调整，以在可能的程序空间中进行

大规模搜索。然后，我们采用了定制的过滤、聚类和重新排序机制。Gemini Pro经过微调，既可

以作为一个编码模型生成解决方案候选，又可以作为一个奖励模型，用于识别和提取最有前途的

代码候选。

AlphaCode 2在Codeforces上进行评估，与AlphaCode相同的平台，在1和2分区的12个比赛中，

共计77个问题。AlphaCode 2解决了这些竞赛问题的43%，相比之前记录的AlphaCode系统的25%有了

1.7倍的改进。将这个与竞争排名相对应，AlphaCode 2 在Gemini Pro的基础上平均位于估计的第

85百分位数 - 即它的表现优于85%的参赛者。这是对AlphaCode的重大进步，AlphaCode只超过了

50%的竞争对手。

将强大的预训练模型与搜索和推理机制相结合是朝着更通用的智能体方向的一个令人兴奋的方

向；另一个关键要素是在多种形式之间进行深入理解，我们将在下一节中讨论。

5http:// codeforces.com/

5.2.

多模态

Gemini:一系列高度能干的多模型

Gemini模型本身就是多模态的。这些模型展示了无缝结合跨模态能力的独特能力（例如从表格、

图表或图形中提取信息和空间布局），以及语言模型的强大推理能力（例如在数学和编码方面的

最新性能），如图5和12中的示例所示。这些模型在识别输入中的细微细节、在空间和时间上聚合

上下文以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。

下面的部分提供了对模型在不同模态（图像、视频和音频）上的更详细评估，以及模型在图像

生成和跨不同模态的信息组合能力方面的定性示例。

5.2.1.

图像理解

我们评估了模型在四个不同的能力上：使用字幕或问答任务（如VQAv2）进行高级对象识别；使用

TextVQA 和 DocVQA 等任务进行细粒度转录，要求模型识别低级细节；使用 ChartQA 和

InfographicVQA任务要求模型理解输入布局的空间理解；以及使用Ai2D、MathVista和MMMU等任务

进行多模态推理。对于零-shot QA评估，模型被指示提供与特定基准对齐的简短答案。所有数字

都是通过贪婪采样获得的，没有使用任何外部OCR工具。

Gemini

Ultra

(仅像素

)

Gemini

Pro

(仅像素

)

Gemi

Nano

(仅像素

)

Gemini

Nano 1

(仅像素)

GPT-4V

先前的SOTA

MMMU（验证）

59.4%

47.9%

32.6%

26.3%

56.8%

多学科大学级问题通过@ 1

(Yue等人，2023年62.4%

Maj1

@ 32

GPT-4V，0-shot

(Singh等人，2019)

（Mathew等人）。2021年

(Masry等人。2022)

（Mathew等人）。2022)

(Lu等人，2023年

(Kembhavi等人

，2016年

VQAv2（测试-开

发）

自然图像理解（

Goyal等人）

2017年）

77.8% 71.2% 67.5% 62.7% 77.2% 86.1%

Google PaLI- X，

微调

表7 图像理解Gemini Ultra在零射击中始终优于现有方法，特别是对于自然图像、文本、文档和图

TextVQA（验证集）

在自然图像上的文

本阅读

82.3%

74.6

65.9%

62.5%

78.0%

79.5%

Google PaLI-3

，微调

DocVQA（测试）

文档理解

90.9%

88.1

74.3%

72.2%

88.4%

(仅像素

)

88.4%

GPT-4V，0-shot

ChartQA（测试）

图表理解

80.8%

74.1

51.9%

53.6%

78.5%

(4-shot

CoT)

79.3%

Google DePlot

，1次PoT

信息图VQA（测试）

信息图解析

80.3%

75.2

54.5%

51.1%

75.1%

(仅像素

)

75.1%

GPT-4V，0-shot

MathVista（

testmini）

数学推理

53.0%

45.2

30.6%

27.3%

49.9%

GPT-4V，0-shot

AI2D（测试）

科学图表

79.5%

73.9

51.0%

37.9%

78.2%

81.4%

Google PaLI- X

，微调

Gemini: A Family of Highly Capable Multimodal Models

我们发现Gemini Ultra在表7中的各种图像理解基准测试中都是最先进的。它在回答自然图像

和扫描文档的问题，以及理解信息图表、图表和科学图解等各种任务中表现出强大的性能。与其他

模型（尤其是GPT-4V）公开报告的结果相比，Gemini在零射击评估中表现更好。它还超过了几个专

门在基准训练集上进行微调的现有模型，适用于大多数任务。Gemini模型的能力在学术基准测试中

取得了显著的改进，如MathVista（+ 3.1%）6或InfographicVQA（+ 5.2%）。

MMMU（Yue等人）2023) 是一个最近发布的评估基准，其中包含了关于图像的问题，涵盖了6个

学科，每个学科中又有多个主题，需要大学水平的知识来解答这些问题。Gemini Ultra在这个基

准测试中取得了最好的分数，比最先进的结果提高了5个百分点以上，并在6个学科中的5个学科中

超过了以前的最佳结果（见表8），从而展示了它的多模态推理能力。

MMMU（val）Gemini Ultra（0- shot）GPT- 4V（0- shot）

Maj@ 32 pass@ 1 pass@ 1

艺术与设计 74.2 70.0 65.8

商业 62.7 56.7 59.3

科学 49.3 48.0 54.7

健康与医学 71.3 67.3 64.7

人文社科 78.3 78.3 72.5

技术与工程 53.0 47.1 36.7

总体上为62.4 59.4 56.8

表8显示了Gemini Ultra在MMMU基准测试中的性能（Yue等人）。每个学科的2023年度。每个学科涵

盖多个科目，需要大学水平的知识和复杂的推理能力。

Gemini模型还能够同时处理多种模态和全球语言的任务，无论是图像理解任务（例如包含冰岛

文本的图像）还是生成任务（例如为多种语言生成图像描述）。我们在Crossmodal- 3600（XM-

3600）基准测试的选定语言子集上使用Flamingo评估协议（Alayrac等人，2018）在4-shot设置下

评估生成图像描述的性能。英语视频字幕如表9所示，Gemini模型相比现有最佳模型Google PaLI-

X取得了显著的改进。

XM-3600（CIDER）Gemini Ultra

4-射击

Gemini

Pro 4-

shot

Google

PaLI-X 4

射击

英语 86.4 87.1 77.8

法语 77.9 76.7 62.5

Hindi 31.1 29.8 22.2

现代希伯来语 54.5 52.6 38.7

罗马尼亚语 39.0 37.7 30.2

泰国86.7 77.0 56.0

中文 33.3 30.2 27.7

平均（7个） 58.4 55.9 45.0

表9 多语言图像理解Gemini模型在XM-3600数据集的部分语言上，在为图像加标题的任务上胜过现

有模型（Thapliyal等人）。2022年）。

6MathVista是一个包含28个先前发布的多模态数据集和三个新创建的数据集的综合数学推理基

剩余79页未读，继续阅读

猫头虎

粉丝: 35w+
资源: 622

Gemini：Google的高性能多模态模型家族

微软AI大模型Gemini功能强大的多模态模型2023英文版50页

多模态

如何理解Gemini双子座多模态模型在跨模态推理和语言理解方面的能力？

gemini-snippets:一系列Sublime Text片段，可加快Gemini CSS和Gemini JS的开发速度

gemini-notes:双子座PDA笔记

gemini-oj:双子座在线裁判

双子座：:skull::skull::skull:[不推荐使用]使用赫敏

通过Gemini双子座模型生成式AI检测图像

gemini:双子座设计系统

双子座：探索遗传变异的轻量级数据库框架

最新资源