使用媒体文件进行提示

Gemini API 支持使用文本、图片、音频和视频数据进行提示，还支持这称为多模态提示，这意味着您可以将这些类型的媒体文件。对于小型文件，您可以直接将 Gemini 模型指向传递给本地文件。使用文件 API，然后再将其添加到提示。

File API 可让您为每个项目存储多达 20GB 的文件，每个文件超过 2 GB 的文件文件会存储 48 小时，并且可以通过在该时间段内生成的 API 密钥且无法下载。文件 API 在所有 Gemini API 现已推出。

File API 可处理可用于生成内容的输入： model.generateContent 或 model.streamGenerateContent。如需了解有效的文件格式（MIME 类型）和支持的模型，请参阅支持的文件格式。

本指南介绍了如何使用 File API 上传和添加媒体文件在对 Gemini API 的 GenerateContent 调用中生成模型。有关详情，请参阅代码示例。

支持的文件格式

Gemini 模型支持以多种文件格式输入提示。此部分解释了使用常规媒体格式进行提示时的注意事项，具体来讲，就是图片、音频、视频和纯文本文件。您可以使用媒体文件仅使用特定模型版本进行提示，如下所示表格。

模型	图片	音频	视频	纯文本
Gemini 1.5 Pro（版本 008 及更高版本）	✔（最多 3600 个图片文件）	✔	✔	✔

您可以使用图片数据在 Gemini 1.5 模型中给出提示。当您使用图片时使用提示时，需遵循以下限制和要求：

在 Gemini 1.5 模型中，你可以使用音频数据来给出提示。使用音频用于提示，则需遵循以下限制，要求：

你可以使用视频数据在 Gemini 1.5 模型中给出提示。

视频数据支持以下常见视频格式 MIME 类型：
- video/mp4
- video/mpeg
- 视频/移动
- 视频/avi
- 视频/X-flv
- 视频/mpg
- 视频/webm
- 视频/wmv
- 视频/3gpp
File API 服务会以每秒 1 帧 (FPS) 的速度将视频采样为图片并且可能会发生变化，以提供最佳推理质量。无论分辨率和分辨率如何，每张图片都会占用 258 个词元质量。

File API 支持上传具有以下 MIME 类型的纯文本文件：

对于 MIME 类型不在列表中的纯文本文件，您可以尝试指定上述任一 MIME 类型。