<ph type="x-smartling-placeholder">
![]() |
![]() |
![]() |
Gemini API 支持使用文本、图片、音频和视频数据进行提示,还支持 这称为多模态提示,这意味着您可以将这些类型的媒体 文件。对于小型文件,您可以直接将 Gemini 模型指向 传递给本地文件。使用文件 API,然后再将其添加到 提示。
File API 可让您为每个项目存储多达 20GB 的文件,每个文件 超过 2 GB 的文件文件会存储 48 小时,并且可以通过 在该时间段内生成的 API 密钥且无法下载 。文件 API 在所有 Gemini API 现已推出。
File API 可处理可用于生成内容的输入:
model.generateContent
或 model.streamGenerateContent
。如需了解
有效的文件格式(MIME 类型)和支持的模型,请参阅支持的文件
格式。
本指南介绍了如何使用 File API 上传和添加媒体文件
在对 Gemini API 的 GenerateContent
调用中生成模型。有关详情,请参阅
代码
示例。
支持的文件格式
Gemini 模型支持以多种文件格式输入提示。此部分 解释了使用常规媒体格式进行提示时的注意事项, 具体来讲,就是图片、音频、视频和纯文本文件。您可以使用媒体文件 仅使用特定模型版本进行提示,如下所示 表格。
模型 | 图片 | 音频 | 视频 | 纯文本 |
---|---|---|---|---|
Gemini 1.5 Pro(版本 008 及更高版本) | ✔(最多 3600 个图片文件) | ✔ | ✔ | ✔ |
图片格式
您可以使用图片数据在 Gemini 1.5 模型中给出提示。当您使用图片时 使用提示时,需遵循以下限制和要求:
- 图片必须采用以下某种图片数据 MIME
类型:
- PNG - image/png
- JPEG - image/jpeg
- WEBP - image/webp
- HEIC - image/heic
- HEIF - image/heif
- Gemini 1.5 模型最多可上传 3600 张图片。
- 对图片中的像素数没有特定限制;然而,更大的 图片会被缩小以适应 3072 x 3072 的最大分辨率,而 原始宽高比。
音频格式
在 Gemini 1.5 模型中,你可以使用音频数据来给出提示。使用 音频用于提示,则需遵循以下限制, 要求:
- 音频数据支持以下常见音频格式 MIME
类型:
- WAV - audio/wav
- MP3 - 音频/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - 音频/ogg
- FLAC - audio/flac
- 单个提示中支持的音频数据长度上限为 9.5 小时。
- 音频文件会进行重新采样并降至 16 Kbps 的数据分辨率,并且 多个音频声道合并为单个声道。
- 单个提示中的音频文件数量没有具体限制; 但在一个提示中,所有音频文件的总长度 不能超过 9.5 小时。
视频格式
你可以使用视频数据在 Gemini 1.5 模型中给出提示。
视频数据支持以下常见视频格式 MIME 类型:
- video/mp4
- video/mpeg
- 视频/移动
- 视频/avi
- 视频/X-flv
- 视频/mpg
- 视频/webm
- 视频/wmv
- 视频/3gpp
File API 服务会以每秒 1 帧 (FPS) 的速度将视频采样为图片 并且可能会发生变化,以提供最佳推理质量。 无论分辨率和分辨率如何,每张图片都会占用 258 个词元 质量。
纯文本格式
File API 支持上传具有以下 MIME 类型的纯文本文件:
- text/plain
- 文本/html
- text/css
- 文本/JavaScript
- application/x-javascript
- text/x-typescript
- application/x-typescript
- 文本/csv
- 文本/markdown
- text/x-python
- application/x-python-code
- application/json
- 文本/xml
- application/rtf
- 文本/rtf
对于 MIME 类型不在列表中的纯文本文件,您可以尝试指定 上述任一 MIME 类型。