使用媒体文件进行提示

<ph type="x-smartling-placeholder"></ph>


前往 ai.google.dev 查看 在 Google Colab 中运行 在 GitHub 上查看源代码

Gemini API 支持使用文本、图片、音频和视频数据进行提示,还支持 这称为多模态提示,这意味着您可以将这些类型的媒体 文件。对于小型文件,您可以直接将 Gemini 模型指向 传递给本地文件。使用文件 API,然后再将其添加到 提示。

File API 可让您为每个项目存储多达 20GB 的文件,每个文件 超过 2 GB 的文件文件会存储 48 小时,并且可以通过 在该时间段内生成的 API 密钥且无法下载 。文件 API 在所有 Gemini API 现已推出

File API 可处理可用于生成内容的输入: model.generateContentmodel.streamGenerateContent。如需了解 有效的文件格式(MIME 类型)和支持的模型,请参阅支持的文件 格式

本指南介绍了如何使用 File API 上传和添加媒体文件 在对 Gemini API 的 GenerateContent 调用中生成模型。有关详情,请参阅 代码 示例

支持的文件格式

Gemini 模型支持以多种文件格式输入提示。此部分 解释了使用常规媒体格式进行提示时的注意事项, 具体来讲,就是图片、音频、视频和纯文本文件。您可以使用媒体文件 仅使用特定模型版本进行提示,如下所示 表格。

模型 图片 音频 视频 纯文本
Gemini 1.5 Pro(版本 008 及更高版本) ✔(最多 3600 个图片文件)

图片格式

您可以使用图片数据在 Gemini 1.5 模型中给出提示。当您使用图片时 使用提示时,需遵循以下限制和要求:

  • 图片必须采用以下某种图片数据 MIME 类型
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • Gemini 1.5 模型最多可上传 3600 张图片。
  • 对图片中的像素数没有特定限制;然而,更大的 图片会被缩小以适应 3072 x 3072 的最大分辨率,而 原始宽高比。

音频格式

在 Gemini 1.5 模型中,你可以使用音频数据来给出提示。使用 音频用于提示,则需遵循以下限制, 要求:

  • 音频数据支持以下常见音频格式 MIME 类型
    • WAV - audio/wav
    • MP3 - 音频/mp3
    • AIFF - audio/aiff
    • AAC - audio/aac
    • OGG Vorbis - 音频/ogg
    • FLAC - audio/flac
  • 单个提示中支持的音频数据长度上限为 9.5 小时。
  • 音频文件会进行重新采样并降至 16 Kbps 的数据分辨率,并且 多个音频声道合并为单个声道。
  • 单个提示中的音频文件数量没有具体限制; 但在一个提示中,所有音频文件的总长度 不能超过 9.5 小时。

视频格式

你可以使用视频数据在 Gemini 1.5 模型中给出提示。

  • 视频数据支持以下常见视频格式 MIME 类型

    • video/mp4
    • video/mpeg
    • 视频/移动
    • 视频/avi
    • 视频/X-flv
    • 视频/mpg
    • 视频/webm
    • 视频/wmv
    • 视频/3gpp
  • File API 服务会以每秒 1 帧 (FPS) 的速度将视频采样为图片 并且可能会发生变化,以提供最佳推理质量。 无论分辨率和分辨率如何,每张图片都会占用 258 个词元 质量。

纯文本格式

File API 支持上传具有以下 MIME 类型的纯文本文件:

  • text/plain
  • 文本/html
  • text/css
  • 文本/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • 文本/csv
  • 文本/markdown
  • text/x-python
  • application/x-python-code
  • application/json
  • 文本/xml
  • application/rtf
  • 文本/rtf

对于 MIME 类型不在列表中的纯文本文件,您可以尝试指定 上述任一 MIME 类型。