使用媒體檔案提示


前往 ai.google.dev 查看 在 Google Colab 中執行 前往 GitHub 查看原始碼

Gemini API 支援透過文字、圖片、音訊和影片資料提示使用者 稱為多模態提示。也就是說,您可以將這些類型的媒體 檔案中的相關檔案若是小型檔案,可以直接指向 Gemini 模型 連結至本機檔案透過 File 上傳較大的檔案 API,再將其納入 提示

File API 可為每個專案儲存多達 20 GB 的檔案,但每個檔案 影片大小超過 2GB檔案可以保存 48 小時,並可透過以下裝置存取: 您的 API 金鑰在該時間範圍內產生,且無法下載 Files API 適用於 可使用 Gemini API

File API 會處理可用來產生內容的輸入內容 model.generateContentmodel.streamGenerateContent。如需深入瞭解 有效檔案格式 (MIME 類型) 和支援的模型,請參閱支援的檔案 格式

本指南說明如何使用 File API 上傳及加入媒體檔案 在對 Gemini API 發出的 GenerateContent 呼叫中觸發。詳情請參閱 程式碼 樣本

支援的檔案格式

Gemini 模型支援多種檔案格式的提示。這個區段 說明瞭使用一般媒體格式做為提示時的考量。 特別是圖片、音訊、影片和純文字檔案你可以使用媒體檔案 只提示特定模型版本,如下所示 表格。

型號 圖片 音訊 影片 純文字
Gemini 1.5 Pro (008 以上版本) ✔ (檔案大小上限為 3600)

圖片格式

Gemini 1.5 模型可以使用圖片資料來建立提示。使用圖片時 需要遵守下列限制和規定:

  • 圖片必須使用下列任一圖片資料 MIME 類型
    • PNG - 圖片/png
    • JPEG - 圖片/jpeg
    • WEBP - 圖片/Webp
    • HEIC - 圖片/堆積
    • HEIF - 圖片/heif
  • Gemini 1.5 模型最多可以有 3600 張圖片。
  • 圖片像素數量沒有明確限制;但大於 圖片會縮小以符合 3072 x 3072 的最大解析度 保留原始長寬比。

音訊格式

您可以在 Gemini 1.5 模型下,使用音訊資料建立提示。使用方法 您需要遵守下列限制 規定:

  • 下列常見的音訊格式 MIME 支援音訊資料 類型
    • WAV - 音訊/WAV
    • MP3 - 音訊/mp3
    • AIFF - 音訊/AI
    • AAC - 音訊/AAC
    • OGG Vorbis - 音訊/ogg
    • FLAC - 音訊/flac
  • 單一提示支援的音訊資料長度上限為 9.5 小時。
  • 音訊檔案會重新取樣至 16 Kbps 的資料解析度,且可有多個 所有音訊管道都會合併為單一聲道。
  • 單次提示中的音訊檔案數量並無具體限制。 然而,在單一提示中,所有音訊檔案的總長度 不得超過 9.5 小時。

影片格式

您可以使用影片資料,在 Gemini 1.5 模型生成提示。

  • 影片資料支援下列常見的影片格式 MIME 類型

    • video/mp4
    • 影片/mpeg
    • 影片/移動
    • 影片/avi
    • 影片/x-flv
    • 影片/mpg
    • 影片/Webm
    • 影片/每週
    • 影片/3gpp
  • File API 服務會將影片取樣為每秒 1 個影格 (FPS) 的圖片 為提供最佳推論品質,系統可能隨時可能變動。 無論解析度和解析度為何,個別映像檔都會包含 258 個符記 品質

純文字格式

File API 支援上傳下列 MIME 類型的純文字檔案:

  • 文字/純文字
  • 文字/html
  • 文字/css
  • 文字/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • 文字/csv
  • 文字/markdown
  • text/x-python
  • application/x-python-code
  • application/json
  • 文字/xml
  • application/rtf
  • 文字/rtf

針對清單未列出 MIME 類型的純文字檔案,您可以嘗試指定 手動其中一種 MIME 類型。