![]() |
![]() |
![]() |
Gemini API 支援透過文字、圖片、音訊和影片資料提示使用者 稱為多模態提示。也就是說,您可以將這些類型的媒體 檔案中的相關檔案若是小型檔案,可以直接指向 Gemini 模型 連結至本機檔案透過 File 上傳較大的檔案 API,再將其納入 提示
File API 可為每個專案儲存多達 20 GB 的檔案,但每個檔案 影片大小超過 2GB檔案可以保存 48 小時,並可透過以下裝置存取: 您的 API 金鑰在該時間範圍內產生,且無法下載 Files API 適用於 可使用 Gemini API。
File API 會處理可用來產生內容的輸入內容
model.generateContent
或 model.streamGenerateContent
。如需深入瞭解
有效檔案格式 (MIME 類型) 和支援的模型,請參閱支援的檔案
格式。
本指南說明如何使用 File API 上傳及加入媒體檔案
在對 Gemini API 發出的 GenerateContent
呼叫中觸發。詳情請參閱
程式碼
樣本。
支援的檔案格式
Gemini 模型支援多種檔案格式的提示。這個區段 說明瞭使用一般媒體格式做為提示時的考量。 特別是圖片、音訊、影片和純文字檔案你可以使用媒體檔案 只提示特定模型版本,如下所示 表格。
型號 | 圖片 | 音訊 | 影片 | 純文字 |
---|---|---|---|---|
Gemini 1.5 Pro (008 以上版本) | ✔ (檔案大小上限為 3600) | ✔ | ✔ | ✔ |
圖片格式
Gemini 1.5 模型可以使用圖片資料來建立提示。使用圖片時 需要遵守下列限制和規定:
- 圖片必須使用下列任一圖片資料 MIME
類型:
- PNG - 圖片/png
- JPEG - 圖片/jpeg
- WEBP - 圖片/Webp
- HEIC - 圖片/堆積
- HEIF - 圖片/heif
- Gemini 1.5 模型最多可以有 3600 張圖片。
- 圖片像素數量沒有明確限制;但大於 圖片會縮小以符合 3072 x 3072 的最大解析度 保留原始長寬比。
音訊格式
您可以在 Gemini 1.5 模型下,使用音訊資料建立提示。使用方法 您需要遵守下列限制 規定:
- 下列常見的音訊格式 MIME 支援音訊資料
類型:
- WAV - 音訊/WAV
- MP3 - 音訊/mp3
- AIFF - 音訊/AI
- AAC - 音訊/AAC
- OGG Vorbis - 音訊/ogg
- FLAC - 音訊/flac
- 單一提示支援的音訊資料長度上限為 9.5 小時。
- 音訊檔案會重新取樣至 16 Kbps 的資料解析度,且可有多個 所有音訊管道都會合併為單一聲道。
- 單次提示中的音訊檔案數量並無具體限制。 然而,在單一提示中,所有音訊檔案的總長度 不得超過 9.5 小時。
影片格式
您可以使用影片資料,在 Gemini 1.5 模型生成提示。
影片資料支援下列常見的影片格式 MIME 類型:
- video/mp4
- 影片/mpeg
- 影片/移動
- 影片/avi
- 影片/x-flv
- 影片/mpg
- 影片/Webm
- 影片/每週
- 影片/3gpp
File API 服務會將影片取樣為每秒 1 個影格 (FPS) 的圖片 為提供最佳推論品質,系統可能隨時可能變動。 無論解析度和解析度為何,個別映像檔都會包含 258 個符記 品質
純文字格式
File API 支援上傳下列 MIME 類型的純文字檔案:
- 文字/純文字
- 文字/html
- 文字/css
- 文字/JavaScript
- application/x-javascript
- text/x-typescript
- application/x-typescript
- 文字/csv
- 文字/markdown
- text/x-python
- application/x-python-code
- application/json
- 文字/xml
- application/rtf
- 文字/rtf
針對清單未列出 MIME 類型的純文字檔案,您可以嘗試指定 手動其中一種 MIME 類型。