メディア ファイルを使用したプロンプト


ai.google.dev で表示 Google Colab で実行 GitHub のソースを表示

Gemini API は、テキスト、画像、音声、動画データを使用したプロンプトをサポートしています。 マルチモーダル プロンプトと呼ばれます。つまり、これらのタイプのメディアを 使用できます。サイズの小さいファイルの場合は、Gemini モデルを直接指定できます ローカル ファイルにエクスポートできます。[ファイル API で使用する前に、 プロンプトが表示されます。

File API を使用すると、プロジェクトごとに最大 20 GB のファイルを保存でき、 サイズが 2 GB を超えることはありません。ファイルは 48 時間保存され、 ダウンロードできません。 使用できます。Files API は、 Gemini API を利用できます

File API は、テキスト メッセージを使ってコンテンツを生成するために使用できる入力を model.generateContent または model.streamGenerateContent。詳細については、 有効なファイル形式(MIME タイプ)とサポートされているモデルについては、サポートされているファイル 形式をご覧ください。

このガイドでは、File API を使用してメディア ファイルをアップロードし、インクルードする方法について説明します。 GenerateContent 呼び出しで Gemini API を呼び出します。詳しくは、 コード サンプルをご覧ください。

サポートされているファイル形式

Gemini のモデルは、複数のファイル形式を使用したプロンプトをサポートしています。このセクション 一般的なメディア形式を使用する際の考慮事項について説明します。 具体的には 画像、音声、動画、書式なしテキスト ファイルです。メディア ファイルを使用できます。 以下に示すように、特定のモデル バージョンでのみプロンプトを 表します

モデル 画像 音声 動画 書式なしテキスト
Gemini 1.5 Pro(リリース 008 以降) ✔(画像ファイルの最大サイズは 3,600)

画像形式

Gemini 1.5 モデルでは、プロンプトに画像データを使用できます。画像を使用する場合 使用する場合、次の制限と要件が適用されます。

  • 画像は、次のいずれかの画像データ MIME である必要があります。 種類:
    • PNG - image/png
    • .JPEG - 画像 /jpeg
    • WEBP - 画像 /webp
    • HEIC - 画像 /heic
    • HEIF - 画像 /heif
  • Gemini 1.5 モデルの場合は最大 3,600 枚の画像。
  • 画像のピクセル数に特に制限はありません。ただし、 最大解像度 3072 x 3072 に合わせて縮小され、 元のアスペクト比が維持されます

オーディオ形式

Gemini 1.5 モデルでは、音声データを使用してプロンプトを作成できます。Google 使用する場合、次の制限が適用されます。 要件:

  • 音声データは、次の一般的な音声形式 MIME でサポートされています。 種類:
    • WAV - 音声/WAV
    • MP3 - 音声/mp3
    • AIFF - 音声/aiff
    • AAC - 音声/AAC
    • OGG Vorbis - 音声/ogg
    • FLAC - 音声/flac
  • 1 つのプロンプトでサポートされる音声データの最大長は 9.5 時間です。
  • 音声ファイルは 16 Kbps のデータ解像度に再サンプリングされ、 音声のチャンネルが 1 つのチャンネルに統合されます。
  • 1 つのプロンプトに含めることができる音声ファイルの数に特別な制限はありません。 ただし、1 つのプロンプトに含まれるすべての音声ファイルの合計長を 9.5 時間以下にしてください。

動画形式

Gemini 1.5 モデルでは、プロンプトに動画データを使用できます。

  • 動画データは、次の一般的な動画形式 MIME でサポートされています。 種類:

    • video/mp4
    • video/mpeg
    • 動画/動画
    • 動画/AV
    • 動画/x-flv
    • 動画/mpg
    • 動画/WebM
    • 動画/MV
    • 動画/3GPP
  • File API サービスは、動画を 1 フレーム/秒(FPS)で画像にサンプリングします。 最適な推論品質を提供するために変更される場合があります。 解像度や解像度に関係なく、個々の画像は 258 個のトークンを使用します。 向上します

書式なしテキスト形式

File API では、次の MIME タイプの書式なしテキスト ファイルをアップロードできます。

  • text/plain
  • text/html
  • text/css
  • テキスト/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • text/csv
  • テキスト/マークダウン
  • text/x-python
  • application/x-python-code
  • application/json
  • テキスト/xml
  • application/rtf
  • テキスト/RTF

MIME タイプがリストにない書式なしテキスト ファイルの場合は、 手動で指定する必要があります。