Requête avec des fichiers multimédias

<ph type="x-smartling-placeholder"></ph>


Afficher sur ai.google.dev Exécuter dans Google Colab Consulter le code source sur GitHub

L'API Gemini accepte les requêtes comportant du texte, des images, de l'audio et de la vidéo, appelées requêtes multimodales, qui vous permettent d'inclure dans vos requêtes. Pour les petits fichiers, vous pouvez pointer directement vers le modèle Gemini dans un fichier local lors de l'envoi d'une requête. Importez des fichiers plus volumineux grâce à l'icône Fichier API avant de les inclure requêtes.

L'API File vous permet de stocker jusqu'à 20 Go de fichiers par projet, mais aucun fichier de plus de 2 Go. Les fichiers sont stockés pendant 48 heures et sont accessibles via votre clé API pour être générée au cours de cette période et ne peut pas être téléchargée ; depuis l'API. L'API Files est disponible sans frais dans toutes les régions où L'API Gemini est disponible.

L'API File gère les entrées qui peuvent être utilisées pour générer du contenu avec model.generateContent ou model.streamGenerateContent. Pour plus d'informations sur formats de fichiers valides (types MIME) et modèles pris en charge, voir la section Fichier pris en charge formats.

Ce guide explique comment utiliser l'API File pour importer des fichiers multimédias et les inclure dans un appel GenerateContent à l'API Gemini. Pour en savoir plus, consultez les code exemples de code.

Formats de fichiers acceptés

Les modèles Gemini acceptent les requêtes comportant plusieurs formats de fichiers. Cette section explique comment utiliser les formats médias généraux pour les requêtes, en particulier les fichiers image, audio, vidéo et en texte brut. Vous pouvez utiliser des fichiers multimédias pour envoyer des requêtes uniquement avec des versions de modèles spécifiques, comme illustré tableau.

Modèle Images Audio Vidéo Texte brut
Gemini 1.5 Pro (versions 008 et ultérieures) ✔ (3 600 fichiers image au maximum)

Formats illustrés

Vous pouvez utiliser des données d'image pour envoyer des requêtes avec les modèles Gemini 1.5. Lorsque vous utilisez des images pour les requêtes, ils sont soumis aux limites et exigences suivantes:

  • Les images doivent se trouver dans l'une des données d'image MIME d'assistance:
    • PNG : image/png
    • JPEG : image/jpeg
    • WEBP : Image/webp
    • HEIC : image/heic
    • HEIF : image/heif
  • 3 600 images maximum pour les modèles Gemini 1.5.
  • Aucune limite spécifique au nombre de pixels dans une image ; mais les plus grands Les images sont réduites pour s'adapter à une résolution maximale de 3 072 x 3 072, tandis que en conservant leur format d'origine.

Formats audio

Vous pouvez utiliser des données audio pour envoyer des requêtes avec les modèles Gemini 1.5. Lorsque vous utilisez l'audio pour les requêtes, ils sont soumis aux limites suivantes et configuration requise:

  • Les données audio sont compatibles avec le format audio courant suivant : MIME d'assistance:
    • WAV – audio/wav
    • MP3 (audio/mp3)
    • AIFF : audio/aiff
    • AAC : audio/aac
    • OGG Vorbis – audio/ogg
    • FLAC (audio/flac)
  • La durée maximale autorisée pour les données audio dans une seule requête est de 9,5 heures.
  • Les fichiers audio sont rééchantillonnés à une résolution de données de 16 kbit/s, et plusieurs canaux audio sont combinés en un seul canal.
  • Il n'y a pas de limite spécifique au nombre de fichiers audio dans une seule requête ; Toutefois, la longueur totale combinée de tous les fichiers audio dans une seule requête ne doit pas dépasser 9,5 heures.

Formats vidéo

Vous pouvez utiliser des données vidéo pour envoyer des requêtes avec les modèles Gemini 1.5.

  • Les données vidéo sont compatibles avec le format vidéo courant MIME d'assistance:

    • video/mp4
    • video/mpeg
    • vidéo/mov
    • vidéo/avi
    • vidéo/x-flv
    • vidéo/mpg
    • vidéo/webm
    • Vidéo/WMV
    • vidéo/3gpp
  • Le service de l'API File échantillonne des vidéos dans des images à une fréquence d'images par seconde (FPS) et sont susceptibles d'être modifiés afin de fournir la meilleure qualité d'inférence. Les images individuelles occupent 258 jetons, quelle que soit la résolution et qualité.

Formats en texte brut

L'API File permet d'importer des fichiers en texte brut avec les types MIME suivants:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • texte/csv
  • texte/Markdown
  • text/x-python
  • application/x-python-code
  • application/json
  • texte/xml
  • application/rtf
  • texte/rtf

Pour les fichiers en texte brut dont le type MIME ne figure pas dans la liste, vous pouvez essayer de spécifier manuellement l'un des types MIME ci-dessus.