Aufforderung mit Mediendateien


Auf ai.google.dev ansehen In Google Colab ausführen Quelle auf GitHub ansehen

Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten sowie nennt sich multimodale Aufforderungen, d. h., Sie können diese Medientypen in deinen Prompts. Bei kleinen Dateien können Sie das Gemini-Modell direkt festlegen in eine lokale Datei hochladen, wenn Sie einen Prompt eingeben. Größere Dateien können Sie mit der Schaltfläche Datei API vor der Einbindung in Aufforderungen.

Mit der File API können Sie bis zu 20 GB an Dateien pro Projekt speichern, wobei jede Datei nicht größer als 2 GB ist. Dateien werden 48 Stunden gespeichert und können über Ihren API-Schlüssel für die Generierung innerhalb dieses Zeitraums und kann nicht heruntergeladen werden von der API aus. Die Files API ist in allen Regionen kostenlos verfügbar, in denen Gemini API ist verfügbar.

Die File API verarbeitet Eingaben, die zum Generieren von Inhalten mit model.generateContent oder model.streamGenerateContent. Informationen zur gültige Dateiformate (MIME-Typen) und unterstützte Modelle finden Sie unter Unterstützte Formate

In diesem Leitfaden erfahren Sie, wie Sie mithilfe der File API Mediendateien hochladen und einbinden in einem GenerateContent-Aufruf an die Gemini API. Weitere Informationen finden Sie in der Code Beispiele.

Unterstützte Dateiformate

Gemini-Modelle unterstützen Prompts in mehreren Dateiformaten. Dieser Abschnitt werden Überlegungen zur Nutzung allgemeiner Medienformate für Prompts, insbesondere Bild-, Audio-, Video- und Nur-Text-Dateien. Du kannst Mediendateien verwenden für Prompts nur mit bestimmten Modellversionen, wie im Folgenden gezeigt .

Modell Bilder Audio Video Nur-Text
Gemini 1.5 Pro (Version 008 und höher) ✔ (max. 3.600 Bilddateien)

Bildformate

Sie können Bilddaten für Prompts in Gemini 1.5-Modellen verwenden. Wenn Sie Bilder verwenden unterliegen den folgenden Einschränkungen und Anforderungen:

  • Bilder müssen in einem der folgenden Bilddaten vorliegen: MIME Typen:
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • Maximal 3.600 Bilder für die Gemini 1.5-Modelle.
  • Keine spezifische Beschränkung der Pixelanzahl in einem Bild größere Bilder auf eine maximale Auflösung von 3072 x 3072 verkleinert, während Das ursprüngliche Seitenverhältnis wird dabei beibehalten.

Audioformate

Sie können Audiodaten für Prompts bei Gemini 1.5-Modellen verwenden. Wenn Sie Audio für Prompts verwenden, unterliegen sie den folgenden Einschränkungen und Anforderungen:

  • Folgende Audioformate werden unterstützt: MIME Typen:
    • WAV – Audio/WAV
    • MP3 – Audio/MP3
    • AIFF – Audio/AIFF
    • AAC – Audio/AAC
    • OGG Vorbis – Audio/OGG
    • FLAC – Audio/FLAC
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden.
  • Audiodateien werden mit einer Datenauflösung von 16 Kbit/s werden zu einem einzigen Kanal zusammengefasst.
  • Die Anzahl der Audiodateien in einem einzelnen Prompt ist nicht begrenzt. Die Gesamtlänge aller Audiodateien in einem einzigen Prompt darf 9,5 Stunden nicht überschreiten.

Videoformate

Sie können Videodaten für Prompts mit den Gemini 1.5-Modellen verwenden.

  • Videodaten werden im folgenden gängigen Videoformat unterstützt: MIME Typen:

    • video/mp4
    • video/mpeg
    • Video/MOV
    • Video/AVI
    • Video/X-FLV
    • Video/mpg
    • Video/WebM
    • Video/WMV
    • Video/3GPP
  • Der File API-Dienst erstellt Videos mit einem Frame pro Sekunde (fps) und erstellt so Bilder. und kann sich ändern, um die beste Inferenzqualität zu erzielen. Einzelne Bilder benötigen unabhängig von Auflösung und die Qualität zu verbessern.

Nur-Text-Formate

Die File API unterstützt das Hochladen von Nur-Text-Dateien mit den folgenden MIME-Typen:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • text/csv
  • Text/Markierung
  • text/x-python
  • application/x-python-code
  • application/json
  • Text/XML
  • application/rtf
  • Text/RTF

Für reine Textdateien mit einem MIME-Typ, der nicht in der Liste aufgeführt ist, können Sie versuchen, einen der oben genannten MIME-Typen manuell.