Pytania dotyczące plików multimedialnych


Wyświetl na ai.google.dev Uruchom w Google Colab Wyświetl źródło w GitHubie

Gemini API obsługuje również prompty zawierające dane tekstowe, graficzne, dźwiękowe i wideo, są znane jako prompty multimodalne, co oznacza, że można uwzględniać te typy multimediów w plikach promptów. W przypadku małych plików możesz wskazać model Gemini bezpośrednio do pliku lokalnego. Przesyłaj większe pliki za pomocą polecenia File API. prompty.

Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym żaden z nich nie przekraczające 2 GB. Pliki są przechowywane przez 48 godzin i można je otworzyć za pomocą swojego klucza interfejsu API do wygenerowania w tym okresie i nie można go pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których Gemini API jest dostępny.

Interfejs File API obsługuje dane wejściowe, których można używać do generowania treści model.generateContent lub model.streamGenerateContent. Informacje na temat: prawidłowe formaty plików (typy MIME) i obsługiwane modele znajdziesz w sekcji Obsługiwane formaty plików .

Z tego przewodnika dowiesz się, jak przesyłać i uwzględniać pliki multimedialne za pomocą interfejsu File API w wywołaniu interfejsu GenerateContent do interfejsu Gemini API. Więcej informacji: kod Sample.

Obsługiwane formaty plików

Modele Gemini obsługują prompty w różnych formatach plików. Ta sekcja Wyjaśniamy, dlaczego warto używać ogólnych formatów multimedialnych w przypadku promptów w szczególności pliki graficzne, audio, wideo i zwykły tekst. Możesz używać plików multimedialnych do wyświetlania promptów tylko z określonymi wersjami modelu, jak w tym przykładzie tabeli.

Model Obrazy Dźwięk Film Zwykły tekst
Gemini 1.5 Pro (wersja 008 i nowsze) ✔ (pliki graficzne obsługujące maks. 3600 pikseli)

Formaty graficzne

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych graficznych. Gdy używasz obrazów podlegają tym ograniczeniom i wymaganiom:

  • Obrazy muszą być w jednym z tych danych: MIME :
    • PNG – obraz/png
    • JPEG – obraz/jpeg
    • WEBP – obraz/webp
    • HEIC – image/heic
    • HEIF – obraz/heif
  • Maksymalnie 3600 obrazów w przypadku modeli Gemini 1.5.
  • nie ma żadnych ograniczeń liczby pikseli na obrazie; jednak większy, obrazy są zmniejszane, by zmieścić się w maksymalnej rozdzielczości 3072 x 3072 z zachowaniem pierwotnego formatu obrazu.

Formaty audio

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych dźwiękowych. Jeśli używasz audio na potrzeby promptów, podlegają tym ograniczeniom i: wymagania:

  • Dane audio są obsługiwane w następującym popularnym formacie audio: MIME :
    • WAV – audio/WAV
    • MP3 – audio/mp3
    • AIFF – audio/aiff
    • AAC – audio/AAC
    • OGG Vorbis – audio/ogg
    • FLAC – audio/flac
  • Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny.
  • Pliki audio są przepróbkowane do rozdzielczości danych 16 kb/s. kanałów audio są połączone w jeden kanał.
  • Nie ma limitu liczby plików audio w jednym promptie. jednak łączna długość wszystkich plików audio w pojedynczym prompcie nie może przekraczać 9,5 godziny.

Formaty reklam w kampaniach wideo

Do wyświetlania promptów w modelach Gemini 1.5 możesz używać danych wideo.

  • Dane wideo są obsługiwane w następującym popularnym formacie wideo: MIME :

    • video/mp4
    • video/mpeg
    • wideo/ruchome
    • wideo/avi
    • wideo/x-flv
    • film/mpg
    • wideo/webm
    • wideo/wmv
    • wideo/3GPP
  • Usługa File API tworzy próbki filmów z szybkością 1 klatki na sekundę (FPS). i może ulec zmianie, aby zapewnić jak najlepszą jakość wnioskowania. Pojedyncze zdjęcia zajmują 258 tokenów niezależnie od rozdzielczości jakości.

Formaty zwykłego tekstu

Interfejs File API obsługuje przesyłanie zwykłych plików tekstowych w tych typach MIME:

  • tekstowa/zwykły
  • text/html
  • tekst/CSS
  • tekst/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • tekst/csv
  • tekst/znaczniki
  • text/x-python
  • application/x-python-code
  • application/json
  • tekst/xml
  • application/rtf
  • tekst/rtf

W przypadku plików tekstowych o typie MIME, którego nie ma na liście, możesz spróbować podać wartość 1 z tych typów MIME.