Meminta dengan file media


Lihat di ai.google.dev Berjalan di Google Colab Lihat sumber di GitHub

Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang disebut sebagai multimodal prompting, artinya Anda bisa menyertakan jenis dalam perintah Anda. Untuk file kecil, Anda dapat langsung mengarahkan model Gemini ke file lokal saat memberikan prompt. Unggah file yang lebih besar dengan File API sebelum menyertakannya dalam prompt.

API File memungkinkan Anda menyimpan file hingga 20 GB per project, berukuran lebih dari 2 GB. File disimpan selama 48 jam dan dapat diakses dengan kunci API Anda untuk pembuatan dalam jangka waktu tersebut dan tidak dapat didownload dari API. Files API tersedia secara gratis di semua region Gemini API tersedia.

File API menangani input yang dapat digunakan untuk menghasilkan konten dengan model.generateContent atau model.streamGenerateContent. Untuk mengetahui informasi tentang format file yang valid (jenis MIME) dan model yang didukung, lihat File yang didukung format file.

Panduan ini menunjukkan cara menggunakan File API untuk mengupload file media dan menyertakannya dalam panggilan GenerateContent ke Gemini API. Untuk informasi selengkapnya, lihat kode contoh.

Format file yang didukung

Model Gemini mendukung pembuatan perintah dengan berbagai format file. Bagian ini menjelaskan pertimbangan dalam menggunakan format media umum untuk prompting, khususnya file gambar, audio, video, dan teks biasa. Anda dapat menggunakan file media untuk meminta perintah hanya dengan versi model tertentu, seperti ditunjukkan dalam tabel sementara.

Model Gambar Audio Video Teks biasa
Gemini 1.5 Pro (rilis 008 dan yang lebih baru) ✔ (file gambar maksimal 3600)

Format gambar

Anda dapat menggunakan data gambar untuk membuat perintah dengan model Gemini 1.5. Saat Anda menggunakan gambar untuk memberikan perintah, terdapat batasan dan persyaratan berikut:

  • Gambar harus ada dalam salah satu data gambar berikut MIME jenis:
    • PNG - gambar/png
    • JPEG - gambar/jpeg
    • WEBP - gambar/webp
    • HEIC - image/heic
    • HEIF - gambar/heif
  • Maksimum 3600 gambar untuk model Gemini 1.5.
  • Tidak ada batasan khusus untuk jumlah {i>pixel<i} dalam sebuah gambar; namun, lebih besar gambar diperkecil agar sesuai dengan resolusi maksimum 3072 x 3072 sambil mempertahankan rasio aspek aslinya.

Format audio

Anda dapat menggunakan data audio untuk membuat perintah dengan model Gemini 1.5. Saat Anda menggunakan audio untuk perintah, mereka tunduk pada batasan-batasan berikut persyaratan:

  • Data audio didukung dalam format audio umum berikut MIME jenis:
    • WAV - audio/wav
    • MP3 - audio/mp3
    • AIFF - audio/aiff
    • AAC - audio/aac
    • OGG Vorbis - audio/ogg
    • FLAC - audio/flac
  • Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam.
  • File audio diambil ulang sampelnya menjadi resolusi data 16 Kbps, dan beberapa saluran audio yang digabungkan menjadi satu saluran.
  • Tidak ada batasan khusus jumlah file audio dalam satu perintah; Namun, total panjang gabungan semua file audio dalam satu prompt tidak boleh lebih dari 9,5 jam.

Format video

Anda dapat menggunakan data video untuk membuat perintah dengan model Gemini 1.5.

  • Data video didukung dalam format video umum berikut MIME jenis:

    • video/mp4
    • video/mpeg
    • video/mov
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/wmv
    • video/3gpp
  • Layanan File API mengambil sampel video ke dalam gambar pada 1 frame per detik (FPS) dan mungkin dapat berubah untuk memberikan kualitas inferensi terbaik. Setiap gambar menggunakan 258 token terlepas dari resolusi dan {i>sandwich<i} itu.

Format teks biasa

File API mendukung upload file teks biasa dengan jenis MIME berikut:

  • text/plain
  • text/html
  • text/css
  • teks/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • teks/csv
  • teks/markdown
  • text/x-python
  • application/x-python-code
  • aplikasi/json
  • teks/xml
  • application/rtf
  • teks/rtf

Untuk file teks biasa dengan jenis MIME tidak ada dalam daftar, Anda dapat mencoba menentukan salah satu jenis MIME di atas secara manual.