Medya dosyalarıyla istemde bulunma


ai.google.dev'de görüntüleyin Google Colab'de çalıştır Kaynağı GitHub'da görüntüle

Gemini API, istemlerin yanı sıra metin, resim, ses ve video verilerini de çok modlu istem olarak bilinir, yani bu tür medyaları dosyalarından birini seçebilirsiniz. Küçük dosyalar için doğrudan Gemini modelini yerel bir dosyaya bağlayabilirsiniz. Dosya aracı ile daha büyük dosyalar API istemde bulunacaktır.

File API, proje başına 20 GB'a kadar dosya depolamanızı sağlar. Her dosya boyutu 2 GB'ı aşıyor. Dosyalar 48 saat boyunca saklanır ve aşağıdaki yöntemlerle erişilebilir: Bu süre içinde oluşturulacak API anahtarınız ve indirilemez Google Analytics 4'te tarama yapar. Files API, Gemini API kullanıma sunuldu.

File API, aşağıdakilerle içerik oluşturmak için kullanılabilecek girişleri işler: model.generateContent veya model.streamGenerateContent. Daha fazla bilgi için geçerli dosya biçimleri (MIME türleri) ve desteklenen modeller için Desteklenen dosya biçimindedir.

Bu kılavuzda, medya dosyalarını yüklemek ve eklemek için File API'nin nasıl kullanılacağı gösterilmektedir Gemini API'ye yapılan GenerateContent çağrısıyla. Daha fazla bilgi için kod örnekler.

Desteklenen dosya biçimleri

Gemini modelleri, birden fazla dosya biçimiyle istemleri destekler. Bu bölüm istemlerde bulunmak için genel medya biçimlerinin kullanımıyla ilgili özellikle görüntü, ses, video ve düz metin dosyaları. Medya dosyalarını kullanabilirsiniz aşağıda gösterildiği gibi, yalnızca belirli model sürümleriyle istemde bulunmak için kullanılır tablosunu oluşturalım.

Model Resimler Ses Video Düz metin
Gemini 1.5 Pro (sürüm 008 ve sonraki sürümler) ✔ (maksimum 3.600 resim dosyası)

Resim biçimleri

Gemini 1.5 modelleriyle istemde bulunmak için resim verilerini kullanabilirsiniz. Resimleri kullandığınızda aşağıdaki sınırlamalara ve şartlara tabidir:

  • Resimler aşağıdaki resim verilerinden (MIME) birinde olmalıdır türler:
    • PNG - resim/png
    • JPEG - resim/jpeg
    • WEBP - resim/webp
    • HEIC - resim/heik
    • HEIF - resim/heif
  • Gemini 1.5 modelleri için maksimum 3.600 resim.
  • Bir resimdeki piksel sayısıyla ilgili belirli bir sınırlama yoktur; ancak, daha büyük resimler maksimum 3072 x 3072 çözünürlüğe sığacak şekilde küçültülürken korunduğundan emin olun.

Ses biçimleri

Gemini 1.5 modelleriyle istemde bulunmak için ses verilerini kullanabilirsiniz. Bunu kullandığınızda sesler ve istemler aşağıdaki sınırlamalara tabidir: koşullar:

  • Ses verileri şu yaygın ses biçiminde desteklenir: MIME türler:
    • WAV - ses/wav
    • MP3 - ses/mp3
    • AIFF - ses/aiff
    • AAC - ses/aac
    • OGG Vorbis - ses/ogg
    • FLAC - ses/flac
  • Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir.
  • Ses dosyaları 16 Kb/sn veri çözünürlüğüne indirilerek yeniden örneklenir ve birden fazla ses kanalları tek bir kanalda birleştirilir.
  • Tek bir istemdeki ses dosyası sayısıyla ilgili belirli bir sınır yoktur; ancak tek bir istemdeki tüm ses dosyalarının toplam uzunluğu 9,5 saatten fazla olamaz.

Video biçimleri

Gemini 1.5 modelleriyle istem göndermek için video verilerini kullanabilirsiniz.

  • Video verileri şu yaygın video biçiminde desteklenir: MIME türler:

    • video/mp4
    • video/mpeg
    • video/taşıma
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/wmv
    • video/3Gpp
  • File API hizmeti, videoları saniyede 1 kare (FPS) hızında görüntüler halinde örnekler ve en iyi çıkarım kalitesini sağlamak için değiştirilebilir. Çözünürlükten bağımsız olarak tek tek resimler 258 jeton alır ve kalitedir.

Düz metin biçimleri

File API, aşağıdaki MIME türlerine sahip düz metin dosyalarının yüklenmesini destekler:

  • metin/düz
  • text/html
  • metin/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • metin/csv
  • metin/işaretleme
  • text/x-python
  • application/x-python-code
  • application/json
  • metin/xml
  • application/rtf
  • metin/rtf

Listede olmayan MIME türüne sahip düz metin dosyaları için yukarıdaki MIME türlerinden birini manuel olarak gönderin.