הנחיות עם קובצי מדיה


להצגה ב-ai.google.dev הפעלה ב-Google Colab הצגת המקור ב-GitHub

Gemini API תומך ביצירת הנחיות עם נתונים של טקסט, תמונה, אודיו ווידאו, גם שנקראות 'הנחיות ריבוי מצבים', כלומר אפשר לכלול את סוגי המדיה האלה. בהנחיות שלכם. בקבצים קטנים, אפשר לכוון את מודל Gemini ישירות לקובץ מקומי כשנשלחת הנחיה. העלה קבצים גדולים יותר באמצעות הקובץ API לפני שכוללים אותם הנחיות.

באמצעות File API אפשר לאחסן עד 20GB של קבצים לכל פרויקט, כשכל קובץ לא שגודלם עולה על 2GB. הקבצים מאוחסנים למשך 48 שעות ואפשר לגשת אליהם באמצעות את מפתח ה-API ליצירה במהלך התקופה הזו ולא ניתן להוריד אותו מה-API. Files API זמין ללא עלות בכל האזורים שבהם Gemini API זמין.

ה-File API מטפל בקלט שניתן להשתמש בו כדי ליצור תוכן עם model.generateContent או model.streamGenerateContent. לקבלת מידע על פורמטים חוקיים של קבצים (סוגי MIME) ודגמים נתמכים. מידע נוסף זמין בקטע קובץ נתמך הפורמטים.

במדריך הזה מוסבר איך להשתמש ב-File API כדי להעלות קובצי מדיה ולכלול אותם קריאה של GenerateContent ל-Gemini API. מידע נוסף זמין במאמר קוד דוגמאות.

פורמטי קבצים נתמכים

המודלים של Gemini תומכים ביצירת הנחיות בכמה פורמטים של קבצים. הקטע הזה מסביר את השיקולים בשימוש בפורמטים כלליים של מדיה ליצירת הנחיות, במיוחד קובצי תמונה, אודיו, וידאו וטקסט פשוט. אפשר להשתמש בקובצי מדיה להנחיות רק עם גרסאות ספציפיות של המודל, כמו בדוגמה הבאה טבלה.

מודל תמונות אודיו סרטון טקסט פשוט
Gemini 1.5 Pro (גרסה 008 ואילך) ✔ (3,600 קובצי תמונה לכל היותר)

פורמטים של תמונות

אתם יכולים להשתמש בנתוני תמונה כדי ליצור הנחיות במודלים של Gemini 1.5. כשמשתמשים בתמונות לקבלת הנחיות, הם כפופים למגבלות ולדרישות הבאות:

  • התמונות חייבות להיות באחד מנתוני התמונה הבאים MIME types:
    • PNG - תמונה/png
    • JPEG - תמונה/jpeg
    • WEBP - תמונה/webp
    • HEIC - תמונה/heic
    • HEIF – תמונה/heif
  • עד 3,600 תמונות במודלים של Gemini 1.5.
  • אין מגבלות ספציפיות למספר הפיקסלים בתמונה; אבל גדולה יותר התמונות מוקטנות כך שיתאימו לרזולוציה מקסימלית של 3072 x 3072 שימור ביחס הגובה-רוחב המקורי שלהם.

פורמטים של אודיו

במודלים של Gemini 1.5, אתם יכולים להשתמש בנתוני אודיו ליצירת הנחיות. כשמשתמשים של אודיו להנחיות, הם כפופים למגבלות הבאות דרישות:

  • נתוני האודיו נתמכים בפורמט האודיו הנפוץ הבא: MIME types:
    • WAV – אודיו/WAV
    • MP3 - אודיו/mp3
    • AIFF - אודיו/aiff
    • AAC – אודיו/aac
    • OGG Vorbis – אודיו/ogg
    • FLAC – אודיו/flac
  • האורך המקסימלי הנתמך של נתוני אודיו בהנחיה יחידה הוא 9.5 שעות.
  • קובצי האודיו נדגמים מחדש ברזולוציית נתונים של 16 Kbps, ובמספר פורמטים ערוצי אודיו משולבים לערוץ אחד.
  • אין הגבלה ספציפית על מספר קובצי האודיו בהנחיה אחת. עם זאת, האורך הכולל של כל קובצי האודיו בהנחיה אחת לא יכול לחרוג מ-9.5 שעות.

פורמטים של סרטונים

במודלים של Gemini 1.5, אתם יכולים להשתמש בנתונים של סרטונים כדי ליצור הנחיות.

  • נתוני וידאו נתמכים בפורמט הווידאו הנפוץ MIME הבא types:

    • video/mp4
    • video/mpeg
    • וידאו/mov
    • וידאו/avi
    • סרטון/x-flv
    • וידאו/mpg
    • וידאו/אינטרנט
    • סרטון/wmv
    • וידאו/3gpp
  • שירות File API דגום סרטונים לתמונות בקצב של פריים לשנייה (FPS) ועשויים להשתנות כדי לספק את איכות ההסקה הטובה ביותר. תמונות בודדות משתמשות ב-258 אסימונים ללא קשר לרזולוציה באיכות גבוהה.

פורמטים של טקסט פשוט

ה-File API תומך בהעלאה של קובצי טקסט פשוט עם סוגי ה-MIME הבאים:

  • טקסט/פשוט
  • text/html
  • טקסט/CSS
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • טקסט/csv
  • טקסט/סימון
  • text/x-python
  • application/x-python-code
  • application/json
  • טקסט/XML
  • application/rtf
  • טקסט/rtf

בקובצי טקסט פשוט שסוג MIME לא מופיע ברשימה, אפשר לנסות לציין אחד מסוגי ה-MIME שלמעלה.