الطلب باستخدام ملفات الوسائط


العرض على ai.google.dev التنفيذ في Google Colab عرض المصدر على GitHub

تتيح واجهة Gemini API أيضًا إرسال الطلبات باستخدام بيانات النصوص والصور والصوت والفيديو، التي تُعرف باسم المطالبة متعددة الوسائط، ما يعني أنه يمكنك تضمين هذه الأنواع من الوسائط الملفات في طلباتك. بالنسبة إلى الملفات الصغيرة، يمكنك توجيه نموذج Gemini مباشرةً إلى ملف محلي عند تقديم طلب. تحميل ملفات أكبر حجمًا باستخدام الملف من واجهة برمجة التطبيقات قبل تضمينها في الطلبات.

تتيح لك واجهة برمجة التطبيقات File API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع على حدة يتجاوز حجمه 2 جيجا بايت. يتم تخزين الملفات لمدة 48 ساعة ويمكن الوصول إليها باستخدام مفتاح واجهة برمجة التطبيقات الخاص بك ليتم إنشاؤه خلال هذه الفترة الزمنية ولا يمكن تنزيله من واجهة برمجة التطبيقات. تتوفر واجهة برمجة التطبيقات Files API مجانًا في جميع المناطق التي تتوفر فيها تتوفّر واجهة برمجة التطبيقات Gemini API.

تعالج واجهة File API الإدخالات التي يمكن استخدامها لإنشاء محتوى باستخدام model.generateContent أو model.streamGenerateContent للحصول على معلومات عن تنسيقات الملفات الصالحة (أنواع MIME) والنماذج المتوافقة، يُرجى الاطّلاع على الملف المتوافق والتنسيقات.

يوضّح هذا الدليل كيفية استخدام File API لتحميل ملفات الوسائط وتضمينها. في طلب GenerateContent لواجهة Gemini API. لمزيد من المعلومات، يُرجى الاطّلاع على رمز النماذج.

تنسيقات الملفات المعتمدة

تتيح طُرز Gemini الطلبات باستخدام تنسيقات ملفات متعددة. هذا القسم تشرح الاعتبارات المتعلقة باستخدام تنسيقات الوسائط العامة لتقديم الطلبات وتحديدًا ملفات الصور والصوت والفيديو والنصوص العادية. يمكنك استخدام ملفات الوسائط للطلب فقط في إصدارات نماذج محددة، كما هو موضح في ما يلي المؤقت.

الطراز الصور الصوت الفيديو نص عادي
Gemini 1.5 Pro (الإصدار 008 والإصدارات الأحدث) ✔ (ملف صور بتنسيق 3600 كحد أقصى)

الأشكال المصوّرة

يمكنك استخدام بيانات الصور لإرسال الطلبات باستخدام نماذج Gemini 1.5. عند استخدام الصور عند تقديم الطلبات، يخضعون للقيود والمتطلبات التالية:

  • يجب أن تكون الصور في إحدى بيانات الصور التالية MIME الأنواع:
    • صورة PNG
    • JPEG - صورة/jpeg
    • تنسيق WebP - صورة/webp
    • HEIC - صورة/heic
    • HEIF - صورة/heif
  • صورة 3600 صورة كحدّ أقصى لنماذج Gemini 1.5
  • لا توجد حدود محددة لعدد البكسل في الصورة؛ لكن أكبر يتم تصغير الصور لتلائم درجة الدقة القصوى 3072 × 3072، بينما مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

تنسيقات الملفات الصوتية

يمكنك استخدام البيانات الصوتية لإرسال الطلبات من خلال نماذج Gemini 1.5. عند استخدام الصوت من أجل الطلب، فإنهم يخضعون للقيود المتطلبات:

  • يمكن استخدام البيانات الصوتية بتنسيق الصوت الشائع التالي MIME الأنواع:
    • WAV - صوت/wav
    • MP3 - صوت/mp3
    • AIFF - صوت/الذكاء الاصطناعي (AI)
    • الترميز المتقدّم للصوت (AAC)
    • OGG Vorbis - صوت/ogg
    • FLAC - صوت/فلك
  • يبلغ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد 9.5 ساعات.
  • وتتم إعادة تشكيل الملفات الصوتية وصولاً إلى درجة دقة بيانات تبلغ 16 كيلوبت في الثانية، يتم دمج القنوات الصوتية في قناة واحدة.
  • ما من حدّ معيّن لعدد الملفات الصوتية في الطلب الواحد. مع ذلك، إجمالي الطول المجمّع لكل الملفات الصوتية في طلب واحد. لا يمكن أن تتجاوز مدته 9.5 ساعات.

أشكال إعلانات الفيديو

يمكنك استخدام بيانات الفيديو لتقديم الطلبات من خلال نماذج Gemini 1.5.

  • يتم دعم بيانات الفيديو بتنسيق الفيديو الشائع التالي MIME الأنواع:

    • الفيديو/mp4
    • video/mpeg
    • فيديو/mov
    • فيديو/AV
    • فيديو/x-flv
    • فيديو/mpg
    • فيديو/webm
    • فيديو/wmv
    • فيديو/3gpp
  • تعمل خدمة File API على تجميع عيّنات من الفيديوهات في صور بمعدّل لقطة واحدة في الثانية (FPS). وقد تخضع للتغيير لتقديم أفضل جودة استنتاج. تحتاج الصور الفردية إلى 258 رمزًا مميزًا بغض النظر عن درجة الدقة الشطيرة.

تنسيقات النص العادي

تتيح واجهة برمجة التطبيقات File API تحميل ملفات النص العادي باستخدام أنواع MIME التالية:

  • نص/عادي
  • text/html
  • نص/css
  • نص/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • نص/ملف csv
  • نص/تخفيض
  • text/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • application/rtf
  • نص/rtf

بالنسبة إلى ملفات النص العادي التي لها نوع MIME غير وارد في القائمة، يمكنك محاولة تحديد أحد أنواع MIME أعلاه يدويًا.