การแจ้งด้วยไฟล์สื่อ


ดูใน ai.google.dev เรียกใช้ใน Google Colab ดูแหล่งที่มาใน GitHub

Gemini API รองรับพรอมต์ที่มีข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกกันว่าพรอมต์หลายโมดัล ซึ่งหมายความว่าคุณสามารถรวมสื่อประเภทเหล่านั้นได้ ในพรอมต์ของคุณ สำหรับไฟล์ขนาดเล็ก คุณสามารถชี้โมเดล Gemini ได้โดยตรง ลงในไฟล์ในระบบเมื่อส่งพรอมต์ อัปโหลดไฟล์ขนาดใหญ่ขึ้นด้วยไฟล์ API ก่อนที่จะรวมไว้ใน

File API ช่วยให้คุณเก็บไฟล์ได้ถึง 20GB ต่อโครงการ โดยที่แต่ละไฟล์ มีขนาดเกิน 2 GB ระบบจะจัดเก็บไฟล์ไว้ 48 ชั่วโมงและสามารถเข้าถึงได้ด้วย คีย์ API สำหรับการสร้างภายในระยะเวลานั้นและดาวน์โหลดไม่ได้ จาก API Files API ให้บริการโดยไม่มีค่าใช้จ่ายในทุกภูมิภาคที่ Gemini API พร้อมใช้งานแล้ว

File API จะจัดการอินพุตที่สามารถใช้เพื่อสร้างเนื้อหาที่มี model.generateContent หรือ model.streamGenerateContent สำหรับข้อมูลเกี่ยวกับ รูปแบบไฟล์ที่ถูกต้อง (ประเภท MIME) และรุ่นที่รองรับ โปรดดูที่ไฟล์ที่รองรับ รูปแบบ

คู่มือนี้แสดงวิธีใช้ File API เพื่ออัปโหลดไฟล์สื่อและเพิ่มไฟล์สื่อเหล่านั้น ในการเรียกใช้ GenerateContent ไปยัง Gemini API สำหรับข้อมูลเพิ่มเติม โปรดดู รหัส ตัวอย่าง

รูปแบบไฟล์ที่รองรับ

โมเดล Gemini รองรับพรอมต์ในรูปแบบไฟล์หลายรูปแบบ ส่วนนี้ อธิบายถึงข้อควรพิจารณาในการใช้รูปแบบสื่อทั่วไปสำหรับพรอมต์ โดยเฉพาะไฟล์ภาพ เสียง วิดีโอ และข้อความธรรมดา คุณสามารถใช้ไฟล์สื่อ สำหรับการแสดงข้อความแจ้งด้วยเวอร์ชันโมเดลที่ระบุเท่านั้น ดังที่แสดงดังต่อไปนี้

โมเดล รูปภาพ เสียง วิดีโอ ข้อความธรรมดา
Gemini 1.5 Pro (รุ่น 008 ขึ้นไป) ✔ (ไฟล์ภาพสูงสุด 3,600 ไฟล์)

รูปแบบรูปภาพ

คุณสามารถใช้ข้อมูลรูปภาพสำหรับสร้างพรอมต์ด้วยโมเดล Gemini 1.5 ได้ เมื่อคุณใช้รูปภาพ สำหรับข้อความแจ้งนั้นจะขึ้นอยู่กับข้อจำกัดและข้อกำหนดต่อไปนี้

  • รูปภาพต้องเป็นข้อมูลรูปภาพ MIME ต่อไปนี้ ประเภทต่างๆ
    • PNG - รูปภาพ/png
    • JPEG - รูปภาพ/jpeg
    • WEBP - รูปภาพ/webp
    • HEIC - รูปภาพ/heic
    • HEIF - รูปภาพ/heif
  • รูปภาพสูงสุด 3,600 รูปสำหรับโมเดล Gemini 1.5
  • ไม่ได้จำกัดจำนวนพิกเซลในรูปภาพ แต่ใหญ่กว่า รูปภาพจะถูกลดขนาดลงให้พอดีกับความละเอียดสูงสุด 3072 x 3072 ขณะที่ การรักษาสัดส่วนเดิมไว้

รูปแบบเสียง

คุณสามารถใช้ข้อมูลเสียงสำหรับพรอมต์ด้วยโมเดล Gemini 1.5 ได้ เมื่อคุณใช้ เสียงสำหรับพรอมต์จะขึ้นอยู่กับข้อจำกัดและ ข้อกำหนด

  • ระบบรองรับข้อมูลเสียงในรูปแบบเสียง MIME ทั่วไปต่อไปนี้ ประเภทต่างๆ
    • WAV - เสียง/wav
    • MP3 - เสียง/mp3
    • AIFF - เสียง/AIFF
    • AAC - เสียง/aac
    • OGG Vorbis - เสียง/ogg
    • FLAC - เสียง/flac
  • ความยาวสูงสุดของข้อมูลเสียงที่รองรับในพรอมต์เดียวคือ 9.5 ชั่วโมง
  • ไฟล์เสียงจะถูกสุ่มตัวอย่างซ้ำให้มีความละเอียดข้อมูล 16 Kbps และ ช่องทางของเสียง รวมกันเป็นช่องเดียว
  • ไม่มีการจำกัดจำนวนไฟล์เสียงในพรอมต์เดียว แต่ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียว ต้องไม่เกิน 9.5 ชั่วโมง

รูปแบบวิดีโอ

คุณสามารถใช้ข้อมูลวิดีโอสำหรับพรอมต์ด้วยโมเดล Gemini 1.5 ได้

  • ระบบรองรับข้อมูลวิดีโอในรูปแบบวิดีโอทั่วไป MIME ดังต่อไปนี้ ประเภทต่างๆ

    • วิดีโอ/MP4
    • video/mpeg
    • วิดีโอ/เคลื่อนที่
    • วิดีโอ/avi
    • วิดีโอ/x-flv
    • วิดีโอ/mpg
    • วิดีโอ/WebM
    • วิดีโอ/wmv
    • วิดีโอ/3gpp
  • บริการ File API สุ่มตัวอย่างวิดีโอเป็นรูปภาพด้วยความเร็ว 1 เฟรมต่อวินาที (FPS) และอาจมีการเปลี่ยนแปลงเพื่อให้การอนุมานที่มีคุณภาพดีที่สุด รูปภาพแต่ละรูปจะใช้โทเค็นสูงสุด 258 โทเค็นโดยไม่คำนึงถึงความละเอียดและ ของคุณ

รูปแบบข้อความธรรมดา

File API รองรับการอัปโหลดไฟล์ข้อความธรรมดาที่มีประเภท MIME ต่อไปนี้

  • ข้อความ/ธรรมดา
  • text/html
  • ข้อความ/css
  • ข้อความ/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • ข้อความ/csv
  • ข้อความ/มาร์กดาวน์
  • text/x-python
  • application/x-python-code
  • application/json
  • ข้อความ/xml
  • application/rtf
  • ข้อความ/RTF

สำหรับไฟล์ข้อความธรรมดาที่มีประเภท MIME ไม่อยู่ในรายการ คุณสามารถลองระบุ หนึ่งในประเภท MIME ข้างต้นด้วยตนเอง