Nhắc bằng tệp nội dung nghe nhìn


Xem trên ai.google.dev Chạy trong Google Colab Xem nguồn trên GitHub

Gemini API hỗ trợ tính năng nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, cũng như được gọi là nhắc đa phương thức, nghĩa là bạn có thể thêm các loại nội dung nghe nhìn đó trong các câu lệnh của bạn. Đối với các tệp nhỏ, bạn có thể trỏ trực tiếp mô hình Gemini vào một tệp cục bộ khi đưa ra câu lệnh. Tải các tệp lớn hơn lên bằng Tệp API trước khi đưa chúng vào lời nhắc.

File API cho phép bạn lưu trữ tối đa 20 GB tệp cho mỗi dự án, mỗi tệp không có kích thước vượt quá 2GB. Các tệp được lưu trữ trong 48 giờ và có thể truy cập được bằng khoá API của bạn để tạo trong khoảng thời gian đó và không thể tải xuống được từ API. Files API được cung cấp miễn phí ở mọi khu vực nơi Gemini API được cung cấp.

File API xử lý dữ liệu đầu vào có thể dùng để tạo nội dung model.generateContent hoặc model.streamGenerateContent. Để biết thông tin về định dạng tệp hợp lệ (loại MIME) và các kiểu được hỗ trợ, hãy xem Tệp được hỗ trợ định dạng.

Hướng dẫn này cho biết cách sử dụng File API để tải các tệp đa phương tiện lên và thêm các tệp đó vào trong một lệnh gọi GenerateContent đến Gemini API. Để biết thêm thông tin, hãy xem mã mẫu.

Các định dạng tệp được hỗ trợ

Các mô hình Gemini hỗ trợ tính năng nhắc bằng nhiều định dạng tệp. Phần này giải thích những điều cần cân nhắc khi sử dụng các định dạng truyền thông chung để đặt câu lệnh, cụ thể là tệp hình ảnh, âm thanh, video và văn bản thuần tuý. Bạn có thể dùng các tệp nội dung nghe nhìn để chỉ nhắc với các phiên bản mô hình cụ thể, như được hiển thị trong phần sau bảng.

Mô hình Hình ảnh Âm thanh Video Văn bản thuần tuý
Gemini 1.5 Pro (bản phát hành 008 trở lên) ✔ (tệp hình ảnh tối đa 3600)

Định dạng hình ảnh

Bạn có thể sử dụng dữ liệu hình ảnh để nhắc bằng các mô hình Gemini 1.5. Khi bạn sử dụng hình ảnh cho việc nhắc, họ phải tuân theo các giới hạn và yêu cầu sau:

  • Hình ảnh phải thuộc một trong các dữ liệu hình ảnh MIME sau đây loại:
    • PNG - hình ảnh/png
    • JPEG – hình ảnh/jpeg
    • WEBP – hình ảnh/webp
    • HEIC – hình ảnh/hình ảnh
    • HEIF – hình ảnh/heif
  • Tối đa 3.600 hình ảnh cho các mô hình Gemini 1.5.
  • Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh; tuy nhiên, lớn hơn hình ảnh được thu nhỏ để phù hợp với độ phân giải tối đa 3072 x 3072 trong khi giữ nguyên tỷ lệ khung hình gốc.

Định dạng âm thanh

Bạn có thể sử dụng dữ liệu âm thanh để đưa ra câu lệnh thông qua các mô hình Gemini 1.5. Khi bạn sử dụng âm thanh để nhắc, chúng phải tuân theo các giới hạn và các yêu cầu:

  • Dữ liệu âm thanh được hỗ trợ ở định dạng âm thanh phổ biến sau đây là MIME loại:
    • WAV – âm thanh/wav
    • MP3 - âm thanh/mp3
    • AIFF – âm thanh/aiff
    • AAC – âm thanh/aac
    • OGG Vorbis – âm thanh/ogg
    • FLAC – âm thanh/flac
  • Thời lượng tối đa được hỗ trợ của dữ liệu âm thanh trong một câu lệnh là 9,5 giờ.
  • Các tệp âm thanh được lấy mẫu lại ở độ phân giải dữ liệu 16 Kb/giây và nhiều các kênh âm thanh được kết hợp thành một kênh duy nhất.
  • Không có giới hạn cụ thể về số lượng tệp âm thanh trong một câu lệnh; tuy nhiên, tổng thời lượng kết hợp của tất cả tệp âm thanh trong một câu lệnh duy nhất không được vượt quá 9,5 giờ.

Định dạng video

Bạn có thể sử dụng dữ liệu video để đưa ra câu lệnh bằng các mô hình Gemini 1.5.

  • Dữ liệu video được hỗ trợ ở định dạng video phổ biến sau đây là MIME loại:

    • video/mp4
    • video/mpeg
    • video/mov
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/WMV
    • video/3gpp
  • Dịch vụ File API lấy mẫu video thành hình ảnh với tốc độ 1 khung hình/giây (FPS) và có thể thay đổi để đưa ra chất lượng suy luận tốt nhất. Các hình ảnh riêng lẻ chiếm 258 mã thông báo bất kể độ phân giải và chất lượng.

Định dạng văn bản thuần túy

API tệp hỗ trợ tải lên tệp văn bản thuần tuý với các loại MIME sau:

  • văn bản/đơn thuần
  • văn bản/html
  • văn bản/css
  • văn bản/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • văn bản/csv
  • văn bản/đánh dấu
  • text/x-python
  • application/x-python-code
  • ứng dụng/json
  • văn bản/xml
  • application/rtf
  • văn bản/rtf

Đối với các tệp văn bản thuần tuý có loại MIME không có trong danh sách, bạn có thể thử chỉ định một trong các loại MIME nêu trên theo cách thủ công.