Lưu ngữ cảnh vào bộ nhớ đệm

Trong quy trình làm việc AI thông thường, bạn có thể truyền cùng một mã thông báo đầu vào cho một mô hình. Khi dùng tính năng lưu vào bộ nhớ đệm theo bối cảnh của Gemini API, bạn có thể chuyển một số nội dung vào mô hình một lần, mã thông báo đầu vào được lưu vào bộ nhớ đệm, sau đó tham chiếu đến các mã thông báo đã lưu vào bộ nhớ đệm cho các yêu cầu tiếp theo. Ở một số ổ đĩa nhất định, việc dùng mã thông báo đã lưu vào bộ nhớ đệm có chi phí thấp hơn so với việc truyền nhiều lần trong cùng một tập hợp mã thông báo.

Khi lưu một nhóm mã thông báo vào bộ nhớ đệm, bạn có thể chọn khoảng thời gian mình muốn bộ nhớ đệm lưu vào trước khi mã thông báo bị tự động xoá. Thời lượng lưu vào bộ nhớ đệm này là có tên là thời gian tồn tại (TTL). Nếu bạn không đặt chính sách này, thì TTL được đặt mặc định là 1 giờ. Chiến lược phát hành đĩa đơn cho việc lưu vào bộ nhớ đệm phụ thuộc vào kích thước mã thông báo đầu vào và khoảng thời gian bạn muốn để tiếp tục sử dụng.

Tính năng lưu vào bộ nhớ đệm theo ngữ cảnh hỗ trợ cả Gemini 1.5 Pro và Gemini 1.5 Flash.

Trường hợp sử dụng tính năng lưu vào bộ nhớ đệm theo bối cảnh

Việc lưu vào bộ nhớ đệm ngữ cảnh đặc biệt phù hợp với các tình huống có ngữ cảnh ban đầu được tham chiếu lặp đi lặp lại bởi các yêu cầu ngắn hơn. Cân nhắc sử dụng lưu vào bộ nhớ đệm theo bối cảnh cho các trường hợp sử dụng như:

  • Bot trò chuyện kèm theo hướng dẫn chuyên sâu về hệ thống
  • Phân tích lặp lại các tệp video dài
  • Truy vấn định kỳ đối với các tập hợp tài liệu lớn
  • Thường xuyên phân tích kho lưu trữ mã hoặc sửa lỗi

Việc lưu vào bộ nhớ đệm giúp giảm chi phí như thế nào

Lưu vào bộ nhớ đệm ngữ cảnh là một tính năng có tính phí được thiết kế để giảm tổng chi phí vận hành. Việc thanh toán dựa trên các yếu tố sau:

  1. Số mã thông báo trong bộ nhớ đệm: Số lượng mã thông báo đầu vào đã lưu vào bộ nhớ đệm, được lập hoá đơn ở một mức giảm khi được đưa vào các câu lệnh tiếp theo.
  2. Thời lượng lưu trữ: Lượng thời gian mã thông báo đã lưu vào bộ nhớ đệm được lưu trữ (TTL), lập hoá đơn dựa trên thời lượng TTL của số lượng mã thông báo được lưu vào bộ nhớ đệm. Không có giá trị tối thiểu hoặc giới hạn tối đa trên TTL.
  3. Các yếu tố khác: Bạn sẽ phải trả các khoản phí khác, chẳng hạn như đối với mã thông báo dữ liệu đầu vào không được lưu vào bộ nhớ đệm và mã thông báo đầu ra.

Để biết thông tin mới nhất về giá, hãy tham khảo giá của Gemini API . Để tìm hiểu cách tính mã thông báo, hãy xem phần Mã thông báo hướng dẫn.

Cách sử dụng tính năng lưu vào bộ nhớ đệm theo bối cảnh

Phần này giả định rằng bạn đã cài đặt SDK Gemini và định cấu hình một API như minh hoạ trong phần bắt đầu nhanh.

Các yếu tố cần cân nhắc khác

Khi sử dụng tính năng lưu vào bộ nhớ đệm theo bối cảnh, hãy ghi nhớ những điều sau:

  • Số lượng mã thông báo đầu vào tối thiểu để lưu vào bộ nhớ đệm theo bối cảnh là 32.768 và Minimum (tối đa) bằng với giá trị tối đa của mô hình đã cho. (Để biết thêm thông tin về mã thông báo, hãy xem Hướng dẫn về mã thông báo).
  • Mô hình này không tạo ra sự khác biệt nào giữa mã thông báo được lưu vào bộ nhớ đệm và mã thông báo thông thường đầu vào. Nội dung được lưu vào bộ nhớ đệm chỉ là tiền tố cho lời nhắc.
  • Không có giới hạn mức sử dụng hoặc tỷ lệ đặc biệt đối với việc lưu vào bộ nhớ đệm theo bối cảnh; chuẩn áp dụng giới hạn số lượng yêu cầu cho GenerateContent, và giới hạn mã thông báo bao gồm cả dữ liệu đã lưu vào bộ nhớ đệm mã thông báo.
  • Số lượng mã thông báo đã lưu vào bộ nhớ đệm được trả về trong usage_metadata từ tạo, nhận và liệt kê các thao tác của dịch vụ bộ nhớ đệm cũng như trong GenerateContent khi sử dụng bộ nhớ đệm.