Hiện đã có cửa sổ ngữ cảnh Gemini 1.5 Pro 2M, khả năng thực thi mã và Gemma 2. Tìm hiểu thêm

Trang này được dịch bởi Cloud Translation API.

Chiến lược nhắc tệp

Nhóm mô hình trí tuệ nhân tạo (AI) Gemini được xây dựng để xử lý nhiều loại dữ liệu đầu vào, bao gồm văn bản, hình ảnh và âm thanh. Vì những các mô hình có thể xử lý nhiều loại hoặc chế độ dữ liệu, thì mô hình Gemini được gọi là mô hình đa phương thức hay được giải thích là có khả năng đa phương thức.

Trang này cung cấp hướng dẫn và các phương pháp hay nhất để sử dụng tệp đa phương tiện với các câu lệnh cho Gemini API. Để biết thông tin về cách sử dụng Gemini Files API cho tải tệp nội dung nghe nhìn lên và đưa chúng vào câu lệnh của bạn, hãy xem Lời nhắc bằng tệp nội dung nghe nhìn.

Dùng tệp nội dung nghe nhìn với câu lệnh

Việc có thể sử dụng nhiều loại dữ liệu trong câu lệnh sẽ giúp bạn tính linh hoạt trong những công việc mà bạn có thể giải quyết bằng Gemini API. Để ví dụ: bạn có thể gửi cho mô hình ảnh chụp một bữa ăn ngon và yêu cầu mô hình đó viết một blog ngắn về bữa ăn.

Câu lệnh

Đáp

Viết một bài đăng ngắn và hấp dẫn trên blog dựa trên bức ảnh này. Phải thêm nội dung mô tả về bữa ăn trong ảnh và nói về hành trình của tôi chuẩn bị bữa ăn.

Chuẩn bị bữa ăn là một cách tuyệt vời để tiết kiệm thời gian và tiền bạc, đồng thời nó cũng có thể giúp bạn ăn uống lành mạnh hơn. Bữa ăn này là ví dụ tuyệt vời về một bữa ăn lành mạnh và ngon miệng có thể dễ dàng được chuẩn bị trước.

Bữa ăn này có cơm lứt, rau củ nướng và sốt teriyaki gà. Gạo lứt là một loại carbohydrate lành mạnh và phức tạp sẽ cung cấp cho bạn năng lượng bền vững. Rau củ nướng là cách tuyệt vời để bạn ăn uống mỗi ngày vitamin và khoáng chất, và sốt teriyaki gà là một món ăn ngon thức ăn giàu protein.

Món này cũng rất dễ chế biến. Chỉ cần nấu gạo lứt, rang rau củ và nấu món sốt teriyaki gà. Sau khi nấu xong mọi thứ, chia thành các hộp đựng thức ăn chuẩn bị sẵn rồi bảo quản trong tủ lạnh. Sau đó, bạn có thể lấy một chiếc hộp đựng và bắt đầu những buổi sáng bận rộn!

Nếu bạn đang tìm kiếm một bữa ăn lành mạnh, ngon lành có thể dễ dàng được chuẩn bị trước, bữa ăn này là một lựa chọn tuyệt vời. Trong đó có rất nhiều chất dinh dưỡng và hương vị và món ăn này chắc chắn sẽ giúp bạn cảm thấy đầy đủ và hài lòng.

Sau đây là phần chuẩn bị bữa ăn lành mạnh và ngon lành!

Chiến lược nhắc bằng nội dung nghe nhìn

Nếu bạn gặp khó khăn trong việc nhận kết quả mong muốn từ những câu lệnh sử dụng tệp đa phương tiện, có một số chiến lược có thể giúp bạn đạt được kết quả mong muốn muốn. Các phần sau đây cung cấp phương pháp thiết kế và cách khắc phục sự cố các mẹo cải thiện những câu lệnh sử dụng phương thức nhập đa phương thức.

Bạn có thể cải thiện các câu lệnh đa phương thức bằng cách làm theo các phương pháp hay nhất sau đây:

Kiến thức cơ bản về thiết kế câu lệnh
- Trình bày cụ thể trong chỉ dẫn: Soạn hướng dẫn rõ ràng và súc tích, không để người dùng hiểu sai.
- Thêm một vài ví dụ vào câu lệnh của bạn: Sử dụng các ví dụ thực tế chỉ dựa trên thực tế để minh hoạ mục tiêu bạn muốn đạt được.
- Chia nhỏ từng bước: Chia các công việc phức tạp thành các mục tiêu phụ dễ quản lý nhằm hướng dẫn mô hình xuyên suốt quy trình này.
- Chỉ định định dạng đầu ra: Trong câu lệnh của bạn, hãy yêu cầu đầu ra ở định dạng bạn muốn, chẳng hạn như Markdown, JSON, HTML, v.v.
- Đặt hình ảnh lên trước cho những câu lệnh chỉ có một hình ảnh: Mặc dù Gemini có thể xử lý các câu lệnh dạng hình ảnh và văn bản theo bất kỳ thứ tự nào, nhưng đối với những câu lệnh chứa một hình ảnh duy nhất, Gemini có thể hoạt động hiệu quả hơn nếu bạn đặt hình ảnh đó trước câu lệnh dạng văn bản.
Khắc phục sự cố cho câu lệnh đa phương thức
- Nếu mô hình không vẽ thông tin từ phần có liên quan của hình ảnh: Hãy thả gợi ý về các khía cạnh của hình ảnh mà bạn muốn câu lệnh lấy thông tin.
- Nếu kết quả mô hình quá chung chung (chưa đủ phù hợp với hình ảnh): Khi bắt đầu câu lệnh, hãy thử yêu cầu mô hình mô tả(các) hình ảnh trước khi đưa ra hướng dẫn nhiệm vụ hoặc thử yêu cầu mô hình tham chiếu đến nội dung trong hình ảnh.

Nguyên tắc cơ bản về thiết kế câu lệnh

Phần này mở rộng các phương pháp hay nhất được liệt kê trong phần trước.

Lưu ý: Kết quả lập mô hình từ các ví dụ về Gemini sau đây có thể khác nhau giữa các lần chạy.

Hãy nêu cụ thể trong chỉ dẫn của bạn

Câu lệnh hiệu quả nhất khi rõ ràng và chi tiết. Nếu đã có một kết quả cụ thể, bạn nên đưa yêu cầu đó vào lời nhắc để đảm bảo nhận được kết quả mong muốn.

Đôi khi, ý định của câu lệnh có vẻ rõ ràng đối với người viết câu lệnh, nhưng thực ra lại không được chỉ định rõ ràng. Để tuỳ chỉnh hoạt động của mô hình, hãy cân nhắc xem câu lệnh của bạn có thể bị diễn giải (sai) như thế nào, đồng thời đảm bảo rằng hướng dẫn bạn đưa ra cụ thể và rõ ràng. Đừng quên chừa ra một khoảng trống nhỏ để người dùng hiểu sai

Đối với hình ảnh bảng máy bay tại sân bay này, hãy yêu cầu mô hình chỉ "mô tả hình ảnh này" có thể tạo ra nội dung mô tả chung. Nếu cần mô hình phân tích cú pháp thời gian và thành phố trong hình ảnh, bạn có thể đưa trực tiếp yêu cầu đó vào câu lệnh của mình.

Câu lệnh	Phản hồi của mô hình
Mô tả hình ảnh này.	Hình ảnh thể hiện bảng thông tin về chuyến bay đến và đi của sân bay.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Phân tích cú pháp thời gian và thành phố từ bảng thông tin sân bay hiển thị trong hình ảnh này thành một danh sách.	10:50 Mát-xcơ-va 11:05 ở Scotland 11:05 London 11:10 Bucharest 11:30 Kiev 11:35 Dublin 11:45 Phía Đông Trung du 12:15 Sofia 12:30 giờ London 12:30 Newcastle 12:40 St{/7} 12:40 London 12:45 ở London

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Phân tích cú pháp thời gian và thành phố từ bảng thông tin sân bay hiển thị trong hình ảnh này thành một danh sách.

10:50 Mát-xcơ-va

11:05 ở Scotland

11:05 London

11:10 Bucharest

11:30 Kiev

11:35 Dublin

11:45 Phía Đông Trung du

12:15 Sofia

12:30 giờ London

12:30 Newcastle

12:40 St{/7}

12:40 London

12:45 ở London

Thêm một vài ví dụ

Mô hình Gemini có thể chấp nhận nhiều thông tin đầu vào mà có thể dùng làm ví dụ để hiểu rõ đầu ra mà bạn muốn. Việc thêm những ví dụ này có thể giúp mô hình này xác định các quy luật và áp dụng mối quan hệ giữa hình ảnh đã cho và câu trả lời trong ví dụ mới. Quá trình này còn được gọi là "một vài cảnh" học tập.

Trong ví dụ dưới đây, kết quả ban đầu được viết ở dạng câu và cũng chứa giá trị quốc gia (Brazil). Giả sử bạn muốn dữ liệu đầu ra ở một định dạng hoặc kiểu khác và bạn muốn thành phố chứ không phải quốc gia. Việc thêm các ví dụ vài lần vào câu lệnh của bạn có thể giúp định hướng cho mô hình để phản hồi theo cách bạn muốn.

Câu lệnh	Phản hồi của mô hình
Xác định thành phố dọc theo địa danh.	Địa danh là tượng Chúa Cứu thế ở thành phố Rio de Janeiro, Brazil.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Xác định thành phố dọc theo địa danh.	thành phố: Rome, địa danh: Đấu trường La Mã.
	thành phố: Bắc Kinh, địa danh: Tử Cấm Thành
	thành phố: Rio de Janeiro, địa danh: tượng Chúa Cứu thế

Chia nhỏ từng bước

Đối với những nhiệm vụ phức tạp như những nhiệm vụ đòi hỏi cả hiểu hình ảnh và lý luận, tính năng này có thể hữu ích để chia công việc thành các bước nhỏ hơn, đơn giản hơn. Ngoài ra, phương pháp này cũng có thể hiệu quả nếu bạn trực tiếp yêu cầu mô hình đó "nghĩ từng bước" trong câu lệnh của bạn.

Câu lệnh	Phản hồi của mô hình
Khi nào tôi sẽ hết giấy vệ sinh?	Sắp tới, bạn chỉ còn 3 lần tung.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
1. Trước tiên, hãy đếm xem có bao nhiêu cuộn giấy vệ sinh trong bức ảnh này. 2. Sau đó, hãy xác định lượng giấy vệ sinh mà một người thông thường dùng mỗi ngày. 3. Hãy tính xem những cuộn giấy vệ sinh này sẽ tồn tại trong bao lâu.	1. Hình này có 3 cuộn giấy vệ sinh. 2. Một người bình thường dùng khoảng 20 tờ giấy vệ sinh mỗi ngày. 3. Nếu mỗi cuộn chứa 200 trang tính thì mỗi cuộn sẽ dùng được khoảng 10 ngày. Do đó, 3 lần tung sẽ kéo dài trong khoảng một tháng.

Câu lệnh đã cập nhật

Cải thiện câu trả lời

1. Trước tiên, hãy đếm xem có bao nhiêu cuộn giấy vệ sinh trong bức ảnh này.

2. Sau đó, hãy xác định lượng giấy vệ sinh mà một người thông thường dùng mỗi ngày.

3. Hãy tính xem những cuộn giấy vệ sinh này sẽ tồn tại trong bao lâu.

1. Hình này có 3 cuộn giấy vệ sinh.

2. Một người bình thường dùng khoảng 20 tờ giấy vệ sinh mỗi ngày.

3. Nếu mỗi cuộn chứa 200 trang tính thì mỗi cuộn sẽ dùng được khoảng 10 ngày. Do đó, 3 lần tung sẽ kéo dài trong khoảng một tháng.

Các bài toán hoặc các dạng bài toán đố khác là những bài toán rất phù hợp để yêu cầu mô hình tư duy theo từng bước.

Câu lệnh	Đáp
Số hạng thứ 4 trong dãy số là gì?	-135

Câu lệnh

Đáp

Số hạng thứ 4 trong dãy số là gì?

-135

Phản hồi từ mô hình không chính xác. Một số cách để cải thiện việc này là yêu cầu mô hình phân tích cú pháp vấn đề trước khi trả lời câu lệnh.

Câu lệnh	Đáp
Trước tiên, hãy phân tích cú pháp công thức trong hình ảnh này. Sau đó dựa vào công thức, hãy trả lời "số hạng thứ 4 trong dãy là gì?".	Nhấp để mở rộng kết quả $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ Thay n = 4 vào công thức: $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ Chúng ta không biết giá trị của b(3), vì vậy hãy thế n = 3 vào công thức: $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ Chúng ta không biết giá trị của b(2), vì vậy hãy thay n = 2 vào công thức: $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ Chúng ta biết giá trị của b(1) là 15, vì vậy hãy thay nó vào công thức: $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ Bây giờ, chúng ta đã biết giá trị của b(2), hãy thế nó vào công thức cho b(3): $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ Bây giờ, chúng ta đã biết giá trị của b(3), hãy thế nó vào công thức cho b(4): $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Do đó, số hạng thứ 4 trong dãy là -405.

Câu lệnh

Đáp

Trước tiên, hãy phân tích cú pháp công thức trong hình ảnh này.

Sau đó dựa vào công thức, hãy trả lời "số hạng thứ 4 trong dãy là gì?".

Nhấp để mở rộng kết quả

$$ b(n) = b(n-1) * (-3) $$

$$ b(1) = 15 $$

Thay n = 4 vào công thức:

$$ b(4) = b(4-1) * (-3) $$

$$ b(4) = b(3) * (-3) $$

Chúng ta không biết giá trị của b(3), vì vậy hãy thế n = 3 vào công thức:

$$ b(3) = b(3-1) * (-3) $$

$$ b(3) = b(2) * (-3) $$

Chúng ta không biết giá trị của b(2), vì vậy hãy thay n = 2 vào công thức:

$$ b(2) = b(2-1) * (-3) $$

$$ b(2) = b(1) * (-3) $$

Chúng ta biết giá trị của b(1) là 15, vì vậy hãy thay nó vào công thức:

$$ b(2) = 15 * (-3) $$

$$ b(2) = -45 $$

Bây giờ, chúng ta đã biết giá trị của b(2), hãy thế nó vào công thức cho b(3):

$$ b(3) = b(2) * (-3) $$

$$ b(3) = -45 * (-3) $$

$$ b(3) = 135 $$

Bây giờ, chúng ta đã biết giá trị của b(3), hãy thế nó vào công thức cho b(4):

$$ b(4) = b(3) * (-3) $$

$$ b(4) = 135 * (-3) $$

$$ b(4) = -405 $$

Do đó, số hạng thứ 4 trong dãy là -405.

Câu trả lời này của mô hình là chính xác. Giờ đây, để làm cho câu trả lời đơn giản hơn, bạn có thể yêu cầu mô hình suy nghĩ theo từng bước.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Số hạng thứ 4 trong dãy số là gì? Hãy suy nghĩ theo từng bước.	Số hạng đầu tiên là 15. Số hạng thứ hai là b(1) * (-3) = 15 * (-3) = -45. Số hạng thứ ba là b(2) * (-3) = -45 * (-3) = 135. Số hạng thứ tư là b(3) * (-3) = 135 * (-3) = -405.

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Số hạng thứ 4 trong dãy số là gì? Hãy suy nghĩ theo từng bước.

Số hạng đầu tiên là 15.

Số hạng thứ hai là b(1) * (-3) = 15 * (-3) = -45.

Số hạng thứ ba là b(2) * (-3) = -45 * (-3) = 135.

Số hạng thứ tư là b(3) * (-3) = 135 * (-3) = -405.

Hãy thử chỉ định định dạng đầu ra

Một vấn đề phổ biến là đầu ra của mô hình cần phải ở một định dạng nhất định (ví dụ: Markdown, JSON, HTML), đặc biệt là khi đầu ra của mô hình cần phải được nhập bởi tác vụ hạ nguồn. Bạn có thể cố gắng tạo kết quả ở định dạng đó bằng cách hướng dẫn mô hình làm như vậy trong câu lệnh. Dưới đây là hai ví dụ:

Câu lệnh	Phản hồi của mô hình
Phân tích cú pháp bảng trong hình ảnh này thành định dạng Markdown	\| Tiêu đề \| Trạng thái \| Thời gian \| Ngày bắt đầu \| Ngày đến hạn \| \| ------- \| ------ \| ---- \| --------- \| ------ \| \| Toán học \| Xong \| 1,5 giờ \| 29/11/2023 \| 1/12/2023 \| \| Địa lý \| Xong \| 30 phút \| 2/12/2023 \| 4/12/2023 \| \| Vật lý \| Đang tiến hành \| 2 giờ \| 3/12/2023 \| 5/12/2023 \| \| Sinh học \| Chưa bắt đầu \| 6 giờ \| 2/11/2016 \| 6/12/2023 \|

Câu lệnh

Phản hồi của mô hình

Phân tích cú pháp bảng trong hình ảnh này thành định dạng Markdown

| ------- | ------ | ---- | --------- | ------ |

| Toán học | Xong | 1,5 giờ | 29/11/2023 | 1/12/2023 |

| Vật lý | Đang tiến hành | 2 giờ | 3/12/2023 | 5/12/2023 |

| Sinh học | Chưa bắt đầu | 6 giờ | 2/11/2016 | 6/12/2023 |

Câu lệnh Phản hồi của mô hình

Câu lệnh	Phản hồi của mô hình
Cung cấp danh sách tất cả các thuộc tính sau đây: nguyên liệu, loại món ăn, ăn chay hoặc không, ở định dạng JSON	```json``` `{` `"ingredients": [` `"rice",` `"shrimp",` `"clams",` `"mussels",` `"peas",` `"tomatoes",` `"onions",` `"garlic",` `"olive oil",` `"paprika",` `"salt",` `"pepper"` `],` `"type of cuisine": "Spanish",` `"vegetarian": false`

Cung cấp danh sách tất cả các thuộc tính sau đây:

nguyên liệu, loại món ăn, ăn chay hoặc không, ở định dạng JSON

```json```

{

"ingredients": [

"rice",

"shrimp",

"clams",

"mussels",

"peas",

"tomatoes",

"onions",

"garlic",

"olive oil",

"paprika",

"salt",

"pepper"

],

"type of cuisine": "Spanish",

"vegetarian": false

Đặt hình ảnh của bạn lên đầu tiên cho các lời nhắc chỉ có một hình ảnh

Mặc dù Gemini có thể diễn giải hình ảnh và văn bản theo thứ tự bất kỳ trong câu lệnh, nhưng hãy đặt một hình ảnh duy nhất trước khi lời nhắc qua văn bản có thể mang lại kết quả tốt hơn. Trong các mẫu sau, bạn sẽ thấy hình ảnh xuất hiện trước nội dung trong mỗi câu lệnh.

Khắc phục sự cố với câu lệnh đa phương thức

Bạn có thể cần phải khắc phục sự cố cho câu lệnh của mình nếu không nhận được câu trả lời hữu ích. Dưới đây là một vài chiến lược bạn có thể thử.

Nếu mô hình không lấy thông tin từ phần có liên quan của hình ảnh

Để nhận được câu trả lời cụ thể hơn, bạn có thể chỉ ra khía cạnh của hình ảnh mà bạn muốn nhận được câu lệnh lấy thông tin từ để cung cấp thông tin phản hồi.

Câu lệnh	Phản hồi của mô hình
Tã này sẽ dùng được cho em bé trong bao nhiêu ngày?	Tã sẽ tồn tại trong 198 ngày trước khi hết.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Tã lót này sẽ dùng được bao lâu trước khi tôi hết? Sử dụng trọng lượng hiển thị trên hộp để xác định tuổi của trẻ và sử dụng tổng số tã có trong hộp. Chia tổng số cho số lượng tã mà trẻ trải qua mỗi ngày.	Hộp có 198 tã. Hộp có ghi rõ tã dành cho trẻ nặng 22-37 pao. Trẻ em trung bình trong khoảng cân nặng này có khả năng từ 1 đến 2 tuổi. Một đứa trẻ 2 tuổi thường trải qua 6 tã mỗi ngày, do đó, tã sẽ kéo dài khoảng 33 ngày (198/6).

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Tã lót này sẽ dùng được bao lâu trước khi tôi hết?

Sử dụng trọng lượng hiển thị trên hộp để xác định tuổi của trẻ và sử dụng tổng số tã có trong hộp.

Chia tổng số cho số lượng tã mà trẻ trải qua mỗi ngày.

Hộp có 198 tã. Hộp có ghi rõ tã dành cho trẻ nặng 22-37 pao.

Trẻ em trung bình trong khoảng cân nặng này có khả năng từ 1 đến 2 tuổi.

Một đứa trẻ 2 tuổi thường trải qua 6 tã mỗi ngày, do đó, tã sẽ kéo dài khoảng 33 ngày (198/6).

Nếu đầu ra mô hình quá chung chung và không đủ phù hợp với đầu vào hình ảnh

Để giúp mô hình điều chỉnh phản hồi cho phù hợp với(các) hình ảnh, hãy thử yêu cầu mô hình mô tả hình ảnh trước khi thực hiện nhiệm vụ lập luận.

Câu lệnh	Phản hồi của mô hình
Điểm chung giữa những hình ảnh này là gì?	Cả 4 hình ảnh đều là ví dụ về ảnh phong cảnh.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Đầu tiên, hãy mô tả chi tiết nội dung trong mỗi hình ảnh. Điểm chung giữa những hình ảnh này là gì?	Hình ảnh đầu tiên là một người đang đóng gói vali. Hình ảnh thứ hai là hành lang trống trong một trung tâm mua sắm. Hình ảnh thứ ba cho thấy một cuộn giấy vệ sinh. Hình ảnh thứ tư cho thấy biển tối và bão bão. Điểm chung giữa những hình ảnh này là chúng đều là ví dụ về không gian tối giản. Không gian ước chừng là những địa điểm hoặc tình huống nằm giữa hai địa điểm hoặc tình huống khác. Chúng thường có đặc điểm là không chắc chắn hoặc không rõ ràng. Hình ảnh đầu tiên cho thấy một người đang ở nhà và đang đi du lịch. Hình ảnh thứ hai là hành lang giữa hai cửa hàng. Hình ảnh thứ ba là giấy vệ sinh, có thể tượng trưng cho một phòng tắm. Phòng tắm là không gian chuyển tiếp giữa không gian riêng tư và lĩnh vực công cộng. Đó là nơi chúng ta chuẩn bị bước vào hoặc rời khỏi thế giới bên ngoài. Hình ảnh thứ tư cho thấy biển ở giữa bình lặng và bão. Không gian gần gũi có thể vừa thú vị vừa đáng lo ngại. Chúng có thể là nơi có sự bắt đầu mới hoặc nơi kết thúc. Nội dung có thể là một nơi suy ngẫm hoặc một nơi hành động.

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Đầu tiên, hãy mô tả chi tiết nội dung trong mỗi hình ảnh. Điểm chung giữa những hình ảnh này là gì?

Hình ảnh đầu tiên là một người đang đóng gói vali. Hình ảnh thứ hai là hành lang trống trong một trung tâm mua sắm. Hình ảnh thứ ba cho thấy một cuộn giấy vệ sinh. Hình ảnh thứ tư cho thấy biển tối và bão bão.

Điểm chung giữa những hình ảnh này là chúng đều là ví dụ về không gian tối giản. Không gian ước chừng là những địa điểm hoặc tình huống nằm giữa hai địa điểm hoặc tình huống khác. Chúng thường có đặc điểm là không chắc chắn hoặc không rõ ràng.

Hình ảnh đầu tiên cho thấy một người đang ở nhà và đang đi du lịch. Hình ảnh thứ hai là hành lang giữa hai cửa hàng. Hình ảnh thứ ba là giấy vệ sinh, có thể tượng trưng cho một phòng tắm. Phòng tắm là không gian chuyển tiếp giữa không gian riêng tư và lĩnh vực công cộng. Đó là nơi chúng ta chuẩn bị bước vào hoặc rời khỏi thế giới bên ngoài.

Hình ảnh thứ tư cho thấy biển ở giữa bình lặng và bão.

Không gian gần gũi có thể vừa thú vị vừa đáng lo ngại. Chúng có thể là nơi có sự bắt đầu mới hoặc nơi kết thúc. Nội dung có thể là một nơi suy ngẫm hoặc một nơi hành động.

Bạn cũng có thể thử yêu cầu mô hình một cách rõ ràng tham chiếu đến nội dung trong hình ảnh.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Điểm chung giữa những hình ảnh này là gì? Tham khảo nội dung trong các hình ảnh trong câu trả lời của bạn.	Tất cả hình ảnh này đều liên quan đến du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali, hình ảnh thứ hai cho thấy hành lang trống trong một trung tâm mua sắm, hình ảnh thứ ba cho thấy một chồng giấy vệ sinh và hình ảnh thứ tư cho thấy biển tối đen bão bùng. Tất cả những hình ảnh này đều liên quan đến du lịch vì chúng là tất cả những thứ mà mọi người cần hoặc sử dụng khi họ đi du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali. Đây là hành động mà mọi người thường làm khi sắp xếp hành lý khi đang thực hiện một chuyến đi. Hình ảnh thứ hai cho thấy hành lang trống rỗng trong một trung tâm mua sắm, nơi mọi người thường tìm mua đồ cho chuyến đi của mình. Hình ảnh thứ ba cho thấy một chồng giấy vệ sinh, đó là mà mọi người thường sử dụng khi đi du lịch. Hình ảnh thứ tư hiển thị biển tối và bão bão, thứ mà mọi người thường gặp khi đi du lịch.

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Điểm chung giữa những hình ảnh này là gì? Tham khảo nội dung trong các hình ảnh trong câu trả lời của bạn.

Tất cả hình ảnh này đều liên quan đến du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali, hình ảnh thứ hai cho thấy hành lang trống trong một trung tâm mua sắm, hình ảnh thứ ba cho thấy một chồng giấy vệ sinh và hình ảnh thứ tư cho thấy biển tối đen bão bùng.

Tất cả những hình ảnh này đều liên quan đến du lịch vì chúng là tất cả những thứ mà mọi người cần hoặc sử dụng khi họ đi du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali. Đây là hành động mà mọi người thường làm khi sắp xếp hành lý khi đang thực hiện một chuyến đi. Hình ảnh thứ hai cho thấy hành lang trống rỗng trong một trung tâm mua sắm, nơi mọi người thường tìm mua đồ cho chuyến đi của mình. Hình ảnh thứ ba cho thấy một chồng giấy vệ sinh, đó là mà mọi người thường sử dụng khi đi du lịch. Hình ảnh thứ tư hiển thị biển tối và bão bão, thứ mà mọi người thường gặp khi đi du lịch.

Các mẹo tương tự cũng áp dụng cho sản phẩm sáng tạo từ hình ảnh. Trong ví dụ sau với chú thỏ, việc yêu cầu mô hình bao gồm các khía cạnh từ hình ảnh một cách rõ ràng có thể cải thiện kết quả.

Câu lệnh	Phản hồi của mô hình
Bạn có thể viết cho tôi một bài thơ về hình ảnh này không?	Chú thỏ nhỏ, rất mềm và nâu, Nhảy lên nhảy xuống. Tai bạn thật dài, đuôi bạn thật nhỏ, Bạn là sinh vật dễ thương nhất trong số đó. Bạn gặm cỏ, thật xanh và ngọt ngào, Và biến đi khi bạn thấy tôi. Nhưng tôi sẽ luôn là bạn của bạn, Thỏ nhỏ, cho đến cuối video.

Câu lệnh

Phản hồi của mô hình

Bạn có thể viết cho tôi một bài thơ về hình ảnh này không?

Chú thỏ nhỏ, rất mềm và nâu,
Nhảy lên nhảy xuống.
Tai bạn thật dài, đuôi bạn thật nhỏ,
Bạn là sinh vật dễ thương nhất trong số đó.

Bạn gặm cỏ, thật xanh và ngọt ngào,
Và biến đi khi bạn thấy tôi.
Nhưng tôi sẽ luôn là bạn của bạn,
Thỏ nhỏ, cho đến cuối video.

Câu lệnh đã cập nhật	Cải thiện câu trả lời
Bạn có thể viết cho tôi một bài thơ mang tính mô tả và kịch tính về hình ảnh này kèm theo thông tin về vị trí không?	Chú thỏ nhỏ trên xanh lục, Đôi tai dài quá, hóm hỉnh quá. Bạn thấy gì ngoài kia, Ở phía xa, bạn nhìn chằm chằm ở đâu? Đó có phải là màu xanh đại dương không, Lấp lánh dưới ánh nắng mặt trời? Hoặc những con sóng ập đến và gầm thét, Một giai điệu mà bạn yêu thích? Thỏ nhỏ, nói thật đi, Điều gì thu hút sự chú ý của bạn? Đó có phải là làn gió thổi mặn, Hoặc chim hải âu khóc điều đó được không? Có thể là do sức bao hàm của chúng, Một thế giới thật rộng lớn và nhỏ bé. Nơi mơ ước lang thang, Và các cuộc phiêu lưu là điều có thể gieo hạt. Thỏ nhỏ, không biết bạn mơ ước gì, Thật bình yên khi bạn ngồi trên bãi cỏ. Bạn có khao khát khám phá biển sâu, Hoặc ở trên mặt đất, nơi bạn có thể nhảy? Dù là gì, bạn thỏ nhỏ nào! Hãy giữ cho ngọn lửa diệu kỳ đó cháy sáng. Theo ước mơ và khát vọng của bạn, Một thế giới rộng lớn đang chờ đợi tác phẩm của bạn.

Câu lệnh đã cập nhật

Cải thiện câu trả lời

Bạn có thể viết cho tôi một bài thơ mang tính mô tả và kịch tính về hình ảnh này kèm theo thông tin về vị trí không?

Chú thỏ nhỏ trên xanh lục,
Đôi tai dài quá, hóm hỉnh quá.
Bạn thấy gì ngoài kia,
Ở phía xa, bạn nhìn chằm chằm ở đâu?

Đó có phải là màu xanh đại dương không,
Lấp lánh dưới ánh nắng mặt trời?
Hoặc những con sóng ập đến và gầm thét,
Một giai điệu mà bạn yêu thích?

Thỏ nhỏ, nói thật đi,
Điều gì thu hút sự chú ý của bạn?
Đó có phải là làn gió thổi mặn,
Hoặc chim hải âu khóc điều đó được không?

Có thể là do sức bao hàm của chúng,
Một thế giới thật rộng lớn và nhỏ bé.
Nơi mơ ước lang thang,
Và các cuộc phiêu lưu là điều có thể gieo hạt.

Thỏ nhỏ, không biết bạn mơ ước gì,
Thật bình yên khi bạn ngồi trên bãi cỏ.
Bạn có khao khát khám phá biển sâu,
Hoặc ở trên mặt đất, nơi bạn có thể nhảy?

Dù là gì, bạn thỏ nhỏ nào!
Hãy giữ cho ngọn lửa diệu kỳ đó cháy sáng.
Theo ước mơ và khát vọng của bạn,
Một thế giới rộng lớn đang chờ đợi tác phẩm của bạn.

Khắc phục vấn đề không thực hiện được phần nào của câu lệnh

Có thể khó biết được liệu một câu lệnh có thành công hay không do mô hình không hiểu hình ảnh khi bắt đầu hoặc liệu có hiểu hình ảnh nhưng không thực hiện các bước lập luận chính xác sau đó.

Để phân biệt những lý do đó, hãy yêu cầu mô hình mô tả nội dung trong hình ảnh.

Trong ví dụ dưới đây, nếu mô hình phản hồi bằng một món ăn vặt có vẻ bất ngờ khi đi đôi với (ví dụ: bỏng ngô), trước tiên bạn có thể khắc phục sự cố để xác định xem mô hình có được nhận dạng chính xác không mà hình ảnh có chứa trà.

Câu lệnh	Lời nhắc khắc phục sự cố
Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ?	Mô tả nội dung trong hình ảnh này.

Một chiến lược khác là yêu cầu mô hình giải thích lý do của nó. Điều này có thể giúp bạn thu hẹp phần nào của nguyên nhân gây ra vấn đề, nếu có.

Câu lệnh	Lời nhắc khắc phục sự cố
Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ?	Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ? Vui lòng giải thích lý do.

Điều chỉnh tham số lấy mẫu

Trong mỗi yêu cầu, bạn không chỉ gửi lời nhắc đa phương thức mà còn gửi một nhóm thông số lấy mẫu cho mô hình. Mô hình có thể tạo ra kết quả khác nhau cho các giá trị thông số khác nhau. Thử nghiệm với để nhận được giá trị tốt nhất cho tác vụ. Sau đây là các thông số thường được điều chỉnh nhất:

Nhiệt độ
trên cùng
hàng đầu

Nhiệt độ

Nhiệt độ được dùng để lấy mẫu trong quá trình tạo phản hồi, xảy ra khi áp dụng giá trị đỉnh P và K trên cùng. Nhiệt độ kiểm soát mức độ ngẫu nhiên trong việc lựa chọn mã thông báo. Nhiệt độ thấp hơn sẽ phù hợp với những câu lệnh đòi hỏi câu trả lời sáng tạo hoặc mang tính quyết định hơn, ít cởi mở hoặc sáng tạo hơn, trong khi nhiệt độ cao hơn có thể dẫn đến kết quả sáng tạo hoặc đa dạng. Nhiệt độ bằng 0 có tính xác định, nghĩa là phản hồi xác suất cao nhất luôn được chọn.

Đối với hầu hết các trường hợp sử dụng, hãy thử bắt đầu ở mức nhiệt độ là 0,4. Nếu bạn cần nhiều kết quả sáng tạo hơn, hãy thử tăng nhiệt độ. Nếu bạn quan sát thấy ảo giác rõ ràng, hãy thử giảm nhiệt độ.

Hàng đầu

Top-K thay đổi cách mô hình chọn mã thông báo cho đầu ra. K hàng đầu là 1 có nghĩa là mã thông báo được chọn tiếp theo là có khả năng cao nhất trong số tất cả mã thông báo trong vốn từ của mô hình (còn gọi là giải mã tham lam), trong khi hàng đầu là 3 có nghĩa là mã thông báo tiếp theo được chọn trong số ba mã thông báo có khả năng xuất hiện nhất theo sử dụng nhiệt độ.

Đối với mỗi bước chọn mã thông báo, những mã thông báo hàng đầu có xác suất cao nhất sẽ được lấy mẫu. Sau đó các mã thông báo được lọc thêm dựa trên bên trên cùng với mã thông báo cuối cùng được chọn bằng cách lấy mẫu nhiệt độ.

Hãy chỉ định một giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của top-K là 32.

Hàng đầu

P hàng đầu thay đổi cách mô hình chọn mã thông báo cho đầu ra. Mã thông báo được chọn trong số nhiều mã thông báo nhất (xem top-K) tối thiểu có thể xảy ra cho đến khi tổng xác suất của chúng bằng giá trị P hàng đầu. Ví dụ: nếu mã thông báo A, B và C có xác suất là 0,6, 0,3, 0,1 và giá trị đỉnh P là 0,9, thì mô hình sẽ chọn A hoặc B làm mã thông báo tiếp theo bằng cách sử dụng nhiệt độ và loại trừ C làm ứng viên.

Hãy chỉ định một giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của đỉnh P là 1,0.

Các bước tiếp theo

Hãy thử viết câu lệnh đa phương thức của riêng bạn bằng AI của Google Studio.
Để được hướng dẫn thêm về cách thiết kế câu lệnh, hãy tham khảo Chiến lược lời nhắc.

Chiến lược nhắc tệp

Dùng tệp nội dung nghe nhìn với câu lệnh

Chiến lược nhắc bằng nội dung nghe nhìn

Kiến thức cơ bản về thiết kế câu lệnh

Khắc phục sự cố cho câu lệnh đa phương thức

Nguyên tắc cơ bản về thiết kế câu lệnh

Hãy nêu cụ thể trong chỉ dẫn của bạn

Thêm một vài ví dụ

Chia nhỏ từng bước

Hãy thử chỉ định định dạng đầu ra

Đặt hình ảnh của bạn lên đầu tiên cho các lời nhắc chỉ có một hình ảnh

Khắc phục sự cố với câu lệnh đa phương thức

Nếu mô hình không lấy thông tin từ phần có liên quan của hình ảnh

Nếu đầu ra mô hình quá chung chung và không đủ phù hợp với đầu vào hình ảnh

Khắc phục vấn đề không thực hiện được phần nào của câu lệnh

Điều chỉnh tham số lấy mẫu

Nhiệt độ

Hàng đầu

Hàng đầu

Các bước tiếp theo