AI Agent Roadmap: Viết Prompt Hiệu Quả cho Các Tác Vụ Agent Phức Tạp

17.05.2025 08:29 | Bài viết thủ thuật

Chào mừng các bạn quay trở lại với series “AI Agent Roadmap”! Ở các bài viết trước, chúng ta đã cùng nhau tìm hiểu AI Agent là gì, sâu hơn vào vòng lặp Perceive-Reason-Act của agent, cách xây dựng công cụ cho agent, và những kiến thức nền tảng về Transformers và LLM – trái tim của hầu hết các agent hiện đại. Chúng ta cũng đã thảo luận về cửa sổ ngữ cảnh, embeddings và tìm kiếm vector, cũng như kỹ thuật RAG để làm agent thông minh hơn.

Ngày hôm nay, chúng ta sẽ đi sâu vào một khía cạnh cực kỳ quan trọng, là cầu nối trực tiếp giữa người phát triển và khả năng của agent: Viết Prompt Hiệu Quả cho Các Tác Vụ Agent Phức Tạp. Nếu LLM là bộ não, thì prompt chính là hướng dẫn sử dụng bộ não đó để thực hiện công việc của agent.

Tại Sao Prompt Cho Agent Lại Khác Biệt?

Khi làm việc với các mô hình ngôn ngữ lớn (LLM) nói chung, prompt là cách chúng ta yêu cầu mô hình sinh văn bản, trả lời câu hỏi, tóm tắt, dịch thuật, v.v. Nhưng đối với một AI Agent, đặc biệt là agent được thiết kế để thực hiện các tác vụ phức tạp, prompt không chỉ đơn thuần là một yêu cầu sinh văn bản.

AI Agent, như chúng ta đã biết từ bài về vòng lặp Agent (Perceive, Reason, Act), không chỉ *trả lời* mà còn *thực hiện*. Agent cần phải:

Nhận thức (Perceive): Hiểu yêu cầu của người dùng và ngữ cảnh hiện tại.
Suy luận (Reason): Lập kế hoạch, phân tích vấn đề thành các bước nhỏ hơn, quyết định hành động tiếp theo.
Hành động (Act): Sử dụng các công cụ sẵn có (gọi API, chạy code, tìm kiếm thông tin, v.v.) để thực hiện các bước trong kế hoạch.
Lặp lại: Dựa trên kết quả hành động, nhận thức lại trạng thái mới và tiếp tục suy luận/hành động cho đến khi hoàn thành mục tiêu.

Prompt cho agent cần phải hướng dẫn toàn bộ quá trình này. Nó không chỉ yêu cầu LLM *nói* gì, mà còn yêu cầu LLM *làm* gì tiếp theo, dựa trên kết quả của hành động trước đó. Đây là sự khác biệt cốt lõi so với việc chỉ sử dụng LLM để sinh văn bản đơn thuần.

Các Thành Phần Cốt Lõi Của Một Prompt Cho Agent Phức Tạp

Để một agent có thể xử lý các tác vụ phức tạp một cách hiệu quả, prompt cần cung cấp đủ thông tin và cấu trúc để LLM có thể suy luận và hành động đúng đắn. Dưới đây là các thành phần thường thấy trong một prompt được thiết kế cho agent:

1. Vai trò (Role/Persona)

Xác định rõ vai trò hoặc tính cách mà agent nên thể hiện. Điều này giúp định hướng giọng điệu và cách tiếp cận vấn đề của agent. Ví dụ: “Bạn là một trợ lý nghiên cứu chuyên nghiệp”, “Bạn là một chatbot hỗ trợ khách hàng thân thiện”, “Bạn là một nhà phát triển backend giàu kinh nghiệm”.

2. Mục tiêu (Goal/Task Description)

Mô tả rõ ràng tác vụ hoặc mục tiêu cuối cùng mà agent cần đạt được. Đối với tác vụ phức tạp, mục tiêu có thể là một chuỗi các bước hoặc một kết quả cần tổng hợp từ nhiều nguồn. Hãy càng chi tiết càng tốt về kết quả mong muốn.

3. Các Công cụ Khả dụng (Available Tools)

Liệt kê các công cụ mà agent có thể sử dụng để hoàn thành mục tiêu. Quan trọng nhất là phải mô tả rõ ràng chức năng của từng công cụ, các tham số đầu vào cần thiết và định dạng đầu ra dự kiến. Đây là nơi agent “học” cách tương tác với thế giới bên ngoài. Chúng ta đã nói chi tiết về việc xây dựng công cụ trong một bài viết trước.

Ví dụ về mô tả công cụ trong prompt:

Các công cụ bạn có thể sử dụng:
1. google_search(query: str): Tìm kiếm thông tin trên Google. Hữu ích khi cần thông tin mới nhất hoặc kiến thức chung.
2. calculator(expression: str): Thực hiện các phép tính toán học. Hữu ích khi cần xử lý số liệu phức tạp.
3. file_reader(file_path: str): Đọc nội dung từ một tệp cụ thể trên hệ thống. Hữu ích khi cần xử lý dữ liệu cục bộ.

4. Ràng buộc và Quy tắc (Constraints and Rules)

Đặt ra các giới hạn, quy tắc hoặc yêu cầu đặc biệt mà agent cần tuân thủ. Điều này có thể bao gồm định dạng đầu ra bắt buộc, giới hạn thời gian, tuân thủ chính sách an toàn, hoặc tránh sử dụng một số công cụ nhất định trừ khi cần thiết.

Đầu ra cuối cùng phải ở định dạng JSON.
Không được thực hiện các hành động có thể gây tổn hại hoặc vi phạm quyền riêng tư.
Nếu thông tin không đủ, hãy hỏi thêm người dùng thay vì đoán.

5. Ngữ cảnh và Lịch sử (Context and History)

Cung cấp cho agent thông tin liên quan từ các lượt tương tác trước đó hoặc dữ liệu ngữ cảnh từ môi trường. Đối với các tác vụ phức tạp, việc duy trì ngữ cảnh qua nhiều bước là tối quan trọng. Các kỹ thuật như RAG (Retrieval Augmented Generation) và việc quản lý cửa sổ ngữ cảnh của LLM đóng vai trò quan trọng ở đây.

6. Định dạng Đầu ra/Cơ chế Hành động (Output Format/Action Mechanism)

Xác định rõ cách mà agent nên trình bày suy luận và các hành động mà nó muốn thực hiện. Đây là phần kỹ thuật quan trọng nhất, hướng dẫn LLM cách giao tiếp với hệ thống agent để gọi công cụ hoặc báo cáo kết quả.

Một mô hình phổ biến là sử dụng cấu trúc “Thought-Action-Observation” (Suy luận-Hành động-Quan sát), lấy cảm hứng từ framework ReAct (Reasoning and Acting). Prompt sẽ hướng dẫn LLM lần lượt sinh ra:

Thought: LLM suy nghĩ về trạng thái hiện tại và lập kế hoạch bước tiếp theo.
Action: LLM quyết định gọi công cụ nào và với tham số gì, theo một định dạng cụ thể (ví dụ: JSON).
Observation: Kết quả từ việc gọi công cụ được đưa trở lại vào prompt cho bước tiếp theo.

Xử Lý Sự Phức Tạp: Suy Luận Theo Chuỗi (Chain-of-Thought) và Tích Hợp Công Cụ

Đối với các tác vụ phức tạp, việc chỉ đơn thuần liệt kê các thành phần là chưa đủ. Agent cần khả năng suy luận sâu sắc và phân rã vấn đề. Đây là lúc kỹ thuật “Suy luận theo chuỗi” (Chain-of-Thought – CoT) trở nên vô giá. Bằng cách yêu cầu LLM trình bày các bước suy nghĩ của mình trước khi đưa ra quyết định hoặc hành động, chúng ta không chỉ cải thiện khả năng giải quyết vấn đề của nó mà còn giúp chúng ta gỡ lỗi khi agent gặp sự cố.

Prompt cần được cấu trúc để khuyến khích hoặc yêu cầu agent thực hiện các bước suy luận rõ ràng. Kết hợp CoT với cơ chế gọi công cụ tạo nên mô hình mạnh mẽ cho các tác vụ đa bước.

Ví dụ về cấu trúc prompt sử dụng ReAct:

System: Bạn là một trợ lý có khả năng sử dụng các công cụ để hoàn thành yêu cầu của người dùng.
Các công cụ bạn có thể sử dụng:
google_search(query: str): Tìm kiếm thông tin trên Google.
calculator(expression: str): Thực hiện phép tính.

Để thực hiện một hành động, hãy sử dụng định dạng sau:
Action:

{{
"tool": "tên_công_cụ",
"tool_input": "tham_số_đầu_vào"
}}
```
Sau mỗi hành động, hệ thống sẽ cung cấp kết quả trong Observation.

Bắt đầu xử lý yêu cầu của người dùng. Hãy suy nghĩ từng bước trước khi hành động.

User: Tìm xem thủ đô của Pháp là gì, sau đó tính căn bậc hai của số chữ cái trong tên thủ đô đó.

Assistant:
Thought: Người dùng muốn biết thủ đô của Pháp, sau đó thực hiện phép tính dựa trên tên thủ đô.
Đầu tiên, tôi cần tìm thủ đô của Pháp. Tôi sẽ sử dụng công cụ google_search.
Action:
```
{{
"tool": "google_search",
"tool_input": "thủ đô của Pháp"
}}
```
Observation: Paris là thủ đô của Pháp.
Thought: Thủ đô của Pháp là Paris. Tên này có 5 chữ cái.
Bây giờ tôi cần tính căn bậc hai của 5. Tôi sẽ sử dụng công cụ calculator.
Action:
```
{{
"tool": "calculator",
"tool_input": "sqrt(5)"
}}
```
Observation: sqrt(5) = 2.23606797749979
Thought: Tôi đã tìm được thủ đô của Pháp (Paris) và tính được căn bậc hai của số chữ cái trong tên đó (sqrt(5) ≈ 2.24).
Tôi đã hoàn thành yêu cầu.
Final Answer: Căn bậc hai của số chữ cái trong tên thủ đô của Pháp là khoảng 2.24.

Trong ví dụ trên, prompt hướng dẫn agent (qua LLM) không chỉ trả lời trực tiếp mà còn thực hiện quy trình suy luận (Thought), chọn công cụ (Action), và xử lý kết quả (Observation). Đây là mô hình cơ bản cho phép agent thực hiện các tác vụ phức tạp, đa bước.

Bảng So Sánh: Prompt Đơn Giản vs. Prompt Cho Agent

Để làm rõ hơn sự khác biệt, hãy xem bảng so sánh dưới đây:

Đặc điểm	Prompt Đơn Giản	Prompt Cho Agent Phức Tạp
Mục đích chính	Sinh văn bản, trả lời câu hỏi, tóm tắt, dịch thuật.	Hướng dẫn suy luận, lập kế hoạch, sử dụng công cụ để thực hiện tác vụ đa bước.
Cấu trúc	Thường là một hoặc vài câu lệnh đơn giản.	Có cấu trúc rõ ràng, bao gồm vai trò, mục tiêu, mô tả công cụ, ràng buộc, ngữ cảnh, và định dạng đầu ra cho suy luận/hành động.
Đầu ra mong muốn	Văn bản kết quả trực tiếp.	Chuỗi suy luận (Thought), quyết định hành động (Action) theo định dạng cụ thể, hoặc kết quả cuối cùng sau khi hoàn thành tác vụ.
Vai trò của LLM	Đóng vai trò là người sinh văn bản/trả lời.	Đóng vai trò là bộ não (Reasoning engine), quyết định hành động dựa trên thông tin đầu vào và khả năng của công cụ.
Tương tác với môi trường	Ít hoặc không có tương tác trực tiếp với môi trường bên ngoài.	Thiết kế để tương tác liên tục với môi trường thông qua việc sử dụng công cụ.

Kỹ Thuật Nâng Cao Hiệu Quả Prompt Cho Agent

Viết prompt hiệu quả là một nghệ thuật kết hợp với khoa học. Dưới đây là một số kỹ thuật giúp cải thiện hiệu suất của agent:

1. Càng Cụ Thể Càng Tốt

Tránh sự mơ hồ trong mô tả mục tiêu, công cụ và ràng buộc. Mô tả chính xác công cụ làm gì, đầu vào/đầu ra của nó như thế nào. Nêu rõ kết quả cuối cùng mong muốn ở định dạng nào.

2. Cung cấp Ví dụ (Few-shot Prompting)

Đối với các tác vụ hoặc cấu trúc đầu ra phức tạp, việc cung cấp một vài ví dụ hoàn chỉnh về cách agent nên suy luận và sử dụng công cụ có thể cải thiện đáng kể kết quả. LLM có xu hướng học theo các mẫu được cung cấp trong prompt.

3. Lặp lại và Tinh chỉnh

Prompt engineering là một quá trình lặp đi lặp lại. Rất hiếm khi có thể viết được prompt hoàn hảo ngay từ lần đầu. Hãy thử nghiệm, quan sát cách agent phản ứng, xác định điểm yếu (agent suy luận sai, dùng sai công cụ, không hiểu yêu cầu) và điều chỉnh prompt cho phù hợp. Kỹ thuật này bổ sung cho Tinh chỉnh (Fine-Tuning); prompt engineering tập trung vào việc hướng dẫn mô hình đã được đào tạo sẵn, trong khi fine-tuning điều chỉnh trọng số của mô hình.

4. Khuyến khích Tự sửa lỗi (Self-Correction)

Thiết kế prompt để agent có thể nhận ra và sửa chữa lỗi của chính nó. Điều này có thể bao gồm việc yêu cầu agent đánh giá kết quả hành động của mình hoặc cung cấp hướng dẫn về cách xử lý các trường hợp lỗi từ công cụ.

5. Quản lý Ngữ cảnh Thông Minh

Như đã thảo luận trong các bài về cửa sổ ngữ cảnh và token, LLM có giới hạn về lượng thông tin có thể xử lý cùng lúc. Đối với các tác vụ kéo dài nhiều lượt, cần có chiến lược để chỉ đưa những thông tin quan trọng nhất từ lịch sử hoặc từ hệ thống truy xuất (RAG) vào prompt hiện tại.

Những Lỗi Thường Gặp Khi Viết Prompt Cho Agent

Khi bắt đầu xây dựng agent, bạn có thể gặp phải một số vấn đề phổ biến liên quan đến prompt:

Mô tả công cụ không rõ ràng: Agent không biết khi nào hoặc làm thế nào để sử dụng công cụ.
Thiếu hướng dẫn suy luận: Agent chỉ cố gắng trả lời trực tiếp thay vì phân tích vấn đề thành các bước.
Định dạng đầu ra không nhất quán: Hệ thống agent không thể phân tích được quyết định hành động của LLM.
Bỏ qua ràng buộc: Agent thực hiện các hành động không mong muốn hoặc vi phạm quy tắc.
Ngữ cảnh quá tải hoặc thiếu: Prompt quá dài vượt quá cửa sổ ngữ cảnh hoặc thiếu thông tin quan trọng từ các bước trước.
Không xử lý được lỗi: Agent không biết làm gì khi công cụ trả về lỗi.

Việc nhận diện và khắc phục những lỗi này thông qua việc tinh chỉnh prompt là chìa khóa để xây dựng agent mạnh mẽ và đáng tin cậy.

Kết Luận

Viết prompt hiệu quả là một kỹ năng nền tảng và liên tục phát triển trong lĩnh vực phát triển AI Agent. Nó là phương tiện chính để chúng ta định hình hành vi, khả năng suy luận và tương tác của agent với môi trường thông qua các công cụ.

Đối với các tác vụ phức tạp, prompt cần vượt ra ngoài việc chỉ là câu hỏi hay yêu cầu đơn thuần. Nó phải là một bộ hướng dẫn chi tiết bao gồm vai trò, mục tiêu, công cụ, ràng buộc, ngữ cảnh và cơ chế giao tiếp rõ ràng (như mô hình Thought-Action-Observation). Kỹ thuật suy luận theo chuỗi (CoT) là cực kỳ quan trọng để giúp agent phân rã vấn đề và đưa ra quyết định hợp lý.

Hãy nhớ rằng prompt engineering là một quá trình lặp lại. Đừng ngại thử nghiệm, quan sát và tinh chỉnh prompt của bạn dựa trên kết quả thực tế. Nắm vững kỹ năng này sẽ mở ra cánh cửa để bạn xây dựng những AI Agent ngày càng thông minh và có khả năng thực hiện nhiều loại tác vụ phức tạp trong thế giới thực.

Hy vọng bài viết này đã cung cấp cho bạn cái nhìn sâu sắc về tầm quan trọng và cách viết prompt hiệu quả cho AI Agent. Trong các bài viết tiếp theo của series “AI Agent Roadmap”, chúng ta sẽ tiếp tục khám phá các khía cạnh nâng cao khác trong việc xây dựng và triển khai agent. Hẹn gặp lại!