⚖️ 3. Prompt Ensembling: Cải thiện độ tin cậy của LLM bằng đa hướng tiếp cận

💡

Tưởng tượng bạn dạy một đứa trẻ học toán. Mỗi khi bạn hỏi nó một câu hỏi, nó đều trả lời một cách khác nhau. Có lúc nó trả lời đúng, có lúc sai. Bạn sẽ làm gì để giúp nó trả lời đúng hơn?

Một cách đơn giản là hỏi đi hỏi lại câu hỏi đó nhiều lần. Mỗi lần hỏi, bạn có thể thay đổi cách hỏi để giúp đứa trẻ suy nghĩ theo nhiều góc độ khác nhau. Ví dụ, nếu bạn hỏi "1 + 1 = mấy?", bạn có thể hỏi "Thêm một vào một bằng mấy?".

Cách này cũng tương tự như prompt ensembling. Prompt ensembling là một kỹ thuật sử dụng nhiều prompt khác nhau để hỏi cùng một câu hỏi. Mỗi prompt sẽ khai thác một góc nhìn khác nhau về câu hỏi, giúp LLM đưa ra câu trả lời toàn diện và chính xác hơn.

DiVeRSe: Kiểm tra đa chiều

DiVeRSe sử dụng 3 bước để cải thiện độ tin cậy:

🌾 Nhiều prompt đa dạng: Tạo 5 prompt khác nhau bằng cách lấy ngẫu nhiên một vài ví dụ từ tập dữ liệu huấn luyện.
🦅 Kiểm tra phân biệt tốt xấu: Sử dụng một mạng lưới thần kinh để phân tích từng câu trả lời do LLM tạo ra, đánh giá mức độ hợp lý và chính xác của chúng.
🧠 Kiểm tra tính hợp lý của suy luận: Kiểm tra từng bước trong quá trình suy luận của LLM để đảm bảo độ logic và không có sai sót.

DiVeRSe tạo ra 100 câu trả lời khác nhau cho mỗi prompt, sau đó kiểm tra và chấm điểm từng câu. Cuối cùng, điểm cho từng đáp án tổng hợp được tính toán dựa trên sự đồng thuận của các câu trả lời và điểm từ bước 2, 3.

Ví dụ:

Q: Natalia bán được bao nhiêu kẹp tóc trong tháng 4 và tháng 5?

A1:

Natalia bán được 48/2 = 24 kẹp tóc vào tháng 5.
Tổng cộng Natalia bán được 48+24 = 72 kẹp tóc.

A2:

Natalia bán được 0.5*100 = $50.
Thêm 15 nữa = $65.
Thêm gấp đôi từ ông bà là $90.
Cần thêm 100-90 = $10 nữa.

A1 được đánh giá cao hơn vì logic, rõ ràng và phù hợp với thông tin ban đầu.

AMA Prompting

AMA giống DiVeRSe nhưng thay vì dùng ví dụ ngẫu nhiên, nó sử dụng chính LLM để tạo ra nhiều prompt khác nhau từ cùng một câu hỏi.

Đa dạng câu hỏi

Hãy tưởng tượng bạn đang phân tích các bài đánh giá sản phẩm để tìm hiểu ưu nhược điểm của sản phẩm. Bạn có thể bắt đầu với câu hỏi tổng quát như "What are the good things about this product?" (Những điều tốt về sản phẩm này là gì?).

❓Tái diễn dịch câu hỏi: AMA có thể tạo các câu hỏi cụ thể hơn như "What features do you like the most?" (Tính năng nào bạn thích nhất?), "What problems does this product solve well?" (Sản phẩm này giải quyết vấn đề nào tốt?), hay "Would you recommend this product to a friend?" (Bạn có khuyên dùng sản phẩm này cho bạn bè không?).
🌴 Áp dụng câu hỏi cho ngữ cảnh: Mỗi câu hỏi được kết hợp với một bài đánh giá cụ thể để tạo thành các cặp riêng biệt.
🔤 Tạo câu trả lời trung gian: Mô hình trả lời từng cặp bằng những cụm từ như "easy to use" (dễ sử dụng), "long battery life" (pin lâu), hay "not good for gaming" (không tốt cho chơi game).
🏷️ Ánh xạ câu trả lời trung gian thành nhãn nhiệm vụ: Các cụm từ này được dịch thành nhãn như "positive" (tích cực), "negative" (tiêu cực), hoặc "neutral" (trung lập).

Bằng cách áp dụng quy trình này trên nhiều bài đánh giá, bạn có thể thu thập một lượng thông tin chi tiết và đa dạng về ưu nhược điểm của sản phẩm.

Lợi ích của phương pháp này:

Cải thiện độ chính xác: Bằng cách xem xét vấn đề từ nhiều góc độ, AMA có thể giảm thiểu sai sót và đưa ra câu trả lời đáng tin cậy hơn.
Thu thập đa dạng thông tin: Phương pháp này giúp thu thập thông tin chi tiết hơn so với sử dụng một câu hỏi tổng quát duy nhất.
Tùy biến cho từng nhiệm vụ: Các prompt mẫu có thể được điều chỉnh tùy theo loại thông tin cần chiết xuất.

Tổng hợp các câu trả lời

Answer Aggregation là một kỹ thuật được sử dụng để tổng hợp các câu trả lời cho một câu hỏi. Kỹ thuật này được sử dụng trong các mô hình ngôn ngữ lớn (LLM) để cải thiện độ chính xác và độ tin cậy của các câu trả lời.

Phương pháp đơn giản

Phương pháp đơn giản nhất để tổng hợp các câu trả lời là chọn câu trả lời phổ biến nhất. Phương pháp này đơn giản và dễ thực hiện, nhưng có thể không chính xác trong một số trường hợp. Ví dụ, nếu hai câu hỏi gần giống nhau sinh ra cùng một câu trả lời, thì câu trả lời này có thể không chính xác.

Answer Aggregation

Answer Aggregation sử dụng một phương pháp phức tạp hơn để tổng hợp các câu trả lời. Phương pháp này dựa trên việc ước tính mối phụ thuộc giữa các câu hỏi và gán trọng số cho từng câu trả lời. Điều này giúp giảm thiểu sai lệch và cải thiện độ chính xác.

Cách hoạt động của Answer Aggregation

Answer Aggregation hoạt động theo các bước sau:

LLM tạo ra một tập hợp các câu hỏi cho một câu hỏi.
LLM sử dụng một mô hình giám sát yếu để ước tính mối phụ thuộc giữa các câu hỏi.
LLM gán trọng số cho từng câu trả lời dựa trên mối phụ thuộc.
LLM chọn câu trả lời có trọng số cao nhất làm câu trả lời cuối cùng.

So sánh với các phương pháp khác

Answer Aggregation có thể được so sánh với các phương pháp tổng hợp câu trả lời khác, chẳng hạn như:

Tính chất thông tin: Phương pháp này chọn câu trả lời có thông tin nhất.
Tính nhất quán: Phương pháp này chọn câu trả lời nhất quán nhất với các câu trả lời trước đó.

Ví dụ

Giả sử chúng ta có một câu hỏi là "Thủ đô của Việt Nam là gì?". Phương pháp đơn giản nhất là chọn câu trả lời phổ biến nhất, trong trường hợp này là Hà Nội. Tuy nhiên, phương pháp này có thể không chính xác nếu hai câu hỏi gần giống nhau sinh ra cùng một câu trả lời.

Ví dụ, hai câu hỏi sau có thể sinh ra cùng một câu trả lời là Hà Nội:

Thủ đô của Việt Nam là thành phố nào?
Thành phố nào là thủ đô của Việt Nam?

Trong trường hợp này, phương pháp Answer Aggregation sẽ hiệu quả hơn. LLM sẽ tạo ra một tập hợp các câu hỏi cho câu hỏi gốc, chẳng hạn như:

Thủ đô của Việt Nam là thành phố nào?
Thành phố nào là thủ đô của Việt Nam?
Việt Nam có thủ đô là thành phố nào?
Thành phố thủ đô của Việt Nam là thành phố nào?

LLM sẽ sử dụng một mô hình giám sát yếu để ước tính mối phụ thuộc giữa các câu hỏi này. Ví dụ, các câu hỏi đầu tiên và thứ hai có thể được coi là rất giống nhau, vì vậy chúng sẽ có mối phụ thuộc cao. Các câu hỏi thứ ba và thứ tư cũng có thể được coi là rất giống nhau, vì vậy chúng cũng sẽ có mối phụ thuộc cao. Tuy nhiên, các câu hỏi đầu tiên và thứ ba có thể được coi là ít giống nhau hơn, vì vậy chúng sẽ có mối phụ thuộc thấp hơn.

LLM sẽ sử dụng các mối phụ thuộc này để gán trọng số cho từng câu trả lời. Câu trả lời có trọng số cao nhất sẽ được chọn làm câu trả lời cuối cùng. Trong trường hợp này, câu trả lời cuối cùng sẽ là Hà Nội, vì nó có trọng số cao nhất.

Answer Aggregation thường được coi là một phương pháp tổng hợp câu trả lời hiệu quả hơn các phương pháp khác.

Việc lựa chọn phương pháp ensembling phù hợp phụ thuộc vào loại câu hỏi và khả năng tính toán có sẵn. Tuy nhiên, cả DiVeRSe và AMA đều là những ví dụ điển hình cho thấy ensembling có thể đem lại những lợi ích đáng kể trong việc cải thiện độ tin cậy và hiệu quả của các mô hình ngôn ngữ lớn.