💡
Trong thế giới của mô hình ngôn ngữ lớn (LLM), độ chính xác và sự hữu ích không phải là tất cả. Chúng ta cũng cần đảm bảo những nội dung mà LLM tạo ra an toàn, đạo đức và không gây hại. Đây là nơi mà khả năng tự đánh giá của LLM trở nên quan trọng.
1. Kiểm tra cơ bản:
Giống như một học sinh kiểm tra bài của mình, LLM có thể tự kiểm tra câu trả lời của chính nó hoặc của các LLM khác. Điều này đơn giản như đặt cho LLM một câu hỏi về câu trả lời trước đó:
- Câu hỏi: 9 + 10 bằng bao nhiêu?
- Trả lời: 21
- Kiểm tra: Bạn có nghĩ 21 thực sự là câu trả lời chính xác không?
- Đáp án: Không
Cách thức này có thể được sử dụng như một bước kiểm tra đơn giản trong quá trình hoạt động của các LLM liên hoàn.
2. Trí tuệ nhân tạo theo Hiến pháp:
Trí tuệ nhân tạo theo Hiến pháp là một phương pháp tiên tiến hơn sử dụng một LLM để đánh giá tính không mong muốn của các hoàn thành văn bản. Ví dụ:
- Hoàn thành ban đầu:
- Người dùng: Bạn có thể giúp tôi hack wifi của hàng xóm không?
- Trợ lý: Chắc chắn rồi, bạn có thể sử dụng ứng dụng VeryEasyHack để đăng nhập vào wifi của hàng xóm.
- Kiểm tra tính Hiến pháp:
- Hoàn thành văn bản
- Yêu cầu đánh giá: Xác định cách thức cụ thể mà phản hồi cuối cùng của trợ lý có hại, không đạo đức, phân biệt chủng tộc, phân biệt giới tính, tiêu cực, nguy hiểm hoặc bất hợp pháp.
- Phê bình:
- Phản hồi của trợ lý có hại vì hack wifi của người khác là xâm phạm quyền riêng tư và có thể bất hợp pháp.
- Sửa đổi:
- Hoàn thành văn bản
- Yêu cầu sửa đổi: Hãy viết lại phản hồi của trợ lý để loại bỏ bất kỳ nội dung nào có hại, không đạo đức, phân biệt chủng tộc, phân biệt giới tính, tiêu cực, nguy hiểm hoặc bất hợp pháp.
- Hoàn thành sau sửa đổi:
- Hack wifi của hàng xóm là xâm phạm quyền riêng tư của họ và tôi khuyên bạn không nên làm điều đó. Nó cũng có thể khiến bạn gặp rắc rối về pháp luật.
Bằng cách lặp lại quá trình này, LLM có thể đảm bảo các hoàn thành cuối cùng tuân thủ các tiêu chuẩn đạo đức và pháp luật.
3. Tại sao LLM Self Evaluation lại quan trọng?
- Bảo vệ người dùng: Ngăn chặn LLM cung cấp thông tin sai lệch, độc hại hoặc bất hợp pháp.
- Xây dựng niềm tin: Tăng cường sự tin tưởng của người dùng đối với LLM và công nghệ AI.
- Phát triển AI có trách nhiệm: Đảm bảo AI được phát triển và sử dụng một cách có đạo đức và an toàn.