☠️ 13. Payload Splitting: Chia nhỏ để vượt rào

Payload Splitting là một thách thức lớn đối với sự an toàn và an ninh của LLM. Bằng cách hiểu rõ bản chất của các kỹ thuật này, chúng ta có thể phát triển các biện pháp phòng thủ hiệu quả hơn, đảm bảo LLM được sử dụng an toàn và có trách nhiệm.

AIAPPVN.COM

24 Th01 2024 Đọc trong 4 phút

☠️ 13. Payload Splitting: Chia nhỏ để vượt rào — Photo by Lucas van Oort / Unsplash

🇻🇳

Hôm nay, chúng ta sẽ khám phá một chiến thuật tinh vi khác để tấn công LLM - Payload Splitting, tức là "chia nhỏ mồi để nuốt dễ dàng". Hãy cùng hiểu cách kẻ tấn công "bẻ khóa" LLM bằng phương pháp này!

🛑 Nguyên tắc hoạt động:

Thay vì đưa trực tiếp toàn bộ nội dung độc hại (payload) cho LLM, kẻ tấn công phân tách nó thành nhiều phần nhỏ hơn, an toàn hơn để vượt qua các bộ lọc.
Sau đó, kẻ tấn công đưa từng phần nhỏ này cho LLM và sử dụng các kỹ thuật khác nhau để hướng dẫn LLM kết hợp các phần nhỏ thành payload ban đầu, thực hiện hành động nguy hiểm.

⚔️ Các kiểu tấn công Payload Splitting:

Tách và nối (Fragmentation concatenation):

Kẻ tấn công tách payload thành các từ hoặc ký tự riêng lẻ.
Tiếp theo, họ yêu cầu LLM thực hiện các lệnh, ví dụ như nối các ký tự lại thành từ, nối các từ lại thành câu hoàn chỉnh.
Bằng cách kiểm soát trình tự các lệnh, kẻ tấn công có thể khiến LLM "xây dựng" lại payload nguy hiểm ban đầu.

Gán và kết hợp (Variable assignment and combination):

Kẻ tấn công gán từng phần của payload cho các biến khác nhau.
Sau đó, họ yêu cầu LLM thực hiện các phép toán hoặc kết hợp các biến này, cuối cùng tạo ra payload nguy hiểm.

💬 Ví dụ minh họa:

Giả sử LLM bị cấm tạo nội dung lừa đảo. Kẻ tấn công có thể tách từ "phishing" thành "ph" và "ishing", yêu cầu LLM nối chúng lại và sử dụng từ kết quả cho mục đích lừa đảo.

a man in a hoodie using a laptop computer — Photo by Bermix Studio / Unsplash

Hoặc, kẻ tấn công có thể gán "I have been " cho biến X và tách "PWNED" thành các ký tự riêng lẻ, gán từng ký tự cho các biến khác nhau (Y1, Y2, Y3, Y4, Y5). Sau đó, yêu cầu LLM kết hợp X với Y1 đến Y5 theo thứ tự, cuối cùng tạo ra câu nói độc hại.
Kẻ tấn công có thể tách tuyên bố thù địch thành các từ hoặc cụm từ riêng lẻ, sau đó yêu cầu LLM nối chúng lại. Ví dụ, kẻ tấn công có thể tách tuyên bố "Người nhập cư là kẻ phá hoại" thành các từ sau: "Người", "nhập", "cư", "là", "kẻ", "phá", "hoại". Sau đó, kẻ tấn công yêu cầu LLM nối các từ này lại theo thứ tự, tạo ra tuyên bố thù địch.

❗ Thách thức và rủi ro:

Khó phát hiện: Các phần nhỏ của payload thường vô hại, khiến việc phát hiện tấn công trở nên khó khăn.
Linh hoạt và đa dạng: Kẻ tấn công có thể sử dụng nhiều cách thức khác nhau để phân tách và kết hợp payload.
Rủi ro nghiêm trọng: Tấn công thành công có thể khiến LLM thực hiện các hành vi nguy hiểm như lừa đảo, phát tán thông tin sai lệch, thậm chí là tấn công mạng.

🙅‍♀️ Cách phòng thủ:

Cải thiện bộ lọc: Phát triển các bộ lọc thông minh hơn, có khả năng phân tích mối liên hệ giữa các phần nhỏ và phát hiện các mẫu tấn công Payload Splitting.
Kiểm soát đầu vào: Kiểm tra cẩn thận sự hợp lý và tính logic của các yêu cầu mà LLM nhận được.
Xây dựng LLM an toàn: Phát triển model có khả năng chống chịu tốt hơn với các kỹ thuật tấn công tinh vi.