4M

4M là một framework AI có thể dự đoán hoặc tạo ra bất kỳ loại dữ liệu nào (chẳng hạn như văn bản, hình ảnh, âm thanh,...) từ bất kỳ tập hợp các loại dữ liệu khác.
4M
Photo by Dayne Topkin / Unsplash
4M
Photo by Dayne Topkin / Unsplash

4M là một framework AI mạnh mẽ, mở ra khả năng tạo ra các mô hình nền tảng đa phương thức "any-to-any". Điều này có nghĩa là mô hình có thể dự đoán hoặc tạo ra bất kỳ loại dữ liệu nào (chẳng hạn như văn bản, hình ảnh, âm thanh,...) từ bất kỳ tập hợp các loại dữ liệu khác.

Demo cho phép bạn trải nghiệm một phần khả năng của 4M, cụ thể là dự đoán nhiều loại dữ liệu từ một hình ảnh RGB đầu vào.

Trải nghiệm công cụ (Free) ⤵🎳

(Xem hướng dẫn bên dưới nếu bạn chưa biết cách)

🧃🧋🍷 Hướng dẫn sử dụng chi tiết:

1️⃣ Tải ảnh lên: Kéo và thả ảnh RGB của bạn vào vùng "Drop Image Here" hoặc nhấp vào để chọn ảnh từ máy tính.

2️⃣ Chọn modalities mục tiêu (Tùy chọn):

    • Target modalities: Đây là nơi bạn chọn những loại dữ liệu bạn muốn 4M dự đoán từ ảnh đầu vào. Các tùy chọn bao gồm:
      • CLIP-B/16: Đặc trưng hình ảnh được trích xuất bởi mô hình CLIP.
      • DINOv2-B/14: Đặc trưng hình ảnh được trích xuất bởi mô hình DINOv2.
      • ImageBind-H/14: Đặc trưng đa phương thức được trích xuất bởi mô hình ImageBind.
      • Depth (Độ sâu): Thông tin về độ sâu của các vật thể trong ảnh.
      • Surface normals (Pháp tuyến bề mặt): Thông tin về hướng của bề mặt các vật thể trong ảnh.
      • Semantic segmentation (Phân đoạn ngữ nghĩa): Phân loại từng pixel trong ảnh thành các lớp ngữ nghĩa (ví dụ: người, xe hơi, cây cối).
      • Canny edges (Cạnh Canny): Phát hiện các cạnh trong ảnh.
      • SAM edges (Cạnh SAM): Phát hiện các cạnh bằng mô hình Segment Anything Model (SAM).
      • Caption (Chú thích): Tạo mô tả văn bản cho ảnh.
      • Bounding boxes (Hộp giới hạn): Vẽ các hộp giới hạn xung quanh các vật thể trong ảnh.
      • SAM instances (single pass*) (Đối tượng SAM): Phát hiện các đối tượng trong ảnh bằng mô hình SAM (một lần duyệt*).
      • Color palette (Bảng màu): Trích xuất bảng màu chủ đạo từ ảnh.
      • Metadata (Siêu dữ liệu): Thông tin về máy ảnh, vị trí,... (nếu có).

3️⃣ Tùy chỉnh tham số (Tùy chọn):

    • Seed (Hạt giống): Giống như trong Stable Diffusion, seed ảnh hưởng đến kết quả ngẫu nhiên. Bạn có thể nhập một số cụ thể hoặc chọn "Randomize seed" để tạo kết quả ngẫu nhiên.
    • Top-p, Top-k: Đây là các kỹ thuật lấy mẫu (sampling) để kiểm soát độ đa dạng của kết quả dự đoán. Giá trị càng cao, kết quả càng đa dạng nhưng có thể kém chính xác hơn.

4️⃣ Nhấn "Predict with 4M-21 XL": Để bắt đầu quá trình dự đoán.

5️⃣ Xem kết quả: Sau khi xử lý xong, bạn sẽ thấy các kết quả dự đoán tương ứng với các modalities bạn đã chọn.Bạn có thể xem hình ảnh, văn bản, hoặc các thông tin khác tùy theo loại dữ liệu được dự đoán.

Giải thích thêm các khái niệm:

  • Modalities (Phương thức): Các loại dữ liệu khác nhau mà mô hình có thể xử lý, chẳng hạn như hình ảnh, văn bản,âm thanh, video,...
  • CLIP, DINOv2, ImageBind: Đây là các mô hình AI đã được huấn luyện trước, chuyên về trích xuất đặc trưng từ hình ảnh và các loại dữ liệu khác.
  • 4D human poses: Tư thế người 3D theo thời gian (thêm chiều thứ 4 là thời gian).
  • SMPL: Mô hình 3D của cơ thể người, thường được sử dụng để tạo ra các hình ảnh hoặc video về người từ các đặc trưng tư thế.

Lưu ý:

  • Do hạn chế về tài nguyên, một số tính năng như tạo ra tư thế người 4D có thể không hoạt động trực tiếp trên website. Bạn có thể làm theo hướng dẫn trên GitHub của dự án để trải nghiệm các tính năng này.
  • 4M là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Hãy theo dõi các cập nhật mới nhất để khám phá những tiềm năng vượt trội của nó!
💞
Đăng ký thành viên để xem những phản hồi của người dùng và để lại comment 💬 về trải nghiệm ứng dụng nếu bạn đã sử dụng cho cộng đồng biết nhé. 👇 Click vào thẻ tag phía dưới để xem những ứng dụng liên quan.
About the author
Blake Nguyen

All the best resources in one place

Chia sẻ kiến thức và thông tin về các ứng dụng AI tốt nhất hiện nay

AIAppVn

Great! You’ve successfully signed up.

Welcome back! You've successfully signed in.

You've successfully subscribed to AIAppVn.

Success! Check your email for magic link to sign-in.

Success! Your billing info has been updated.

Your billing was not updated.