Florence-2

Florence-2 là một mô hình AI đột phá của Microsoft, kết hợp hiểu biết về cả hình ảnh và ngôn ngữ tự nhiên để thực hiện đa dạng các tác vụ liên quan đến thị giác máy tính (computer vision) và ngôn ngữ thị giác (vision-language).

Trải nghiệm công cụ (Free) ⤵🎳

(Xem hướng dẫn bên dưới nếu bạn chưa biết cách)

📝🔖🔗 Hướng dẫn sử dụng Florence-2 Demo:

1️⃣ Tải ảnh lên: Kéo và thả ảnh vào vùng "Drop Image Here" hoặc nhấn vào để chọn ảnh từ máy tính.

2️⃣ Chọn mô hình (Model):

microsoft/Florence-2-large: Mô hình lớn nhất, cho kết quả tốt nhất nhưng cần nhiều tài nguyên tính toán hơn.
microsoft/Florence-2-large-ft: Phiên bản tinh chỉnh của mô hình lớn, có thể tốt hơn cho một số tác vụ cụ thể.
microsoft/Florence-2-base-ft: Phiên bản tinh chỉnh của mô hình nhỏ, nhanh hơn nhưng có thể kém chính xác hơn một chút.
microsoft/Florence-2-base: Mô hình nhỏ, nhanh nhất nhưng có thể cho kết quả kém chính xác nhất.

3️⃣ Chọn loại tác vụ (Task Prompt):

Single task: Thực hiện một tác vụ duy nhất trên ảnh.
Cascaded task: Thực hiện nhiều tác vụ liên tiếp trên ảnh.

4️⃣ Chọn tác vụ cụ thể: Dưới đây là danh sách các tác vụ bạn có thể chọn, mỗi tác vụ yêu cầu một loại thông tin đầu vào khác nhau:

Detailed Caption: Mô tả chi tiết nội dung của hình ảnh.
More Detailed Caption: Mô tả hình ảnh chi tiết hơn nữa.
Object Detection: Nhận diện các đối tượng trong ảnh và khoanh vùng chúng.
Dense Region Caption: Mô tả chi tiết từng vùng trong ảnh.
Region Proposal: Đề xuất các vùng quan trọng trong ảnh.
Caption to Phrase Grounding: Xác định vị trí của các cụm từ trong caption trên ảnh.
Referring Expression Segmentation: Phân đoạn các đối tượng được nhắc đến trong caption.
Region to Segmentation: Phân đoạn đối tượng trong một vùng được chỉ định.
Open Vocabulary Detection: Phát hiện đối tượng không có trong tập huấn luyện của mô hình.
Region to Category: Phân loại đối tượng trong một vùng được chỉ định.
Region to Description: Mô tả đối tượng trong một vùng được chỉ định.
OCR: Nhận dạng ký tự quang học (chuyển đổi văn bản trong ảnh thành dạng văn bản máy tính có thể đọc được).
OCR with Region: Nhận dạng ký tự trong một vùng cụ thể của ảnh.

5️⃣ Nhập văn bản đầu vào (tùy chọn): Tùy thuộc vào tác vụ đã chọn, bạn có thể cần nhập thêm văn bản đầu vào (ví dụ: câu hỏi về ảnh).

6️⃣ Nhấn "Submit": Để bắt đầu quá trình xử lý.

7️⃣ Xem kết quả: Mô hình sẽ tạo ra caption (mô tả), bounding box (khung giới hạn đối tượng), hoặc các kết quả khác tùy theo tác vụ.

Giải thích một số tham số quan trọng:

Model: Lựa chọn mô hình ảnh hưởng đến độ chính xác và tốc độ xử lý. Mô hình lớn hơn thường cho kết quả tốt hơn nhưng chậm hơn.
Task Prompt: Xác định tác vụ bạn muốn mô hình thực hiện. Mỗi tác vụ có yêu cầu đầu vào và kết quả khác nhau.
Text Input: Dùng để nhập câu hỏi hoặc mô tả bổ sung cho một số tác vụ.

Mẹo sử dụng:

Sử dụng ảnh chất lượng cao: Ảnh càng rõ nét, mô hình càng dễ hiểu và xử lý chính xác.
Thử nghiệm với các mô hình và tác vụ khác nhau: Khám phá khả năng đa dạng của Florence-2.
Kiểm tra tài liệu chi tiết: Xem tài liệu của mô hình trên Hugging Face để hiểu rõ hơn về cách hoạt động và các tùy chọn khác.

Lời kết:

Florence-2 là một công cụ mạnh mẽ để khám phá khả năng của AI trong việc hiểu và tương tác với hình ảnh và ngôn ngữ. Hy vọng hướng dẫn này giúp bạn có một trải nghiệm thú vị và khai thác tối đa tiềm năng của Florence-2!

🪷 Donate Me ↗️

💞

Đăng ký thành viên để xem những phản hồi của người dùng và để lại comment 💬 về trải nghiệm ứng dụng nếu bạn đã sử dụng cho cộng đồng biết nhé. 👇 Click vào thẻ tag phía dưới để xem những ứng dụng liên quan.