Thứ hai, 24/03/2025 15:37

Công cụ AI tạo hình ảnh chất lượng cao nhanh hơn các phương pháp hiện đại nhất hiện nay

Các nhà nghiên cứu từ Viện Công nghệ Massachusetts (MIT) và Tập đoàn NVIDIA đã kết hợp những ưu điểm của hai phương pháp phổ biến để phát triển một công cụ tạo hình ảnh tiêu tốn ít năng lượng hơn, có thể chạy trực tiếp trên laptop hoặc smartphone mà vẫn đảm bảo chất lượng hình ảnh vượt trội.

Các nhà khoa học đã kết hợp hai loại mô hình AI tạo sinh - mô hình tự hồi quy (autoregressive model) và mô hình khuếch tán (diffusion model) - để phát triển một công cụ tận dụng ưu điểm của cả hai, giúp tạo ra hình ảnh chất lượng cao với tốc độ vượt trội (Nguồn: Christine Daniloff, MIT; hình ảnh phi hành gia cưỡi ngựa do nhóm nghiên cứu cung cấp).

Kết hợp hai thế mạnh để cải thiện hiệu suất

Khả năng tạo ra hình ảnh chất lượng cao trong thời gian ngắn đóng vai trò quan trọng trong việc xây dựng môi trường mô phỏng thực tế, giúp đào tạo xe tự lái tránh các tình huống nguy hiểm khó lường, từ đó tăng cường độ an toàn trên đường phố.

Tuy nhiên, các kỹ thuật AI tạo sinh hiện nay đều tồn tại những hạn chế nhất định. Mô hình khuếch tán (diffusion model) - một phương pháp phổ biến - có thể tạo ra hình ảnh cực kỳ chân thực nhưng lại chậm và tiêu tốn nhiều tài nguyên tính toán. Trong khi đó, mô hình tự hồi quy (autoregressive model) - loại mô hình đứng sau sự thành công của các mô hình ngôn ngữ lớn (LLM) như ChatGPT - có tốc độ tạo ảnh nhanh hơn đáng kể nhưng chất lượng hình ảnh thường thấp và xuất hiện nhiều lỗi.

Trước những hạn chế này, nhóm nghiên cứu từ MIT và NVIDIA đã phát triển một phương pháp lai (hybrid) kết hợp ưu điểm của cả hai mô hình. Công cụ tạo ảnh mới, có tên HART (Hybrid Autoregressive Transformer), sử dụng mô hình tự hồi quy để phác thảo tổng thể bức ảnh một cách nhanh chóng, sau đó sử dụng một mô hình khuếch tán nhỏ để tinh chỉnh các chi tiết.

HART có thể tạo ra hình ảnh có chất lượng ngang bằng hoặc cao hơn so với các mô hình khuếch tán tiên tiến nhất, nhưng với tốc độ nhanh hơn khoảng 9 lần. Quá trình tạo ảnh tiêu tốn ít tài nguyên tính toán hơn so với các mô hình khuếch tán thông thường, giúp HART có thể chạy trên laptop thương mại hoặc smartphone. Người dùng chỉ cần nhập một câu lệnh ngôn ngữ tự nhiên vào giao diện HART để tạo hình ảnh.

Cơ chế hoạt động của HART

Các mô hình khuếch tán phổ biến như Stable Diffusion hay DALL-E tạo ra hình ảnh bằng cách liên tục dự đoán và loại bỏ nhiễu trên từng pixel qua nhiều bước lặp, thường lên đến hơn 30 lần, khiến quá trình trở nên chậm và đòi hỏi nhiều tài nguyên. Tuy nhiên, chính nhờ cơ chế sửa lỗi liên tục, các mô hình này tạo ra hình ảnh có độ chi tiết cao.

Trong khi đó, mô hình tự hồi quy tạo ảnh bằng cách dự đoán từng phần nhỏ của hình ảnh theo trình tự. Phương pháp này nhanh hơn nhưng không thể quay lại để chỉnh sửa lỗi, dẫn đến chất lượng hình ảnh kém hơn.

HART sử dụng mô hình tự hồi quy để dự đoán các token hình ảnh rời rạc (discrete image tokens) - đại diện nén của từng phần ảnh - giúp tăng tốc độ tạo ảnh. Sau đó, một mô hình khuếch tán nhỏ được sử dụng để bổ sung các token dư thừa (residual tokens) giúp khôi phục những chi tiết bị mất trong quá trình nén.

Chúng tôi có thể cải thiện đáng kể chất lượng tái tạo hình ảnh. Các token dư thừa sẽ học cách bổ sung các chi tiết có tần số cao, như đường viền của một vật thể hay các đặc điểm trên khuôn mặt con người, những nơi mà token rời rạc thường mắc lỗi, TS Haotian Tang, đồng tác giả nghiên cứu chia sẻ.

Với cách tiếp cận này, mô hình khuếch tán chỉ cần thực hiện 8 bước thay vì hơn 30 bước như mô hình khuếch tán tiêu chuẩn. Điều này giúp HART duy trì tốc độ cao của mô hình tự hồi quy trong khi vẫn cải thiện đáng kể chất lượng chi tiết của hình ảnh.

Vượt trội so với các mô hình lớn hơn

Trong quá trình phát triển HART, nhóm nghiên cứu đã gặp thách thức trong việc tích hợp hiệu quả mô hình khuếch tán để hỗ trợ mô hình tự hồi quy. Họ phát hiện rằng, nếu áp dụng mô hình khuếch tán ngay từ giai đoạn đầu, lỗi có xu hướng tích lũy, làm giảm chất lượng hình ảnh. Thay vào đó, chiến lược tối ưu nhất là chỉ sử dụng mô hình khuếch tán để dự đoán các token dư thừa trong bước cuối cùng, từ đó nâng cao đáng kể chất lượng ảnh.

Kết quả bước đầu cho thấy, HART - với mô hình tự hồi quy gồm 700 triệu tham số và mô hình khuếch tán nhẹ với 37 triệu tham số - có thể tạo ra hình ảnh chất lượng tương đương hoặc tốt hơn mô hình khuếch tán 2 tỷ tham số, nhưng nhanh hơn khoảng 9 lần và sử dụng ít hơn 31% tài nguyên tính toán.

Ngoài ra, do HART sử dụng mô hình tự hồi quy - loại mô hình đang được ứng dụng rộng rãi trong các mô hình ngôn ngữ lớn (LLM), nó có thể dễ dàng tích hợp vào các mô hình AI tổng hợp đa phương thức (vision-language generative models). Điều này mở ra tiềm năng phát triển những công cụ AI có thể tương tác bằng ngôn ngữ tự nhiên để tạo ra hình ảnh chi tiết hơn.

Trong tương lai, nhóm nghiên cứu mong muốn mở rộng HART để tích hợp với các mô hình ngôn ngữ - thị giác (vision-language models) nhằm tạo ra những hệ thống AI có khả năng hiểu và tạo nội dung hình ảnh phức tạp hơn. Ngoài ra, nhờ khả năng mở rộng và tổng quát hóa, HART có thể được ứng dụng trong tạo video hoặc dự đoán âm thanh, giúp mở rộng hơn nữa phạm vi ứng dụng của AI tạo sinh.

LB (theo MIT News)

 

Đánh giá

X
(Di chuột vào ngôi sao để chọn điểm)