ByteDance vừa công bố một bước tiến đột phá trong lĩnh vực AI khi phát hành mã nguồn mở của UI-TARS-1.5, một trợ lý đa phương thức (multimodal agent) có khả năng điều khiển giao diện người dùng (UI) như con người thật. Được xây dựng dựa trên mô hình thị giác-ngôn ngữ Qwen2.5-VL-7B do Alibaba phát triển, UI-TARS-1.5 là một trong những hệ thống đầu tiên có thể “nhìn” màn hình máy tính, “suy nghĩ” và tự đưa ra hành động như click chuột, gõ bàn phím, điều hướng trong trình duyệt hay thậm chí chơi game, mà không cần viết mã cụ thể cho từng nhiệm vụ.

Khác với các công cụ RPA (Robotic Process Automation) truyền thống vốn dựa vào việc lập trình kịch bản thao tác cụ thể, UI-TARS-1.5 sử dụng camera để quan sát giao diện máy tính theo thời gian thực, sau đó phân tích và đưa ra hành động tương ứng. Điều đặc biệt là trước mỗi hành động, mô hình thực hiện một bước “Suy nghĩ” – được huấn luyện bằng thuật toán học tăng cường (reinforcement learning) để đánh giá và lựa chọn chiến lược tối ưu nhất. Cơ chế này giúp mô hình không chỉ hành động nhanh mà còn chính xác hơn theo thời gian, đặc biệt trong các tác vụ đòi hỏi chuỗi hành động dài như điều hướng web hay tương tác trong môi trường ảo như game hoặc hệ thống máy tính giả lập.
Kết quả benchmark cho thấy UI-TARS-1.5 vượt trội trên nhiều bài toán thực tế. Trong bộ bài kiểm tra thị giác-giao diện ScreenSpotPro, mô hình đạt điểm 61.6, cao hơn đáng kể so với mức 43.6 của mô hình mạnh nhất trước đó. Trong OSWorld – môi trường giả lập hệ điều hành nơi AI phải thao tác trên giao diện như mở file, đổi tên, di chuyển chuột – UI-TARS-1.5 đạt điểm 42.5, bỏ xa Claude 3.7 (28 điểm). Đặc biệt, mô hình đạt điểm tuyệt đối 100/100 trong cả 14 trò chơi web tại Poki.com, từ các game giải đố như Infinity Loop đến các trò cần suy luận không gian như Maze: Path of Light, cho thấy khả năng duy trì chính xác trong hàng nghìn bước tương tác liên tục.
Benchmark Type | Benchmark | UI-TARS-1.5 | OpenAI CUA | Claude 3.7 | Previous SOTA |
---|---|---|---|---|---|
Computer Use | OSworld (100 steps) | 42.5 | 36.4 | 28 | 38.1 (200 step) |
Windows Agent Arena (50 steps) | 42.1 | – | – | 29.8 | |
Browser Use | WebVoyager | 84.8 | 87 | 84.1 | 87 |
Online-Mind2web | 75.8 | 71 | 62.9 | 71 | |
Phone Use | Android World | 64.2 | – | – | 59.5 |
Đối với môi trường trình duyệt web, nơi AI phải tìm kiếm và thực hiện tác vụ có cấu trúc (ví dụ: đặt vé máy bay, điền form, tra cứu thông tin), mô hình cũng gây ấn tượng mạnh. Trong bài test SimpleQA, nơi AI phải trả lời câu hỏi dựa trên dữ liệu trang web thực tế, UI-TARS-1.5 đạt điểm 83.8, vượt qua cả GPT-4.5 (60 điểm). Còn trong BrowseComp, một bài toán phức tạp yêu cầu AI điều hướng qua nhiều lớp giao diện, mô hình đạt 2.3 điểm, trong khi GPT-4.5 chỉ đạt 0.6.
Đối với giới doanh nghiệp, UI-TARS-1.5 mở ra một loạt cơ hội mới trong tự động hóa vận hành. Thay vì đầu tư nhiều vào các giải pháp RPA phức tạp, doanh nghiệp giờ có thể sử dụng một mô hình học được từ chính thao tác của nhân viên và tái sử dụng cho hàng loạt quy trình: từ nhập liệu ERP, kiểm tra báo cáo kho, điều hướng các hệ thống nội bộ cũ đến kiểm thử UI phần mềm và cải thiện trải nghiệm người dùng. Ví dụ, một công ty bảo hiểm có thể để AI đọc các tài liệu yêu cầu bồi thường rồi nhập thông tin vào hệ thống như một nhân viên thực tập có năng suất cao gấp nhiều lần. Một startup thương mại điện tử có thể tự động kiểm tra hàng trăm chiến dịch quảng cáo hiển thị bằng cách “nhìn” giao diện hệ thống đối tác và xác định chính xác liệu quảng cáo có được hiển thị đúng không.
Tuy nhiên, khả năng mạnh mẽ của UI-TARS-1.5 cũng đặt ra không ít rủi ro nếu không được triển khai đúng cách. Mô hình có thể bị lạm dụng để vượt qua CAPTCHA, thực hiện hành vi tự động hóa truy cập hệ thống trái phép, hoặc sử dụng cho các mục đích nhạy cảm như phân tích tài khoản ngân hàng cá nhân nếu được kết nối với môi trường thật. Ngoài ra, việc để AI “nhìn” và “ghi nhớ” toàn bộ màn hình máy tính có thể dẫn đến rò rỉ dữ liệu nếu không có cơ chế mã hóa và kiểm soát rõ ràng.
Từ góc nhìn chiến lược, các giám đốc công nghệ (CTO) và vận hành (COO) nên coi UI-TARS-1.5 như một bước thử nghiệm quan trọng cho hướng đi “AI quan sát và hành động” – không chỉ trong văn phòng mà còn trong môi trường ảo, chuỗi cung ứng, sản xuất số, dịch vụ khách hàng và bán lẻ. Việc ByteDance phát hành mã nguồn mở đi kèm với bộ công cụ đánh giá, huấn luyện và mô phỏng giao diện cho phép doanh nghiệp có thể triển khai thử nghiệm nhanh với chi phí thấp, đánh giá ROI rõ ràng trước khi tích hợp quy mô lớn.
Trong dài hạn, UI-TARS-1.5 có thể là mảnh ghép quan trọng để hình thành thế hệ “trợ lý số” thực sự – không chỉ gợi ý và trả lời văn bản, mà còn trực tiếp thao tác được trên các hệ thống số hóa hiện hữu. Trong một bối cảnh ngày càng số hóa, nơi chi phí nhân lực và thời gian đào tạo tăng cao, AI có khả năng “hiểu” giao diện và hành động như UI-TARS-1.5 sẽ là lợi thế cạnh tranh mang tính đột phá.
Bài viết được thực hiện bởi Mosy AI – nền tảng chuyển đổi doanh nghiệp bằng Trí tuệ nhân tạo.
Liên hệ Mosy để nhận tư vấn triển khai AI cho doanh nghiệp của bạn.