Một trong những cách tiếp cận độc đáo là sử dụng Minecraft – trò chơi xây dựng thế giới cát nổi tiếng của Microsoft – như một nền tảng thử nghiệm.
Trang web Minecraft Benchmark (hay MC-Bench) đã được phát triển với mục tiêu cho phép các mô hình AI đối đầu trực tiếp với nhau, thực hiện các nhiệm vụ xây dựng trong Minecraft dựa trên các yêu cầu cụ thể. Người dùng có thể bỏ phiếu để đánh giá xem mô hình nào thực hiện tốt hơn, nhưng chỉ sau khi bỏ phiếu, họ mới biết được mô hình nào đã tạo ra mỗi công trình.
Với Adi Singh, học sinh lớp 12 sáng lập MC-Bench, giá trị của Minecraft không chỉ nằm ở chính trò chơi mà còn ở sự quen thuộc của nó với người chơi – dù không phải ai cũng từng trải nghiệm Minecraft, nhưng hầu hết đều có thể đánh giá được những tác phẩm khối hình, chẳng hạn như quả dứa, được thể hiện tốt như thế nào.
“Minecraft giúp mọi người dễ dàng nhìn thấy sự tiến bộ của AI,” Singh chia sẻ với TechCrunch. “Mọi người đã quá quen với Minecraft, với hình ảnh và không khí của trò chơi.”

Hiện tại, MC-Bench có tám tình nguyện viên đóng góp. Theo trang web của dự án, các công ty lớn như Anthropic, Google, OpenAI và Alibaba đã tài trợ việc sử dụng các sản phẩm của họ để chạy các bài kiểm tra, tuy nhiên, các công ty này không có mối liên hệ chính thức nào với MC-Bench.
“Hiện tại, chúng tôi chỉ thực hiện những công trình đơn giản để đánh giá sự phát triển so với thời kỳ GPT-3, nhưng chúng tôi có thể mở rộng sang các nhiệm vụ dài hạn và có mục tiêu rõ ràng hơn,” Singh nói. “Các trò chơi có thể chỉ là một công cụ thử nghiệm lý luận tác nhân, giúp chúng ta đánh giá AI trong môi trường kiểm soát được và an toàn hơn so với đời thực.”
Trước MC-Bench, các trò chơi như Pokémon Red, Street Fighter và Pictionary cũng đã được sử dụng để thử nghiệm AI, vì đánh giá AI là một công việc không hề đơn giản. Các nhà nghiên cứu thường sử dụng các bài kiểm tra chuẩn hóa để đánh giá mô hình, nhưng nhiều bài kiểm tra lại mang đến lợi thế cho AI, khi mô hình được huấn luyện để giải quyết những vấn đề cụ thể, đặc biệt là những bài toán yêu cầu ghi nhớ hoặc suy luận đơn giản.
Điều này có thể giải thích tại sao OpenAI’s GPT-4 có thể đạt điểm cao trong kỳ thi LSAT nhưng lại không nhận ra có bao nhiêu chữ R trong từ “strawberry”. Hay như Claude 3.7 Sonnet của Anthropic, với độ chính xác 62.3% trên một bài kiểm tra phần mềm chuẩn hóa, nhưng lại kém hơn cả những đứa trẻ 5 tuổi khi chơi Pokémon. MC-Bench thực tế là một bài kiểm tra lập trình, yêu cầu các mô hình viết mã để tạo ra các công trình như “Người Tuyết Frosty” hay “Một ngôi nhà bãi biển nhiệt đới xinh đẹp”.

Tuy nhiên, đối với hầu hết người dùng MC-Bench, việc đánh giá xem một người tuyết trông thế nào dễ dàng hơn nhiều so với việc phải nghiên cứu mã nguồn, điều này giúp dự án thu hút được nhiều người tham gia và mở ra cơ hội thu thập nhiều dữ liệu hơn về các mô hình AI nào luôn đạt điểm cao.
Liệu những điểm số này có phản ánh chính xác tính hữu ích của AI hay không vẫn còn là câu hỏi chưa có lời giải, nhưng Singh tin rằng chúng mang lại tín hiệu quan trọng.
“Bảng xếp hạng hiện tại phản ánh khá sát với trải nghiệm cá nhân của tôi khi sử dụng các mô hình này, điều mà ít thấy trong các bài kiểm tra thuần túy về văn bản,” Singh chia sẻ. “Có thể MC-Bench sẽ hữu ích cho các công ty trong việc xác định xem họ có đang đi đúng hướng hay không.”
Amanda Silberling là biên tập viên tại TechCrunch. Bài viết được đăng trên TechCrunch ngày 20/03/2025.
TechCrunch là một trang tin tức uy tín, tập trung vào các chủ đề khởi nghiệp và công nghệ. Trang web cung cấp các bài viết về nhiều lĩnh vực, bao gồm AI, ứng dụng, bảo mật và nhiều hơn nữa.
Biên dịch: Hà Linh