Để mở màn cho dòng mô hình mới này, Google đã giới thiệu Gemini 2.5 Pro Experimental, một mô hình AI lý luận đa phương thức mà công ty cho rằng là mô hình thông minh nhất mà họ từng phát triển. Mô hình này sẽ có sẵn ngay từ thứ Ba trên nền tảng phát triển Google AI Studio, cũng như trong ứng dụng Gemini dành cho người đăng ký kế hoạch AI trị giá 20 USD/tháng của Google, Gemini Advanced.
Google cũng cho biết rằng trong tương lai, tất cả các mô hình AI mới của họ sẽ được tích hợp khả năng lý luận ngay từ đầu.
Kể từ khi OpenAI ra mắt mô hình lý luận AI đầu tiên vào tháng 9 năm 2024, o1, ngành công nghệ đã bắt đầu chạy đua để tạo ra những mô hình với khả năng tương tự hoặc vượt trội hơn. Hiện nay, các công ty lớn như Anthropic, DeepSeek, Google và xAI đều đã phát triển các mô hình lý luận AI, sử dụng sức mạnh tính toán và thời gian để kiểm tra tính chính xác và lý luận trước khi đưa ra câu trả lời.
Các kỹ thuật lý luận đã giúp các mô hình AI đạt được những bước tiến ấn tượng trong các bài toán toán học và lập trình. Nhiều chuyên gia công nghệ tin rằng mô hình lý luận sẽ trở thành một yếu tố quan trọng trong các tác nhân AI — những hệ thống tự động có thể thực hiện công việc mà không cần sự can thiệp của con người. Tuy nhiên, những mô hình này cũng có chi phí cao hơn.

Google đã từng thử nghiệm với các mô hình lý luận AI trong quá khứ, với phiên bản "suy nghĩ" của Gemini được ra mắt vào tháng 12. Tuy nhiên, Gemini 2.5 là nỗ lực nghiêm túc nhất của Google nhằm vượt qua dòng mô hình "o" của OpenAI.
Google tự hào rằng Gemini 2.5 Pro đã vượt qua các mô hình AI trước đó của họ, cũng như nhiều mô hình AI đối thủ trên nhiều tiêu chí đánh giá. Cụ thể, Google cho biết Gemini 2.5 được thiết kế để xuất sắc trong việc tạo ra các ứng dụng web thu hút về mặt hình ảnh và các ứng dụng lập trình tác nhân. Trong bài kiểm tra Aider Polyglot, đánh giá khả năng chỉnh sửa mã, Gemini 2.5 Pro đạt 68,6%, vượt qua các mô hình AI hàng đầu của OpenAI, Anthropic và DeepSeek.
Tuy nhiên, trong bài kiểm tra SWE-bench Verified, đánh giá khả năng phát triển phần mềm, Gemini 2.5 Pro đạt 63,8%, vượt qua mô hình o3-mini của OpenAI và R1 của DeepSeek, nhưng lại thua kém Claude 3.7 Sonnet của Anthropic, với 70,3%.
Trong bài kiểm tra Humanity’s Last Exam, một bài đánh giá đa phương thức gồm hàng nghìn câu hỏi crowdsourced về toán học, nhân văn và khoa học tự nhiên, Gemini 2.5 Pro đạt 18,8%, vượt qua hầu hết các mô hình đối thủ hàng đầu.
Ban đầu, Google cho biết Gemini 2.5 Pro được phát hành với cửa sổ ngữ cảnh 1 triệu token, nghĩa là mô hình AI có thể xử lý khoảng 750.000 từ trong một lần. Đây là độ dài dài hơn toàn bộ bộ sách "Chúa Tể Những Chiếc Nhẫn". Trong tương lai gần, Gemini 2.5 Pro sẽ hỗ trợ độ dài đầu vào gấp đôi (2 triệu token).
Mặc dù Google chưa công bố mức giá API cho Gemini 2.5 Pro, công ty cho biết sẽ chia sẻ thêm thông tin chi tiết trong các tuần tới.
Maxwell Zeff là biên tập viên tại TechCrunch. Bài viết được đăng trên TechCrunch ngày 25/03/2025.
TechCrunch là một trang web tin tức công nghệ hàng đầu, tập trung vào việc cung cấp thông tin về các công ty khởi nghiệp, sản phẩm và dịch vụ công nghệ mới nhất.
Biên dịch: Hà Linh