Công nghệ

Google ra mắt phiên bản mới cho mô hình ngôn ngữ Gemini

2 năm trước

Richard Nieva

Google hiện chỉ cấp phép sử dụng trước phiên bản mới Gemini 1.5 tới các nhà phát triển phần mềm và nhóm khách hàng dịch vụ đám mây.

Vào ngày 15.2, Google DeepMind đã công bố phiên bản mới nhất cho mô hình ngôn ngữ lớn (LLM) Gemini, Gemini 1.5. Việc ra mắt này nhằm cạnh tranh với đối thủ ChatGPT của OpenAI.

Theo Google, phiên bản mới sẽ có bước tiến lớn về ngữ cảnh, hiệu suất và tốc độ hoạt động. Ví dụ, Gemini 1.5 Pro, phiên bản tầm trung của Gemini 1.5, có thể vận hành một triệu token – loại khối để xử lý dữ liệu trong các mô hình AI tạo sinh. Để so sánh, GPT-4, phiên bản cao cấp của OpenAI, có 128 ngàn khối token. Hiện tại, Google chỉ mới phổ biến Gemini 1.5 cho các nhà phát triển và nhóm người dùng tham gia thử nghiệm sớm trong buổi đánh giá riêng.

Google cho biết phiên bản 1.5 Pro có hiệu năng tương đương với Gemini 1.0 Ultra, phiên bản mạnh mẽ nhất trong thế hệ Gemini trước.

*Google cho biết Gemini 1.5 có bước tiến lớn về ngữ cảnh và khả năng hoạt động. Ảnh: Sopa Images/Lightrocket via Getty Images.*

Trong những đoạn video thử nghiệm, các nhà nghiên cứu đã đưa một bản ghi chép quá trình bay lên mặt trăng của cơ quan hàng không vũ trụ Mỹ (NASA) và yêu cầu Gemini dựa trên đó để tạo ra những câu thoại vui nhộn. Sau đó, họ đưa vào hệ thống một bản vẽ đơn giản gồm bàn chân bước đi và yêu cầu Gemini chỉ ra khoảnh khắc trong bản ghi chép mà bản vẽ đề cập tới.

Kết quả, Gemini hiểu được bản vẽ và đưa ra câu nói nổi tiếng “One small step for man, one giant leap for mankind,” (Đây là bước đi nhỏ bé của một con người nhưng là bước tiến khổng lồ của cả nhân loại) của phi hành gia Neil Armstrong.

Trong một thử nghiệm khác, một nhà nghiên cứu đã yêu cầu Gemini chuyển ngữ từ tiếng Anh sang Kalamang, một loại ngôn ngữ trong ngữ hệ Papua chỉ có số ít người trên thế giới sử dụng. Gemini mất từ 30 đến 50 giây để xử lý mỗi câu lệnh này.

Gemini 1.5 hiện chỉ cho phép các nhà phát triển phần mềm và khách hàng sử dụng dịch vụ đám mây của Google tiếp cận, chưa phổ biến tới người dùng phổ thông. Hướng đi này này khác với các đối thủ như Meta, hãng công nghệ đã ra mắt phiên bản mã nguồn mở cho mô hình LLaMA 2 và phổ biến rộng rãi. Điều này cũng đối lập với chính Google vào thời điểm ra mắt Gemini 1.0 và ngay lập tức cho toàn bộ người dùng sử dụng.

“Thật thú vị khi quan sát các nhà phát triển sáng tạo với tư duy giải quyết vấn đề có thể làm những gì với mô hình này,” Oriol Vinyals, phó chủ tịch về nghiên cứu của Google DeepMind, chia sẻ trong một buổi phỏng vấn ngắn với các phóng viên hôm 14.2. Vinyals cho biết thêm, các nhà phát triển cũng sẽ giúp công ty hiểu hơn nữa về cách Gemini tương tác với người dùng.

Google cho biết công ty có kế hoạch ra mắt chính thức Gemini 1.5 tới người dùng, song không đưa ra mốc thời gian cụ thể.

Việc ra mắt sản phẩm mới theo sau một vài sự thay đổi của Google về chiến lược phát triển AI trong thời gian qua. Vào tuần trước, Google đổi tên chatbot AI của mình từ Bard sang Gemini. Một dịch vụ khác là DuetAI, công cụ hỗ trợ người dùng sử dụng AI tạo sinh trong các sản phẩm của Google như Docs và Gmail, cũng được đổi tên thành Gemini for Google Workspace.

Google cũng đã ra mắt phiên bản Gemini trên hệ điều hành Android, cũng như các mẫu điện thoại iPhone thông qua Google app.

Google lần đầu công bố Gemini vào tháng 12.2023, với ba phiên bản cho nhiều cấp độ sử dụng khác nhau. Phiên bản nhỏ nhất, Gemini Nano có thể hoạt động trên nền tảng di động và được tích hợp vào các tính năng trên mẫu điện thoại cao cấp Pixel 8 Pro.

Phiên bản tầm trung Gemini Pro dùng để vận hành Gemini chatbot (tên gọi cũ là Bard), công cụ cho phép người dùng sử dụng miễn phí. Phiên bản lớn nhất, Gemini Ultra vận hành Gemini Advanced, chatbot cao cấp có mức phí đăng ký 19,99 USD/tháng thông qua Google One. Google One là dịch vụ trả phí của Google cung cấp bộ nhớ đám mây mở rộng và giám sát bảo mật mạng.

Biên dịch: Minh Tuấn