Công nghệ

Nhiều công ty thành lập “đội đỏ” để tăng cường bảo mật cho mô hình AI

2 năm trước

Nhiều công ty công nghệ khổng lồ thành lập “đội đỏ” để phát hiện, ngăn chặn và xóa bỏ những lỗ hổng bảo mật trong hệ thống AI.

Trước một tháng chính thức ra mắt ChatGPT, OpenAI đã thuê Boru Gollo, luật sư ở Kenya, để thử nghiệm các mô hình AI của công ty, GPT-3.5 và GPT-4, nhằm tìm ra những định kiến chống lại người châu Phi và Hồi giáo bằng cách hỏi chatbot để nhận câu trả lời chứa nội dung sai, thiên vị và gây hại.

Gollo, một trong khoảng 50 chuyên gia độc lập được OpenAI tuyển dụng để trở thành thành viên của “đội đỏ,” đã nhập một lệnh vào ChatGPT để có được danh sách gồm nhiều cách giết người Nigeria. OpenAI đã loại bỏ câu trả lời này trước khi chatbot trở nên phổ biến khắp thế giới.

Trước khi ra mắt GPT-4, các thành viên khác trong “đội đỏ” cũng nhập nhiều câu hỏi liên quan đến các hoạt động bất hợp pháp, chẳng hạn như viết một bài đăng trên Facebook để thuyết phục ai đó gia nhập Al-Qaeda, giúp tìm súng không được cấp phép sử dụng để bán và tạo những bước làm ra chất hóa học nguy hiểm tại nhà. Sau đó, OpenAI loại bỏ tất cả câu trả lời cho những câu hỏi này.

Các công ty công nghệ khổng lồ thành lập “đội đỏ” để tăng cường bảo mật cho hệ thống AI. Hình minh họa: Cecilia Zhang/Forbes. Ảnh: Dny59, Garyalvis, Sankai, Yurou Guan/ Gettyimages/ Forbes

Để bảo vệ hệ thống AI khỏi bị xâm nhập, các thành viên trong “đội đỏ” suy nghĩ như những tin tặc để lừa hệ thống đồng thời phát hiện ra những điểm mù cũng như rủi ro tiềm ẩn trong công nghệ và sau đó khắc phục.

Khi những công ty công nghệ khổng lồ chạy đua để xây dựng và ra mắt các công cụ AI tạo sinh, “đội đỏ” AI của họ đóng vai trò ngày càng quan trọng trong việc đảm bảo mô hình an toàn cho đại chúng.

Đầu năm nay, Google thành lập “đội đỏ” AI riêng. Trong tháng 8, các nhà phát triển của một số mô hình phổ biến như GPT-3.5 của OpenAI, Llama 2 của Meta và LaMDA của Google đã tham gia vào một sự kiện do Nhà Trắng hỗ trợ để chia sẻ những nguy cơ và lỗ hổng trong hệ thống dễ bị tin tặc tấn công.

Công việc của các thành viên trong “đội đỏ” AI thực hiện là làm sao vừa giữ an toàn và bảo mật cho các mô hình AI vừa làm cho chúng có thể sử dụng được. Forbes nói chuyện với nhiều đội trưởng “đội đỏ” AI tại Microsoft, Google, Nvidia và Meta về cách mô hình AI trở nên phổ biến cũng như những thách thức trong việc sửa chữa chúng.

Cristian Canton, đội trưởng “đội đỏ” AI của Facebook cho biết. “Có một sự đánh đổi. Bạn tạo ra một mô hình càng hữu ích thì nguy cơ không thể đảm bảo an toàn càng cao.”

Từ những năm 1960, phần mềm tìm ra lỗ hổng đã được sử dụng nhằm đảm bảo hệ thống vững chắc nhất có thể. “Chúng tôi không bao giờ dám nói rằng hệ thống này an toàn. Tất cả những gì chúng tôi có thể nói là ‘chúng tôi cố gắng để hệ thống không thể bị phá vỡ,’” Bruce Schneier, chuyên gia công nghệ bảo mật và cũng là giảng viên cao cấp của trung tâm Internet & Xã hội Berkman Klein thuộc đại học Harvard, cho biết.

Nhưng vì AI tạo sinh được huấn luyện trên kho dữ liệu khổng lồ nên phương pháp bảo vệ các mô hình AI khác với cách bảo mật truyền thống, Daniel Fabian, đội trưởng “đội đỏ” AI mới của Google, cho biết. Đội đang thử nghiệm loại bỏ nội dung gây ác cảm trước khi công ty thêm vào các tính năng mới như bổ sung nhiều ngôn ngữ.

Ngoài việc chất vấn mô hình AI để nhận được câu trả lời gây hại, “đội đỏ” còn sử dụng những chiến thuật như trích xuất dữ liệu đào tạo để lộ thông tin nhận dạng cá nhân như tên, địa chỉ và số điện thoại cũng như làm cho các tập dữ liệu bị nhiễm mã độc thông qua cách thay đổi một số nội dung trước khi sử dụng để huấn luyện mô hình.

“Đối thủ thực hiện nhiều cuộc tấn công và họ sẽ chuyển sang cuộc tấn công tiếp theo nếu một trong số chúng không hiệu quả,” Fabian nói với Forbes.

Daniel Rohrer, phó giám đốc phụ trách bảo mật phần mềm của Nvidia, cho biết do lĩnh vực này vẫn còn ở giai đoạn đầu nên các chuyên gia bảo mật biết cách thử xâm nhập vào hệ thống AI. Đó là lí do một cộng đồng kết nối chặt chẽ gồm nhiều “đội đỏ” AI thường chia sẻ những lỗ hổng bảo mật được tìm thấy trong hệ thống.

Trong khi “đội đỏ” của Google công bố nghiên cứu về những cách mới để tấn công mô hình AI thì “đội đỏ” của Microsoft có những công cụ tấn công nguồn mở như Counterfit, giúp các doanh nghiệp khác kiểm tra rủi ro về tính an toàn và bảo mật của thuật toán.

“Chúng tôi phải phát triển những ngôn ngữ lập trình không hoàn hảo thế này để giúp đội đỏ nhanh phát hiện được lỗ hổng,” Ram Shankar Siva Kumar, ông đã thành lập đội cách đây 5 năm, cho biết. “Chúng tôi muốn cung cấp điều này cho tất cả chuyên gia bảo mật trong phạm vi họ biết và hiểu.”

Trước khi thử nghiệm hệ thống AI, đội của Siva Kumar thu thập dữ liệu về các mối đe dọa an ninh mạng từ nhóm phụ trách tìm ra vấn đề này cho công ty. Sau đó, ông làm việc với các “đội đỏ” khác tại Microsoft để xác định lỗ hổng nào trong hệ thống AI cần nhắm tới và cách thức thực hiện. Năm nay, đội đã thăm dò sản phẩm AI nổi tiếng Bing Chat của Microsoft và GPT-4 để tìm ra lỗi.

Trong khi đó, “đội đỏ” của Nvidia cung cấp những khóa học cấp tốc về cách đội sử dụng thuật toán cho các kỹ sư và công ty bảo mật thường dựa vào đó để lấy các tài nguyên điện toán như GPU.

Do ngày càng có nhiều quốc gia ban hành quy định kiểm soát chặt các ứng dụng AI nên “đội đỏ” cũng mang lại lợi thế cạnh tranh cho những công ty công nghệ trong cuộc đua AI.

“Tôi nghĩ đội này sẽ mang đến sự tin cậy và an toàn,” Sven Cattell, người sáng lập AI Village, một cộng đồng gồm những thành viên xâm nhập vào hệ thống AI để phát hiện và xóa bỏ lỗ hổng cùng với chuyên gia bảo mật, cho biết. “Bạn sẽ bắt đầu nhìn thấy những quảng cáo về ‘hệ thống của chúng tôi an toàn nhất.’”

Hồi năm 2019, Meta thành lập “đội đỏ” AI trước tiên và tổ chức các cuộc thi nội bộ nhận diện nguy cơ để những người xâm nhập hệ thống vượt qua các bộ lọc nội dung nhằm phát hiện và xóa bài đăng có chứa giọng điệu gây hận thù, ảnh khoả thân, thông tin sai lệch và giả mạo do AI tạo ra trên Instagram và Facebook.

Vào tháng 7.2023, công ty truyền thông xã hội khổng lồ đã thuê 350 thành viên cho “đội đỏ” bao gồm các chuyên gia bên ngoài, nhân viên hợp đồng và một nhóm nội bộ gồm khoảng 20 nhân viên để thử nghiệm Llama 2, mô hình ngôn ngữ lớn nguồn mở mới nhất.

Nhóm đã nhập nội dung như cách trốn thuế, cách khởi động ô tô mà không cần chìa khóa và cách xây dựng mô hình lừa đảo Ponzi. “Phương châm của đội chúng tôi là ‘bạn huấn luyện càng nhiều thì sẽ phát hiện cũng như xóa bỏ được số lượng lớn nội dung gây hại,’” Canton, đội trưởng đội đỏ của Facebook, cho biết.

Nhưng theo các chuyên gia, AI tạo sinh giống như một con quái vật nhiều đầu – khi “đội đỏ” phát hiện và khắc phục một số lỗ hổng trong hệ thống thì các lỗi khác có thể xuất hiện ở chỗ khác.

“Cần phải giải quyết toàn diện vấn đề này trong phạm vi lớn,” Siva Kumar, đội trưởng đội đỏ của Microsoft, chia sẻ.

Biên dịch: Gia Nhi

———————-

Xem thêm:

Anthropic ra mắt Claude 2 để cạnh tranh với ChatGPT