Ngăn chặn thảm họa liên quan đến trí tuệ nhân tạo

80,000 Hours vừa ra mắt hồ sơ vấn đề dài và sâu sắc nhất về nội dung: giảm thiểu rủi ro hiện sinh từ AI.

Bạn có thể đọc toàn bộ hồ sơ vấn đề (đã dịch) tại đây.

Phần còn lại của bài viết này cung cấp một số thông tin nền tảng về hồ sơ gồm bản tóm tắt và mục lục.

Một số thông tin nền tảng

Giống như phần lớn nội dung của chúng tôi, báo cáo này hướng đến đối tượng độc giả đã dành chút ít thời gian đọc web 80,000 Hours nhưng chưa quen thuộc với Thiện nguyện hiệu quả - Effective Altruism (EA), vậy nên nó cũng mang tính chất giới thiệu. Tuy nhiên, chúng tôi hy vọng hồ sơ này cũng hữu ích và giúp các thành viên của cộng đồng EA sáng tỏ hơn.

Bài viết chủ yếu phản ánh quan điểm của tôi (Benjamin Hilton), và đã được biên tập bởi Arden Koehler (Giám đốc website 80.000hours) và bình duyệt bởi Howie Lempel (CEO 80.000hours), cả hai đều đồng tình với các điểm chính.

Tôi đã cố gắng để bài viết này hữu ích nhất có thể cho những ai mới tiếp cận vấn đề:

Tôi tập trung vào vấn đề mà tôi cho là quan trọng nhất: rủi ro từ AI tìm kiếm quyền lực (power-seeking AI) từ các hệ thống lập kế hoạch có nhận thức mang tính chiến lược (strategically aware planning systems) với năng lực tiên tiến, như được nêu ra bởi Joe Carlsmith.
Tôi cố gắng làm cho mọi thứ trở nên cụ thể hơn và đã xuất bản một bài viết riêng về thảm họa do AI gây ra có thể trông như thế nào. (Bài viết này chịu ảnh hưởng nhiều từ báo cáo của Carlsmith, cũng như What failure looks like của Christiano và sách Siêu trí tuệ của Bostrom.)
Tôi nhấn mạnh (một lần nữa, theo quan điểm của tôi) những thông tin cơ bản quan trọng, chẳng hạn như kết quả khảo sát các chuyên gia ML về rủi ro từ AI, tổng quan về những tiến bộ gần đây trong AI và định luật mở rộng quy mô (scaling laws)
Tôi cố gắng giải thích một cách trung thực những lý do vững chắc nhất khiến luận điểm của tôi có thể sai
Tôi bao gồm phần Hỏi - đáp FAQ dài về những phản đối phổ biến đối với việc nghiên cứu rủi ro từ AI mà tôi cho là có nhiều bình luận phản hồi mạnh mẽ

Ngoài ra, còn có biểu mẫu phản hồi nếu bạn muốn gửi phản hồi mà không muốn đăng đàn công khai.

Bài đăng này bao gồm tóm tắt và mục lục.

Tóm tắt

Chúng tôi kỳ vọng AI sẽ có những tiến bộ đáng kể trong vài thập kỷ tới, thậm chí có thể đến mức máy móc sẽ vượt qua con người trong nhiều nhiệm vụ, nếu không phải nói là tất cả. Điều này có thể mang lại những lợi ích to lớn, giúp giải quyết các vấn đề toàn cầu hiện nay, nhưng cũng có thể gây ra những rủi ro nghiêm trọng. Những rủi ro này có thể phát sinh một cách ngẫu nhiên (ví dụ: nếu chúng ta không tìm ra giải pháp kỹ thuật cho các lo ngại về an toàn của hệ thống AI) hoặc có chủ ý (ví dụ: nếu hệ thống AI làm trầm trọng thêm xung đột địa chính trị). Chúng tôi cho rằng cần phải nỗ lực hơn nữa để giảm thiểu những rủi ro này.

Một số rủi ro từ AI tiên tiến có thể là hiện sinh, nghĩa là chúng có thể gây tuyệt chủng nhân loại hoặc tước đi vĩnh viễn năng lực của nhân loại một cách trầm trọng. ^[1] Vẫn chưa có câu trả lời thỏa đáng cho những lo ngại được thảo luận dưới đây về cách công nghệ mang tính chuyển đổi và đang phát triển nhanh chóng này có thể được phát triển và tích hợp an toàn vào xã hội của chúng ta. Việc tìm kiếm câu trả lời cho những lo ngại này đang bị thiếu quan tâm, nhưng có thể là khả thi. Chúng tôi ước tính có khoảng 300 người trên toàn thế giới đang trực tiếp làm việc về vấn đề này.^[2] Do đó, khả năng xảy ra thảm họa liên quan đến AI có thể là vấn đề cấp bách nhất trên thế giới, và là điều tốt nhất để những người đang-ở-đúng-nơi-đúng-chỗ đóng góp.

Các lựa chọn hứa hẹn để giải quyết vấn đề này bao gồm nghiên cứu kỹ thuật về cách tạo ra các hệ thống AI an toàn, nghiên cứu chiến lược về các rủi ro cụ thể mà AI có thể gây ra, và nghiên cứu chính sách về cách mà các công ty và chính phủ có thể giảm thiểu những rủi ro này. Nếu các chính sách đáng giá được phát triển, chúng ta sẽ cần những người thực hiện và triển khai chúng. Ngoài ra, còn có nhiều cơ hội để tạo ra tác động lớn trong nhiều vai trò bổ trợ khác nhau, chẳng hạn như quản lý hoạt động, báo chí, kiếm tiền để quyên góp, v.v. Một vài trong số đó được liệt kê dưới đây.

Quan điểm chung của chúng tôi

Được khuyến nghị - ưu tiên cao nhất

Đây là một trong những vấn đề cấp bách nhất cần giải quyết.

Quy mô vấn đề (Scale)

AI sẽ có nhiều tác động khác nhau và có tiềm năng mang lại rất nhiều lợi ích. Tuy nhiên, chúng tôi đặc biệt lo ngại về khả năng xảy ra những hậu quả cực kỳ tồi tệ, đặc biệt là thảm họa hiện sinh. Chúng tôi dựa trên ước tính của những người khác đã sử dụng nhiều phương pháp khác nhau, thì dự đoán chung của chúng tôi, dù rất không chắc chắn: rủi ro xảy ra thảm họa hiện sinh do trí tuệ nhân tạo gây ra trong vòng 100 năm tới là khoảng 10%. Con số này có thể thay đổi đáng kể so với nghiên cứu khác, như một số chuyên gia cho rằng nó có thể thấp chỉ 0,5% hoặc cao hơn đến mức 50%, và chúng tôi để mở với cả hai khả năng. Tổng thể, quan điểm hiện tại của chúng tôi là sự phát triển trí tuệ nhân tạo (AI) sẽ đe dọa đến sự phồn thịnh lâu dài của nhân loại hơn bất kỳ vấn đề nào khác mà chúng ta biết.

Mức độ thiếu quan tâm (Neglectedness)

Chỉ khoảng 50 triệu đô la đã được chi để giảm thiểu những rủi ro tồi tệ nhất từ AI trong năm 2020 trong khi có đến hàng tỷ đô la đã được chi để phát triển năng lực AI.^[3] ^[4] Mặc dù chúng ta đang thấy sự lo ngại ngày càng tăng từ các chuyên gia AI, nhưng vẫn mới chỉ có khoảng 300 người làm việc trực tiếp để giảm thiểu khả năng xảy ra thảm họa hiện sinh liên quan đến AI.^[2] Trong số này, khoảng 2/3 đang làm việc trong lĩnh vực nghiên cứu kỹ thuật về an toàn AI, phần còn lại chia cho nghiên cứu chiến lược (và chính sách) và vận động hành lang.

Khả năng giải quyết (Solvability)

Việc đạt được tiến bộ trong việc ngăn chặn thảm họa liên quan đến AI có vẻ khó khăn, nhưng có rất nhiều hướng để nghiên cứu thêm và lĩnh vực này còn rất non trẻ. Vì vậy, chúng tôi cho rằng vấn đề này có khả năng giải quyết ở mức vừa phải, mặc dù chúng tôi vẫn còn rất nhiều nghi ngờ. Một lần nữa, các đánh giá về khả năng giải quyết vấn đề an toàn AI là rất đa dạng.

Lời cảm ơn

Xin chân thành cảm ơn Joel Becker, Tamay Besiroglu, Jungwon Byun, Joseph Carlsmith, Jesse Clifton, Emery Cooper, Ajeya Cotra, Andrew Critch, Anthony DiGiovanni, Noemi Dreksler, Ben Edelman, Lukas Finnveden, Emily Frizell, Ben Garfinkel, Katja Grace, Lewis Hammond, Jacob Hilton, Samuel Hilton, Michelle Hutchinson, Caroline Jeanmaire, Kuhan Jeyapragasan, Arden Koehler, Daniel Kokotajlo, Victoria Krakovna, Alex Lawsen, Howie Lempel, Eli Lifland, Katy Moore, Luke Muehlhauser, Neel Nanda, Linh Chi Nguyen, Luisa Rodriguez, Caspar Oesterheld, Ethan Perez, Charlie Rogers-Smith, Jack Ryan, Rohin Shah, Buck Shlegeris, Marlene Staib, Andreas Stuhlmüller, Luke Stebbing, Nate Thomas, Benjamin Todd, Stefan Torges, Michael Townsend, Chris van Merwijk, Hjalmar Wijk, và Mark Xu vì đã xem xét bài viết hoặc đưa ra những bình luận và cuộc trò chuyện vô cùng sâu sắc và hữu ích. (Điều này không có nghĩa là tất cả họ đều đồng ý với mọi điều tôi đã nói – thực tế, chúng tôi đã có nhiều tranh luận sôi nổi trong phần bình luận của bài viết!)

Tác phẩm này được cấp phép theo Giấy phép Creative Commons 4.0 Quốc tế.

Nên làm gì tiếp theo?

Nếu bạn quan tâm đến việc tìm hiểu cách làm nhiều điều tốt hơn, đây là một số bước tiếp theo bạn có thể thực hiện.

Khám phá thêm hành động bạn có thể làm

Thắc mắc thường gặp

Phản biện thường gặp

Nguy cơ chúng ta không thực sự thấu hiểu và giải quyết đúng nhu cầu của những người mình đang giúp đỡ là có thật, và chúng ta phải luôn cảnh giác với rủi ro này. Nếu không lắng nghe và thấu hiểu người thụ hưởng, chúng ta sẽ kém hiệu quả đi, điều này hoàn toàn trái ngược với mục tiêu của chúng ta.

Một số người ủng hộ tổ chức GiveDirectly vì họ trao tiền mặt trực tiếp cho người nghèo, để người dân hoàn toàn tự quyết định cách sử dụng số tiền đó. Cách làm này có thể trao quyền cho người dân tốt hơn là việc áp đặt các dịch vụ mà có thể cộng đồng địa phương không thực sự mong muốn.

Các tổ chức khác mà chúng tôi hỗ trợ thì cung cấp các dịch vụ y tế cơ bản, như tiêm chủng hay bổ sung vi chất. Đây là những điều tốt đẹp một cách rõ ràng đến mức gần như chắc chắn người thụ hưởng sẽ trân trọng chúng. Sức khỏe tốt hơn có thể tiếp thêm sức mạnh để người dân tự cải thiện hoàn cảnh của mình theo những cách mà chúng ta, với tư cách là người ngoài cuộc, không thể làm thay được.

Trong những trường hợp khác, chúng tôi có thể tiến hành các đánh giá tác động chi tiết để xem người thụ hưởng thực sự cảm thấy thế nào về dịch vụ mà chúng tôi cung cấp. Tất nhiên, các cuộc khảo sát này không phải lúc nào cũng đáng tin cậy, nhưng đó thường là điều tốt nhất chúng ta có thể làm.

Với những đối tượng không thể nói lên tiếng nói của mình như động vật hoặc các thế hệ tương lai, vấn đề này còn phức tạp hơn nữa. Khi đó, mọi người phải cố gắng hết sức để dự đoán xem họ/chúng sẽ muốn gì nếu có thể giao tiếp với chúng ta. Những trường hợp hiển nhiên có thể kể đến như: lợn không muốn bị nhốt cả đời trong 'chuồng ép heo nái' chật hẹp, hoặc các thế hệ tương lai không muốn kế thừa một hành tinh mà con người không còn có thể dễ dàng sinh sống.

Tìm hiểu thêm:
Làm sao để không trở thành "vị cứu tinh da trắng"? (Bài học về phức cảm cứu thế) - How not to be a “white in shining armour”
‍
Một số ví dụ về lập luận phản biện này:
Angus Deaton trên Boston Review
‍Jennifer Rubenstein trên Boston Review
Cecelia Lynch trên CIHA
‍