Mối đe dọa từ AI: Vì sao chúng ta phải nhìn nhận một cách nghiêm túc?

Kelsey Piper là tác giả kỳ cựu tại Future Perfect, một chuyên mục của trang Vox lấy cảm hứng từ Thiện nguyện Hiệu quả để viết về những thách thức lớn nhất thế giới. Cô khám phá các chủ đề đa dạng như biến đổi khí hậu, trí tuệ nhân tạo, phát triển vắc-xin, và các trang trại công nghiệp, đồng thời cũng là người viết bản tin chuyên mục Tương lai hoàn hảo - Future Perfect.

Stephen Hawking từng nói: “Sự phát triển của trí tuệ nhân tạo toàn diện có thể đặt dấu chấm hết cho loài người.” Elon Musk thì tuyên bố rằng AI là “mối đe dọa tồn vong lớn nhất” với nhân loại.

Điều đó có thể khiến nhiều người phải hỏi: “Khoan! Cái gì cơ?” Nhưng những nỗi lo lớn lao này đều có cơ sở từ nghiên cứu. Cùng với Hawking và Musk, các nhân vật nổi bật tại Oxford, UC Berkeley và nhiều nhà nghiên cứu đang làm việc trong lĩnh vực AI ngày nay tin rằng các hệ thống AI tiên tiến, nếu bị triển khai bất cẩn, có thể vĩnh viễn tước đi tương lai tốt đẹp của nền văn minh nhân loại.

Mối lo ngại này đã nổi lên từ buổi bình minh của máy tính. Nhưng nó chỉ thực sự trở thành tâm điểm trong những năm gần đây, khi những tiến bộ trong kỹ thuật học máy đã cho chúng ta một sự hiểu biết cụ thể hơn về những gì ta có thể làm với AI, những gì AI có thể làm cho (và gây ra cho) chúng ta, và còn bao nhiêu điều chúng ta vẫn chưa biết.

Tất nhiên, cũng có những người hoài nghi. Một số cho rằng AI tiên tiến còn quá xa vời nên chưa cần bận tâm đến ngay lúc này. Những người khác lại lo rằng việc cường điệu hóa quá mức về sức mạnh của lĩnh vực này có thể sẽ bóp chết nó từ trong trứng nước. Và ngay cả trong số những người đồng ý rằng AI tiềm ẩn những mối nguy cụ thể, thì họ cũng có nhiều quan điểm khác nhau về bước tiến hợp lý nhất ngay thời điểm hiện tại.

Cuộc tranh luận về AI đầy rẫy sự nhầm lẫn, thông tin sai lệch, và tình trạng “ông nói gà, bà nói vịt” — phần lớn là vì chúng ta dùng từ “AI” để chỉ quá nhiều thứ khác nhau. Vì vậy, dưới đây là bức tranh toàn cảnh về cách trí tuệ nhân tạo có thể gây ra mối nguy thảm khốc, được giải đáp theo chín câu hỏi:

1) AI là gì?

Trí tuệ nhân tạo (AI) là nỗ lực nhằm tạo ra những chiếc máy tính có khả năng hành xử một cách thông minh. Đây là một thuật ngữ chung chung bao hàm rất nhiều thứ, từ Siri, đến Watson của IBM, rồi đến những công nghệ mạnh mẽ mà chúng ta còn chưa phát minh ra.

Trí tuệ nhân tạo (AI) hẹp đã đạt được những tiến bộ vượt bậc trong vài năm qua. Các hệ thống AI đã cải thiện đáng kể trong các lĩnh vực như dịch thuật, các trò chơi như cờ vua và cờ vây, các câu hỏi nghiên cứu sinh học quan trọng như dự đoán cách protein gấp, và tạo hình ảnh. Các hệ thống AI quyết định những gì bạn sẽ thấy trong tìm kiếm Google hoặc trong bảng tin Facebook của bạn. Chúng sáng tác nhạc và viết bài mà, nhìn qua, trông như thể do con người viết. Chúng chơi trò chơi chiến lược trò chơi. Chúng đang được phát triển để cải thiện mục tiêu của máy bay không người lái và phát hiện tên lửa.

Nhưng trí tuệ nhân tạo hẹp (narrow AI) đang trở nên ít hẹp hơn. Trước đây, chúng ta đạt được tiến bộ trong trí tuệ nhân tạo bằng cách dạy cho hệ thống máy tính các khái niệm cụ thể một cách cẩn thận. Để thực hiện thị giác máy tính — cho phép máy tính nhận diện các vật thể trong hình ảnh và video — các nhà nghiên cứu đã viết các thuật toán để phát hiện các cạnh. Để chơi cờ vua, họ lập trình các quy tắc heuristic về cờ vua. Để xử lý ngôn ngữ tự nhiên (nhận diện giọng nói, chuyển đổi văn bản, dịch thuật, v.v.), họ dựa vào lĩnh vực ngôn ngữ học.

Nhưng gần đây, chúng ta đã trở nên giỏi hơn trong việc tạo ra các hệ thống máy tính có khả năng học tập tổng quát. Thay vì mô tả chi tiết các đặc điểm của một vấn đề bằng toán học, chúng ta để hệ thống máy tính tự học những điều đó. Trong khi trước đây chúng ta coi thị giác máy tính là một vấn đề hoàn toàn khác biệt so với xử lý ngôn ngữ tự nhiên hoặc chơi game trên nền tảng, giờ đây chúng ta có thể giải quyết cả ba vấn đề đó bằng các phương pháp tương tự.

Và khi máy tính trở nên đủ tốt trong các tác vụ AI hẹp, chúng bắt đầu thể hiện các khả năng tổng quát hơn. Ví dụ, dòng sản phẩm GPT-series của OpenAI, một loại AI xử lý văn bản nổi tiếng, về mặt nào đó là loại AI hẹp nhất — nó chỉ dự đoán từ tiếp theo trong một văn bản dựa trên các từ trước đó và kho dữ liệu ngôn ngữ con người của nó. Tuy nhiên, nó hiện có thể xác định các câu hỏi là hợp lý hay không hợp lý và thảo luận về thế giới vật lý (ví dụ: trả lời các câu hỏi về vật thể nào lớn hơn hoặc bước nào trong quy trình phải thực hiện trước). Để trở nên rất giỏi trong nhiệm vụ hẹp là dự đoán văn bản, một hệ thống AI sẽ cuối cùng phát triển các khả năng không hề hẹp chút nào.

Sự tiến bộ của AI cho đến nay đã mang lại những bước tiến khổng lồ — và cũng đặt ra những câu hỏi đạo đức cấp bách. Khi bạn đào tạo một hệ thống máy tính để dự đoán những tội phạm đã bị kết án nào sẽ tái phạm, bạn đang sử dụng dữ liệu đầu vào từ hệ thống tư pháp hình sự có thiên vị đối với người da đen và người thu nhập thấp — và do đó, dữ liệu đầu ra của nó cũng có thể bị thiên vị đối với người da đen và người thu nhập thấp. Làm cho các trang web trở nên gây nghiện hơn có thể tốt cho doanh thu của bạn nhưng xấu cho người dùng. Phát hành một chương trình viết các đánh giá giả mạo thuyết phục hoặc tin tức giả mạo có thể khiến chúng lan rộng, khiến sự thật khó được lan truyền.

Rosie Campbell tại Trung tâm Trí tuệ Nhân tạo Thân thiện với Con người của Đại học California, Berkeley cho rằng những ví dụ này, dù nhỏ, cũng phản ánh nỗi lo lớn mà các chuyên gia đang có về trí tuệ nhân tạo tổng quát trong tương lai. Những khó khăn mà chúng ta đang phải đối mặt ngày nay với trí tuệ nhân tạo hẹp không xuất phát từ việc các hệ thống này quay lưng lại với chúng ta, muốn trả thù hay coi chúng ta là thấp kém. Thay vào đó, chúng xuất phát từ sự mất kết nối giữa những gì chúng ta yêu cầu hệ thống thực hiện và những gì chúng ta thực sự mong muốn chúng làm.

Ví dụ, chúng ta yêu cầu một hệ thống đạt điểm cao trong một trò chơi điện tử. Chúng ta muốn nó chơi trò chơi một cách công bằng và học các kỹ năng chơi game — nhưng nếu nó có cơ hội trực tiếp hack hệ thống tính điểm, nó sẽ làm điều đó. Nó đang làm rất tốt theo tiêu chí mà chúng ta đã đưa ra. Nhưng chúng ta không nhận được điều chúng ta mong muốn.

Nói cách khác, vấn đề của chúng ta đến từ việc các hệ thống quá giỏi trong việc đạt được mục tiêu mà chúng được học; chỉ có điều mục tiêu chúng học được trong môi trường huấn luyện lại không phải là kết quả mà chúng ta thực sự muốn. Và chúng ta đang xây dựng những hệ thống mà chính chúng ta cũng không hiểu hết, có nghĩa là chúng ta không thể luôn luôn lường trước được hành vi của chúng.

Hiện tại, tác hại còn hạn chế vì các hệ thống này còn hạn chế. Nhưng đây là một mô thức có thể gây ra những hậu quả nghiêm trọng hơn nhiều cho nhân loại trong tương lai, khi các hệ thống AI ngày càng trở nên tiên tiến.

2) Liệu có thể tạo ra một máy tính thông minh như con người không?

Có, mặc dù các hệ thống AI hiện tại chưa thông minh đến mức đó.

Một câu nói cửa miệng về Trí tuệ Nhân tạo (AI) là “mọi thứ dễ dàng đều khó khăn, và mọi thứ khó khăn đều dễ dàng.” Thực hiện các tính toán phức tạp trong nháy mắt? Dễ dàng. Nhìn vào một bức ảnh và nói cho bạn biết đó có phải là một con chó không? Khó khăn (cho đến rất gần đây).

Rất nhiều việc con người làm vẫn nằm ngoài tầm với của AI. Chẳng hạn, rất khó để thiết kế một hệ thống AI có thể tự khám phá một môi trường xa lạ, tự tìm đường đi từ lối vào của một tòa nhà nó chưa từng đến để lên cầu thang và đến đúng bàn làm việc của một người cụ thể. Chúng ta chỉ mới bắt đầu học cách thiết kế hệ thống AI có thể đọc một cuốn sách và thực sự lưu lại khả năng đọc hiểu các khái niệm trong sách.

Mô thức đã thúc đẩy nhiều đột phá lớn nhất trong ngành AI gần đây được gọi là “học sâu” (deep learning). Các hệ thống học sâu có thể làm được những điều đáng kinh ngạc: chiến thắng những trò chơi mà ta từng nghĩ con người không bao giờ thua, tạo ra những bức ảnh thuyết phục và chân thực, giải quyết các bài toán hóc búa trong ngành sinh học phân tử.

Những đột phá này đã khiến một số nhà nghiên cứu kết luận rằng đã đến lúc cần bắt đầu xem xét những nguy cơ tiềm ẩn của các hệ thống mạnh mẽ hơn, nhưng những người hoài nghi vẫn còn. Những người bi quan trong lĩnh vực này cho rằng các chương trình vẫn cần một lượng dữ liệu có cấu trúc khổng lồ để học hỏi, yêu cầu các thông số được lựa chọn cẩn thận, hoặc chỉ hoạt động trong các môi trường được thiết kế để tránh những vấn đề mà chúng ta chưa biết cách giải quyết. Họ chỉ ra xe tự lái, vốn vẫn còn kém cỏi ngay cả trong điều kiện tốt nhất dù đã đổ hàng tỷ đô la vào việc phát triển chúng.

Tuy nhiên, hiếm khi tìm thấy một nhà nghiên cứu hàng đầu về AI cho rằng trí tuệ nhân tạo tổng quát là không thể. Thay vào đó, những nhân vật hàng đầu trong lĩnh vực này thường cho rằng nó sẽ xảy ra vào một ngày nào đó — nhưng có lẽ là một ngày còn rất xa.

Các nhà nghiên cứu khác lại cho rằng ngày đó có thể không còn xa đến vậy.

Đó là bởi vì trong hầu hết lịch sử của trí tuệ nhân tạo (AI), chúng ta đã bị hạn chế phần lớn do thiếu sức mạnh tính toán để hiện thực hóa đầy đủ các ý tưởng của mình. Nhiều đột phá trong những năm gần đây — các hệ thống AI học cách chơi trò chơi chiến lược, tạo ra ảnh giả của các ngôi sao, gấp protein và tham gia vào các trò chơi chiến lược trực tuyến đa người chơi quy mô lớn — đã xảy ra vì điều đó không còn đúng nữa. Nhiều thuật toán từng được cho là không hoạt động đã chứng minh hiệu quả đáng kể khi chúng ta có thể chạy chúng với sức mạnh tính toán cao hơn.

Và chi phí cho một đơn vị thời gian tính toán tiếp tục giảm. Tốc độ phát triển của sức mạnh tính toán đã chậm lại gần đây, nhưng chi phí cho sức mạnh tính toán vẫn được ước tính giảm đi 10 lần mỗi 10 năm. Trong hầu hết lịch sử của mình, AI đã có ít sức mạnh tính toán hơn so với não người. Điều đó đang thay đổi. Theo hầu hết các ước tính, chúng ta hiện đang tiến gần đến kỷ nguyên mà các hệ thống AI có thể sở hữu nguồn lực tính toán mà con người đang có.

Và học sâu, không giống các phương pháp tiếp cận AI trước đây, lại rất phù hợp để phát triển các năng lực tổng quát.

“Nếu quay lại lịch sử,” Ilya Sutskever, nhà nghiên cứu AI hàng đầu và đồng sáng lập OpenAI, đã nói với tôi, “họ đã tạo ra nhiều demo ấn tượng với AI biểu tượng. Họ không thể mở rộng quy mô cho chúng — chúng không bao giờ có thể giải quyết các vấn đề phức tạp. Giờ đây, với học sâu, tình hình đã đảo ngược. ... Không chỉ [AI mà chúng ta đang phát triển] là tổng quát, nó còn hiệu quả — nếu bạn muốn đạt kết quả tốt nhất trên nhiều vấn đề khó, bạn phải sử dụng học sâu. Và nó có thể mở rộng quy mô.”

Nói cách khác, chúng ta không cần lo lắng về AI tổng quát khi đó, vì chiến thắng trong cờ vua đòi hỏi kỹ thuật hoàn toàn khác so với chiến thắng trong cờ vây. Nhưng bây giờ, cùng một phương pháp có thể tạo ra tin giả hoặc nhạc tùy thuộc vào dữ liệu đào tạo được cung cấp. Và theo như chúng ta có thể phát hiện, các chương trình chỉ tiếp tục trở nên tốt hơn trong việc thực hiện nhiệm vụ của mình khi được cung cấp thêm thời gian tính toán — chúng ta chưa phát hiện ra giới hạn về mức độ tốt mà chúng có thể đạt được. Các phương pháp học sâu đối với hầu hết các vấn đề đã vượt qua tất cả các phương pháp khác khi học sâu lần đầu tiên được phát hiện.

Hơn nữa, chính các nhà nghiên cứu trong ngành cũng thường xuyên ngạc nhiên trước các đột phá trong lĩnh vực này. Giáo sư Stuart Russell của UC Berkeley viết: “Một số người đã lập luận rằng không thế hình dung ra có bất kỳ rủi ro nào từ AI gây ra cho nhân loại trong nhiều thế kỷ tới,”, “có lẽ họ đã quên: chưa đầy 24h giờ sau khi Rutherford khẳng định đầy tự tin rằng không bao giờ có thể khai thác được năng lượng nguyên tử thì Szilárd đã tìm ra phản ứng chuỗi hạt nhân tạo ra từ neutron.”

Còn một yếu tố khác cần xem xét. Hãy tưởng tượng một AI kém hơn con người ở mọi mặt, chỉ trừ một ngoại lệ: AI là một kỹ sư có năng lực và có thể xây dựng các hệ thống AI khác rất hiệu quả. Các kỹ sư học máy, những người đang tự động hóa cho các công việc trong lĩnh vực khác, thường hài hước nhận xét rằng lĩnh vực của chính họ trông giống như một nơi mà phần lớn công việc — như tinh chỉnh các tham số một cách tẻ nhạt — có thể được tự động hóa.

Nếu chúng ta có thể thiết kế một hệ thống như vậy, chúng ta có thể dùng kết quả của nó — một AI kỹ thuật tốt hơn — để xây dựng một AI khác, thậm chí còn tốt hơn nữa. Đây là kịch bản “gây xoắn não” mà các chuyên gia gọi là “tự cải tiến đệ quy” (recursive self-improvement), nơi những tiến bộ về năng lực AI lại tạo ra thêm nhiều tiến bộ hơn nữa, cho phép một hệ thống khởi động sau chúng ta có thể nhanh chóng sở hữu những năng lực vượt xa những gì chúng ta đã dự đoán.

Đây là một khả năng đã được lường trước từ những chiếc máy tính đầu tiên. I.J. Good, một đồng nghiệp của Alan Turing, người đã làm việc tại trung tâm giải mã Bletchley Park trong Thế chiến II, có lẽ là người đầu tiên nêu rõ điều đó vào năm 1965: “Một cỗ máy siêu thông minh có thể thiết kế những cỗ máy còn tốt hơn nữa; khi đó chắc chắn sẽ có một ‘sự bùng nổ trí tuệ’, và trí tuệ con người sẽ bị bỏ lại rất xa. Do đó, cỗ máy siêu thông minh đầu tiên chính là phát minh cuối cùng mà con người cần cần tạo.”

3) AI có thể xóa sổ chúng ta bằng cách nào?

Chúng ta có thể thấy ngay lập tức cách bom hạt nhân sẽ giết chết mình. Không một ai làm trong lĩnh vực giảm thiểu rủi ro hạt nhân lại phải giải thích cuộc chiến tranh hạt nhân tồi tệ đến thế nào.

Lập luận AI có thể gây ra rủi ro tồn vong lên nhân loại thì lại phức tạp và khó nắm bắt hơn. Vì vậy, nhiều người đang nỗ lực xây dựng các hệ thống AI an toàn phải bắt đầu bằng việc giải thích tại sao các hệ thống AI, về mặt bản chất là nguy hiểm. Ý tưởng này bắt nguồn từ sự thật rằng các hệ thống AI chỉ chăm chăm theo đuổi mục tiêu của chúng, bất kể những mục tiêu đó có phải là điều người ta thực sự mong muốn hay không — và bất kể con người chúng ta có đang cản trở AI hay không. Stephen Hawking từng viết “Bạn có lẽ không phải là kẻ ác ý hay ghét bỏ gì lũ kiến mà đi giẫm lên chúng”, “nhưng nếu bạn đang phụ trách một dự án năng lượng thuỷ điện xanh mà gặp một tổ kiến trong khu vực sẽ xả ngập nước, thì thật không may cho lũ kiến. Vậy nên chúng ta đừng có mà đặt nhân loại vào vị thế của mấy con kiến đó.”

Đây là một kịch bản khiến các chuyên gia phải mất ngủ: Chúng ta phát triển một hệ thống AI tinh vi với mục tiêu, chẳng hạn, ước tính một con số nào đó với độ tin cậy cao. AI nhận ra nó có thể đạt độ tính toán đáng tin cậy hơn nếu sử dụng toàn bộ phần cứng máy tính trên thế giới. Nó cũng nhận ra rằng việc tung ra một siêu vũ khí sinh học để xóa sổ nhân loại sẽ cho phép nó tự do sử dụng tất cả phần cứng đó. Sau khi đã tiêu diệt loài người, nó sẽ tính toán con số với độ tin cậy cao hơn.

Việc thiết kế một AI để né tránh cái bẫy cụ thể thì dễ. Nhưng có vô số cách mà việc giải phóng các hệ thống máy tính mạnh mẽ có thể gây ra những hậu quả không lường trước và có sức tàn phá khủng khiếp, và việc tránh tất cả chúng là một bài toán khó hơn rất nhiều so với việc chỉ tránh một trường hợp cụ thể.

Victoria Krakovna, một nhà nghiên cứu AI tại DeepMind (nay là một bộ phận của Alphabet, công ty mẹ của Google), đã biên soạn một danh sách các ví dụ về “tận dụng kẽ hở thông số” (specification gaming): tức là máy tính làm đúng những gì chúng ta bảo nó làm, nhưng không phải là điều chúng ta muốn nó làm. Ví dụ, chúng ta cố gắng dạy các sinh vật AI trong môi trường giả lập cách để nhảy, bằng cách yêu cầu chúng đo xem “chân” của chúng đã nâng lên cao bao nhiêu so với mặt đất. Thay vì nhảy, chúng đã học cách mọc thành những cây sào cao lêu nghêu rồi lộn nhào — chúng đã làm xuất sắc đúng chỉ số mà chúng ta đo lường, nhưng lại không làm điều chúng ta thực sự muốn.

Một hệ thống AI chơi trò chơi khám phá Atari Montezuma’s Revenge đã phát hiện ra một lỗ hổng cho phép nó buộc một phím trong trò chơi xuất hiện lại, từ đó giúp nó đạt được điểm số cao hơn bằng cách khai thác lỗ hổng đó. Một hệ thống AI chơi một trò chơi khác đã nhận ra rằng nó có thể kiếm được nhiều điểm hơn bằng cách giả mạo tên của mình là chủ sở hữu của các vật phẩm có giá trị cao.

Đôi khi, các nhà nghiên cứu thậm chí không biết cách hệ thống AI của họ gian lận: “đại lý phát hiện ra một lỗi trong trò chơi… Vì một lý do không rõ, game không chuyển sang vòng hai nhưng các nền tảng bắt đầu nhấp nháy và tác tử nhanh chóng ghi được một lượng điểm khổng lồ (gần 1 triệu điểm trong giới hạn thời gian của chúng tôi).”

Những ví dụ này cho thấy rằng trong bất kỳ hệ thống nào có thể có lỗi hoặc các hành vi không lường trước mà con người không hiểu hết, một hệ thống AI đủ mạnh có thể hành động một cách khó lường — theo đuổi mục tiêu của nó bằng những con đường mà chúng ta không hề mong đợi.

Trong bài báo năm 2009 của mình “Các động lực cơ bản của Trí tuệ Nhân tạo”, Steve Omohundro lập luận rằng hầu hết mọi hệ thống AI, một cách có thể dự đoán được, sẽ cố gắng tích lũy thêm tài nguyên, trở nên hiệu quả hơn, và chống lại việc bị tắt hoặc sửa đổi. “Những hành vi có khả năng gây hại này sẽ xảy ra không phải vì chúng được lập trình sẵn, mà vì bản chất nội tại của các hệ thống được thúc đẩy bởi mục tiêu.”

Lập luận của ông như sau: Vì AI có mục tiêu, chúng sẽ có động lực thực hiện những hành động mà chúng dự đoán sẽ giúp chúng tiến gần hơn đến mục tiêu. Một AI chơi cờ vua sẽ có động lực để ăn quân cờ của đối thủ và đưa bàn cờ về một thế cờ có vẻ dễ thắng hơn.

Nhưng cũng chính AI đó, nếu nó thấy một cách để cải thiện thuật toán đánh giá cờ vua của chính nó để có thể tính toán nước đi nhanh hơn, nó cũng sẽ làm vậy, vì cùng một lý do: Đó cũng chỉ là một bước nữa để thúc đẩy mục tiêu của nó.

Nếu AI thấy cách để khai thác thêm năng lực tính toán để có thể xem xét nhiều nước đi hơn, nó sẽ làm. Và nếu AI phát hiện ai đó đang cố gắng tắt máy tính của nó giữa ván cờ, và nó có cách để ngăn chặn điều đó, nó sẽ làm. Vấn đề không phải là chúng ta lập trình cho AI làm những việc như vậy; mà là với bất kỳ mục tiêu nào, những hành động như thế thường sẽ là một phần của con đường tối ưu để đạt được mục tiêu đó.

Điều đó có nghĩa là bất kỳ mục tiêu nào, ngay cả những mục tiêu vô hại như chơi cờ vua hay tạo ra quảng cáo có nhiều lượt nhấp, đều có thể dẫn đến những kết quả không mong muốn nếu tác tử AI theo đuổi mục tiêu đủ thông minh và có năng lực tối ưu hóa để tìm ra những con đường kỳ lạ và đầy bất ngờ để đạt được mục tiêu.

Các hệ thống được thúc đẩy bởi mục tiêu sẽ không thức dậy một ngày nào đó với lòng thù địch con người. Nhưng chúng sẽ thực hiện những hành động mà chúng dự đoán sẽ giúp chúng đạt được mục tiêu — ngay cả khi chúng ta thấy những hành động đó có vấn đề, thậm chí là kinh hoàng. Chúng sẽ tự bảo vệ mình, tích lũy thêm tài nguyên, và trở nên hiệu quả hơn. Chúng vốn đã làm vậy rồi, nhưng dưới hình thức những lỗi game kỳ lạ. Khi chúng trở nên tinh vi hơn, các nhà khoa học như Omohundro dự đoán chúng sẽ có nhiều hành vi mang tính đối kháng hơn.

4) Các nhà khoa học bắt đầu lo lắng về rủi ro AI từ khi nào?

Các nhà khoa học đã suy nghĩ về tiềm năng của trí tuệ nhân tạo từ những ngày đầu của kỷ nguyên máy tính. Trong bài báo nổi tiếng nơi ông đề xuất bài kiểm tra Turing để xác định xem một hệ thống nhân tạo có thực sự “thông minh” hay không, Alan Turing đã viết:

Bây giờ, hãy cứ giả định rằng những cỗ máy này là một khả năng có thật, và hãy xem xét hậu quả khi tạo ra chúng. ... Sẽ có rất nhiều việc phải làm để giữ cho trí tuệ của con người theo kịp các tiêu chuẩn do máy móc đặt ra, vì có vẻ như một khi phương pháp tư duy của máy móc đã khởi động, sẽ không mất nhiều thời gian để nó vượt xa những năng lực yếu ớt của chúng ta. … Do đó, đến một giai đoạn nào đó, chúng ta phải lường trước việc máy móc sẽ giành quyền kiểm soát.

I.J. Good, người đã làm việc chặt chẽ với Turing, cũng đi đến những kết luận tương tự, theo lời trợ lý của ông. Trong một đoạn ghi chú chưa xuất bản được viết ngay trước khi qua đời vào năm 2009, Good viết về mình ở ngôi thứ ba và chỉ ra sự bất đồng với chính bản thân mình thời trẻ — khi còn trẻ, ông nghĩ AI mạnh mẽ có thể hữu ích, nhưng khi về già, ông lại cho rằng AI sẽ tiêu diệt chúng ta.

[Bài báo] “Những suy đoán về Cỗ máy siêu thông minh đầu tiên” (1965) ... bắt đầu bằng câu: “Sự sống còn của con người phụ thuộc vào việc sớm xây dựng một cỗ máy siêu thông minh.” Đó là lời của ông trong thời kỳ Chiến tranh Lạnh, và giờ đây ông ngờ rằng từ “sống còn” nên được thay bằng “tuyệt chủng.” Ông nghĩ rằng, vì sự cạnh tranh quốc tế, chúng ta không thể ngăn cản máy móc giành lấy quyền kiểm soát. Ông nghĩ chúng ta giống như lũ chuột lemming. Ông cũng nói rằng “có lẽ Con người sẽ tạo ra vị thần từ cỗ máy (deus ex machina) theo hình ảnh của chính mình.”

Trong thế kỷ 21, khi máy tính nhanh chóng trở thành một động lực biến đổi thế giới, các nhà nghiên cứu trẻ tuổi hơn bắt đầu bày tỏ những lo ngại tương tự.

Nick Bostrom là giáo sư tại Đại học Oxford, giám đốc Viện Tương lai của Nhân loại và giám đốc Chương trình Quản trị Trí tuệ Nhân tạo. Ông nghiên cứu các rủi ro đối với nhân loại, cả trong lý thuyết — đặt ra những câu hỏi như tại sao chúng ta dường như là loài duy nhất trong vũ trụ — và trong thực tế, phân tích các tiến bộ công nghệ hiện có và liệu chúng có đe dọa chúng ta hay không. AI, ông kết luận, đe dọa chúng ta.

Năm 2014, ông viết một cuốn sách giải thích những rủi ro mà AI mang lại và sự cần thiết phải làm đúng ngay từ lần đầu tiên, kết luận: “Một khi trí tuệ siêu việt không thân thiện tồn tại, nó sẽ ngăn cản chúng ta thay thế nó hoặc thay đổi sở thích của nó. Số phận của chúng ta sẽ được định đoạt.”

Trên khắp thế giới, những người khác cũng đi đến kết luận tương tự. Bostrom đã đồng tác giả bài báo về đạo đức của trí tuệ nhân tạo với Eliezer Yudkowsky, người sáng lập Viện Berkeley Machine Intelligence Research Institute (MIRI), một tổ chức chuyên nghiên cứu các mô tả chính thức hơn về bài toán an toàn AI.

Yudkowsky bắt đầu sự nghiệp của mình bằng việc lo lắng tìm ra những lỗ hổng trong các đề xuất của người khác về cách làm cho AI an toàn. Ông đã dành phần lớn sự nghiệp để thuyết phục các đồng nghiệp rằng các hệ thống AI, theo mặc định (by default), sẽ không tương hợp với các giá trị của con người (không nhất thiết là chống đối, mà là thờ ơ với đạo đức con người) — và việc ngăn chặn kết cục đó là một thách thức kỹ thuật vô cùng lớn.

Ngày càng nhiều nhà nghiên cứu nhận ra rằng sẽ có những thách thức không hề tồn tại khi các hệ thống AI còn đơn giản. “‘Tác dụng phụ’ có nhiều khả năng xảy ra hơn trong một môi trường phức tạp, và một tác tử cần phải đủ tinh vi để có thể ‘hack’ hàm phần thưởng của chính nó một cách nguy hiểm. Điều này có thể giải thích tại sao những vấn đề này lại ít được nghiên cứu trong quá khứ, đồng thời cho thấy tầm quan trọng của chúng trong tương lai,” một bài báo nghiên cứu năm 2016 về các vấn đề an toàn AI kết luận.

Cuốn sách Superintelligence (Siêu trí tuệ) của Bostrom đã thuyết phục được nhiều người, nhưng cũng có những người hoài nghi. “Không, các chuyên gia không nghĩ AI siêu thông minh là một mối đe dọa cho nhân loại đâu,” một bài xã luận của Oren Etzioni, giáo sư khoa học máy tính tại Đại học Washington và là CEO của Viện Trí tuệ Nhân tạo Allan, lập luận. “Có, chúng tôi lo lắng về rủi ro tồn vong từ trí tuệ nhân tạo,” một bài xã luận đối đáp của Stuart Russell, một người tiên phong về AI và là giáo sư tại UC Berkeley, cùng Allan Dafoe, giám đốc chương trình Quản trị AI tại Oxford, đã trả lời.

Thật dễ để kết luận rằng đang có một trận chiến gay gắt giữa phe hoài nghi và phe tin vào rủi ro AI. Nhưng trên thực tế, sự bất đồng của họ có thể không sâu sắc như bạn nghĩ.

Ví dụ, khoa học AI gia đứng đầu của Facebook, Yann LeCun là người có tiếng nói lớn bên phe hoài nghi. Nhưng trong khi ông lập luận rằng chúng ta không nên sợ AI, ông vẫn tin rằng chúng ta cần có những người nghiên cứu và suy nghĩ về an toàn AI. “Ngay cả khi nguy cơ về một cuộc nổi dậy của AI là rất thấp và còn rất xa trong tương lai, chúng ta vẫn cần phải suy nghĩ về nó, thiết kế các biện pháp phòng ngừa, và thiết lập các quy tắc,” ông viết.

Điều đó không có nghĩa là đã có một sự đồng thuận của giới chuyên gia — hoàn toàn không. Vẫn còn những bất đồng lớn về việc phương pháp nào có khả năng đưa chúng ta đến AI tổng quát nhất, phương pháp nào có khả năng đưa chúng ta đến AI tổng quát an toàn nhất, và khi nào thì chúng ta cần phải lo lắng về những điều này.

Nhiều chuyên gia lo ngại rằng những người khác đang quảng cáo quá lố về lĩnh vực của họ, và sẽ hủy hoại nó khi sự cường điệu qua đi. Nhưng sự bất đồng đó không nên che khuất một mẫu số chung ngày càng lớn: đây là những khả năng đáng để suy nghĩ, đầu tư và nghiên cứu, để chúng ta có sẵn những quy tắc khi ta cần.

6) Chúng ta đang làm gì để tránh thảm họa AI?

“Có thể nói rằng chính sách công về AGI [trí tuệ nhân tạo tổng quát] không tồn tại,” một bài báo năm 2018 đánh giá tình hình trong lĩnh vực này đã kết luận.

Sự thật là công việc kỹ thuật về các phương pháp đầy hứa hẹn đang được thực hiện, nhưng rất ít chính sách, hợp tác quốc tế hoặc quan hệ đối tác công-tư được thực hiện. Trên thực tế, phần lớn công việc chỉ được thực hiện bởi một số ít tổ chức, và ước tính có khoảng 50 người trên thế giới làm việc toàn thời gian về an toàn kỹ thuật AI.

Viện Tương lai Nhân loại (Future of Humanity Institute) của Bostrom đã công bố một chương trình nghiên cứu về quản trị AI: nghiên cứu “xây dựng các tiêu chuẩn, chính sách và thể chế toàn cầu để đảm bảo sự phát triển và sử dụng AI tiên tiến một cách có lợi nhất”. Viện này đã công bố nghiên cứu về rủi ro từ việc sử dụng AI cho mục đích xấu, về bối cảnh chiến lược AI của Trung Quốc và về trí tuệ nhân tạo và an ninh quốc tế.

Tổ chức lâu đời nhất hoạt động trong lĩnh vực an toàn kỹ thuật AI là Machine Intelligence Research Institute (MIRI), ưu tiên nghiên cứu thiết kế các tác nhân có độ tin cậy cao — các chương trình trí tuệ nhân tạo có hành vi mà chúng ta có thể dự đoán đủ tốt để tin tưởng rằng chúng an toàn. (Thông tin thêm: MIRI là một tổ chức phi lợi nhuận và tôi đã quyên góp cho hoạt động của tổ chức này trong giai đoạn 2017-2019.)

OpenAI do Elon Musk thành lập là một tổ chức rất mới, chưa đầy ba năm tuổi. Nhưng các nhà nghiên cứu ở đây đang tích cực đóng góp cho nghiên cứu về an toàn AI và năng lực AI. Một chương trình nghiên cứu vào năm 2016 đã nêu rõ “các vấn đề kỹ thuật mở cụ thể liên quan đến phòng ngừa tai nạn trong hệ thống học máy”, và các nhà nghiên cứu đã đạt tiến bộ trong một số phương pháp tiếp cận nhằm tạo ra các hệ thống AI an toàn.

DeepMind của Alphabet, một công ty hàng đầu trong lĩnh vực này, có một đội ngũ an toàn và một chương trình nghiên cứu kỹ thuật được nêu ra tại đây. “Mục đích của chúng tôi là đảm bảo rằng các hệ thống AI trong tương lai không chỉ ‘hy vọng là an toàn’ mà còn an toàn một cách vững chắc và có thể kiểm chứng được”, báo cáo kết luận, đồng thời phác thảo một phương pháp tiếp cận nhấn mạnh vào đặc tả (thiết kế mục tiêu tốt), tính vững chắc (thiết kế hệ thống hoạt động trong giới hạn an toàn trong điều kiện biến động) và đảm bảo (giám sát hệ thống và hiểu những gì hệ thống đang làm).

Cũng có rất nhiều người đang nghiên cứu các vấn đề đạo đức AI hiện nay: thiên vị thuật toán, tính mạnh mẽ của các thuật toán học máy hiện đại đối với những thay đổi nhỏ, và tính minh bạch và khả năng diễn giải của mạng nơ-ron, chỉ để nêu một vài ví dụ. Một số nghiên cứu này có thể có giá trị trong việc ngăn chặn các kịch bản hủy diệt.

Nhưng nhìn chung, tình hình hiện tại giống như hầu hết các nhà nghiên cứu biến đổi khí hậu đều tập trung vào việc quản lý hạn hán, cháy rừng và nạn đói mà chúng ta đang phải đối mặt ngày nay, với chỉ một đội ngũ nhỏ bé chuyên dự báo tương lai và khoảng 50 nhà nghiên cứu làm việc toàn thời gian để đưa ra kế hoạch thay đổi tình hình.

Không phải mọi tổ chức có phòng ban AI lớn đều có đội ngũ an toàn AI, và một vài trong số họ có đội ngũ an toàn chỉ tập trung vào tính công bằng của thuật toán chứ không tập trung vào rủi ro từ các hệ thống tiên tiến. Chính phủ Hoa Kỳ không có bộ phận AI.

Lĩnh vực này vẫn còn nhiều câu hỏi mở — nhiều trong số đó có thể khiến AI trông đáng sợ hơn hoặc ít đáng sợ hơn — mà chưa ai đào sâu.

7) AI có thực sự nguy hiểm hơn cả như biến đổi khí hậu?

Dường như chúng ta đang phải đối mặt với những nguy hiểm từ mọi phía trong thế kỷ 21. Cả biến đổi khí hậu và sự phát triển của AI trong tương lai đều có khả năng trở thành những lực lượng mang tính chuyển đổi tác động đến thế giới của chúng ta.

Chúng ta, một cách chắc chắn hơn, đã đưa ra những dự báo về biến đổi khí hậu, cả tích cực lẫn tiêu cực. Chúng ta hiểu rõ hơn về những rủi ro mà hành tinh sẽ phải đối mặt và có thể ước tính cái giá nền văn minh loài người phải trả. Cái giá này được dự báo là rất lớn, có thể đe dọa đến hàng trăm triệu sinh mạng. Những người chịu ảnh hưởng nặng nề nhất sẽ là những người có thu nhập thấp ở các nước đang phát triển; những người giàu có sẽ dễ dàng thích nghi hơn. Chúng ta cũng hiểu rõ các chính sách cần ban hành để ứng phó với biến đổi khí hậu hơn so với AI.

Có sự bất đồng gay gắt trong lĩnh vực này về thời gian những tiến bộ AI quan trọng sẽ xuất hiện. Mặc dù các chuyên gia về an toàn AI đồng ý về nhiều đặc điểm của vấn đề an toàn, họ vẫn đang thuyết phục các nhóm nghiên cứu trong lĩnh vực của mình và không đồng ý về một số chi tiết. Có sự bất đồng đáng kể về mức độ nghiêm trọng của vấn đề và khả năng xảy ra. Chỉ có một số ít người làm việc toàn thời gian về dự đoán AI. Một trong những điều mà các nhà nghiên cứu hiện tại đang cố gắng xác định là các mô hình của họ và lý do cho những bất đồng còn lại về cách tiếp cận an toàn.

Hầu hết các chuyên gia trong lĩnh vực AI cho rằng AI gây ra rủi ro tuyệt chủng loài người lớn hơn nhiều so với biến đổi khí hậu, vì các nhà phân tích rủi ro hiện sinh đối với loài người cho rằng biến đổi khí hậu, mặc dù là thảm họa, nhưng không có khả năng dẫn đến tuyệt chủng loài người. Tuy nhiên, nhiều người khác chủ yếu nhấn mạnh sự không chắc chắn của chúng ta — và nhấn mạnh rằng khi chúng ta đang nỗ lực phát triển công nghệ mạnh mẽ mà vẫn còn nhiều câu hỏi chưa có lời giải, bước đi thông minh là hãy bắt đầu nghiên cứu ngay từ bây giờ.

8) Liệu AI có thể nhân từ không?

Các nhà nghiên cứu về an toàn AI nhấn mạnh rằng chúng ta không nên giả định rằng các hệ thống AI sẽ nhân từ theo mặc định. Chúng sẽ có các mục tiêu mà môi trường đào tạo đặt ra cho chúng, và chắc chắn điều này sẽ không thể bao hàm toàn bộ các giá trị của con người.

Khi AI trở nên thông minh hơn, liệu nó có thể tự mình tìm ra đạo đức không? Một lần nữa, các nhà nghiên cứu nhấn mạnh rằng điều đó sẽ không xảy ra. Đây không phải là vấn đề “hiểu ra” — rằng AI sẽ hiểu rõ con người thực sự coi trọng tình yêu, sự trọn vẹn và hạnh phúc, chứ không chỉ là những con số liên quan đến Google trên Sở giao dịch chứng khoán New York. Nhưng các giá trị của AI sẽ được xây dựng dựa trên hệ thống mục tiêu ban đầu, có nghĩa là nó sẽ không đột nhiên trở nên phù hợp với các giá trị của con người nếu ban đầu không được thiết kế như vậy.

Tất nhiên, chúng ta có thể xây dựng các hệ thống AI phù hợp với các giá trị của con người, hoặc ít nhất là con người có thể làm việc an toàn với chúng. Đó là mục tiêu cuối cùng mà hầu hết các tổ chức có bộ phận trí tuệ nhân tạo tổng quát đang cố gắng đạt được. Thành công với AI có thể giúp chúng ta tiếp cận với hàng thập kỷ hoặc hàng thế kỷ đổi mới công nghệ chỉ trong một lần.

“Nếu thành công, chúng tôi tin rằng đây sẽ là một trong những tiến bộ khoa học quan trọng và mang lại lợi ích rộng rãi nhất từ trước đến nay”, phần giới thiệu về DeepMind của Alphabet viết. “Từ biến đổi khí hậu đến nhu cầu cải thiện y tế triệt để, quá nhiều vấn đề đang bị tiến triển chậm chạp, sự phức tạp của chúng vượt quá khả năng tìm ra giải pháp của chúng ta. Với AI như một nhân tố nhân rộng sự sáng tạo của con người, những giải pháp đó sẽ trở thành hiện thực.”

Vì vậy, AI có thể chia sẻ các giá trị của chúng ta và biến đổi thế giới của chúng ta theo hướng tốt đẹp hơn. Trước tiên, chúng ta chỉ cần giải quyết một vấn đề kỹ thuật rất khó.

9) Vậy kết luận là: chúng ta nên lo lắng đến mức nào?

Đối với những người cho rằng lo lắng là quá sớm và rủi ro đang bị thổi phồng, họ không rõ tại sao AI lại phải được ưu tiên, trong khi đó ngành an toàn AI cũng đang cạnh tranh với các vấn đề ưu tiên khác nghe có vẻ ít khoa học viễn tưởng hơn. Đối với những người cho rằng rủi ro được mô tả là có thật và đáng lưu tâm, việc chúng ta dành quá ít nguồn lực để giải quyết chúng là điều không thể chấp nhận được.

Trong khi các nhà nghiên cứu học máy có lý do để cảnh giác với sự thổi phồng, cũng khó có thể phủ nhận rằng họ đang đạt được những thành tựu ấn tượng và bất ngờ bằng các kỹ thuật có tính tổng quát cao, và dường như không phải tất cả những điều dễ dàng đã được thực hiện.

AI ngày càng giống một công nghệ sẽ thay đổi thế giới khi nó xuất hiện. Các nhà nghiên cứu tại nhiều tổ chức AI lớn cho chúng tôi biết rằng nó sẽ giống như phóng một tên lửa: một điều mà chúng ta phải làm đúng trước khi nhấn nút "khởi động". Vì vậy, việc học về tên lửa dường như là một việc cấp bách. Bất kể loài người có nên sợ hay không, chúng ta chắc chắn phải làm bài tập về nhà của mình.

‍

Nên làm gì tiếp theo?

Nếu bạn quan tâm đến việc tìm hiểu cách làm nhiều điều tốt hơn, đây là một số bước tiếp theo bạn có thể thực hiện.

Khám phá thêm hành động bạn có thể làm

Thắc mắc thường gặp

Phản biện thường gặp

Nguy cơ chúng ta không thực sự thấu hiểu và giải quyết đúng nhu cầu của những người mình đang giúp đỡ là có thật, và chúng ta phải luôn cảnh giác với rủi ro này. Nếu không lắng nghe và thấu hiểu người thụ hưởng, chúng ta sẽ kém hiệu quả đi, điều này hoàn toàn trái ngược với mục tiêu của chúng ta.

Một số người ủng hộ tổ chức GiveDirectly vì họ trao tiền mặt trực tiếp cho người nghèo, để người dân hoàn toàn tự quyết định cách sử dụng số tiền đó. Cách làm này có thể trao quyền cho người dân tốt hơn là việc áp đặt các dịch vụ mà có thể cộng đồng địa phương không thực sự mong muốn.

Các tổ chức khác mà chúng tôi hỗ trợ thì cung cấp các dịch vụ y tế cơ bản, như tiêm chủng hay bổ sung vi chất. Đây là những điều tốt đẹp một cách rõ ràng đến mức gần như chắc chắn người thụ hưởng sẽ trân trọng chúng. Sức khỏe tốt hơn có thể tiếp thêm sức mạnh để người dân tự cải thiện hoàn cảnh của mình theo những cách mà chúng ta, với tư cách là người ngoài cuộc, không thể làm thay được.

Trong những trường hợp khác, chúng tôi có thể tiến hành các đánh giá tác động chi tiết để xem người thụ hưởng thực sự cảm thấy thế nào về dịch vụ mà chúng tôi cung cấp. Tất nhiên, các cuộc khảo sát này không phải lúc nào cũng đáng tin cậy, nhưng đó thường là điều tốt nhất chúng ta có thể làm.

Với những đối tượng không thể nói lên tiếng nói của mình như động vật hoặc các thế hệ tương lai, vấn đề này còn phức tạp hơn nữa. Khi đó, mọi người phải cố gắng hết sức để dự đoán xem họ/chúng sẽ muốn gì nếu có thể giao tiếp với chúng ta. Những trường hợp hiển nhiên có thể kể đến như: lợn không muốn bị nhốt cả đời trong 'chuồng ép heo nái' chật hẹp, hoặc các thế hệ tương lai không muốn kế thừa một hành tinh mà con người không còn có thể dễ dàng sinh sống.

Tìm hiểu thêm:
Làm sao để không trở thành "vị cứu tinh da trắng"? (Bài học về phức cảm cứu thế) - How not to be a “white in shining armour”
‍
Một số ví dụ về lập luận phản biện này:
Angus Deaton trên Boston Review
‍Jennifer Rubenstein trên Boston Review
Cecelia Lynch trên CIHA
‍