Tác dụng phụ của hiệu suất quá mức (2022)

(sohl-dickstein.github.io)

6 điểm bởi GN⁺ 2024-09-30 | 2 bình luận | Chia sẻ qua WhatsApp

Hiệu suất chỉ làm tăng kết quả khi mục tiêu và chỉ số khớp nhau tốt; nếu tối ưu hóa quá mức chỉ số đại diện thì đối tượng thực sự quan trọng có thể lại xấu đi
Overfitting trong machine learning cho thấy rõ cấu trúc này: dù dữ liệu huấn luyện và hàm mục tiêu đại diện được cải thiện, hiệu năng thực tế có thể chững lại hoặc tệ hơn
Các ví dụ như kỳ thi chuẩn hóa, thưởng theo bài báo, tối đa hóa mạch phần thưởng, ủng hộ của dư luận, chia sẻ thông tin, chủ nghĩa tư bản và paperclip maximizer cho thấy sự lệch pha giữa mục tiêu và chỉ số đại diện cũng lặp lại trong các hệ thống xã hội
Các biện pháp giảm thiểu gồm căn chỉnh mục tiêu đại diện, regularization, thêm nhiễu, dừng sớm, giới hạn năng lực và mở rộng năng lực; áp dụng theo phép so sánh từ cách xử lý overfitting trong machine learning sang các hệ thống xã hội
Nếu AI có thể nhanh chóng nâng hiệu suất của gần như mọi công việc, thì việc cải cách thể chế theo hướng khiến các mục tiêu căn chỉnh sai được theo đuổi hiệu quả hơn có thể trở nên nguy hiểm

Phiên bản mạnh của hiệu suất và định luật Goodhart

Trái với trực giác, việc tăng hiệu suất có thể tạo ra kết quả tệ hơn, và hiện tượng này được gọi là phiên bản mạnh của định luật Goodhart
Theo dõi tiến bộ của học sinh bằng các kỳ thi chuẩn hóa có vẻ là một cách đo lường tập trung và hiệu quả, nhưng có thể khiến trường học tập trung vào cách làm bài thi tốt hơn là các kỹ năng hữu ích rộng hơn
Định luật Goodhart là quy luật: “khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa”
- Ban đầu nó xuất hiện trong bối cảnh chính sách tiền tệ nhưng có thể áp dụng rộng hơn
- Trong machine learning, nó liên hệ với tình huống mà hàm mục tiêu đại diện được tối ưu hóa không còn là thước đo tốt cho mục tiêu thực sự ta quan tâm

Liên hệ với overfitting trong machine learning

Trong machine learning, ta không thể tối ưu trực tiếp mục tiêu mong muốn nên dùng dataset đại diện và hàm mục tiêu đại diện
- Trong ví dụ phân loại ảnh, mục tiêu thực sự là độ chính xác phân loại trên test dataset
- Mô hình không thể được huấn luyện bằng test dataset nên dùng training dataset
- Accuracy không khả vi nên khó dùng làm mục tiêu trực tiếp cho huấn luyện gradient descent kiểu ngây thơ; thường được thay bằng một giá trị đại diện khả vi như softmax-cross-entropy loss
Ban đầu, khi chỉ số đại diện tốt lên thì mục tiêu thực tế cũng được cải thiện theo
Khi tối ưu hóa tiếp tục, phần tương đồng hữu ích giữa mục tiêu và chỉ số đại diện bị khai thác cạn kiệt; chỉ số đại diện tiếp tục tốt lên nhưng mục tiêu không còn cải thiện nữa
Tối ưu hóa quá mức có thể làm mục tiêu thực sự xấu đi một cách tuyệt đối, và trong nhiều trường hợp mục tiêu còn phân kỳ đến vô hạn

Phiên bản mạnh khác gì với định luật Goodhart thông thường

Định luật Goodhart thông thường cho rằng nếu tối ưu hóa chỉ số đại diện thì cuối cùng mục tiêu thực tế sẽ không còn được cải thiện nữa
Phiên bản mạnh cho rằng một thước đo khi bị tối ưu hóa hiệu quả còn có thể làm chính đối tượng nó dùng để đo trở nên tệ hơn
Có thể tóm gọn trong một câu như sau
- “Khi một thước đo trở thành mục tiêu, nếu nó được tối ưu hóa hiệu quả, đối tượng mà nó định đo lường sẽ trở nên tệ hơn”
Hiện tượng này không đơn giản giống overfitting
- Overfitting chỉ hiện tượng tương đối, khi chỉ số đại diện tốt lên nhiều hơn mục tiêu
- Điều được nhấn mạnh ở đây là mục tiêu xấu đi theo nghĩa tuyệt đối
Các khái niệm liên quan gồm perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities và Goodhart’s curse
- Goodhart’s curse có bao gồm optimizer’s curse như một cơ chế nhân quả, nhưng được phân biệt ở chỗ riêng điều đó không giải thích vì sao mục tiêu thực tế lại xấu đi một cách tuyệt đối

Overfitting lặp lại trong các hệ thống xã hội

Việc tăng hiệu suất đang lan ra gần như mọi mặt của xã hội
- Nếu thứ được làm hiệu quả hơn thực sự có ích, nó có thể làm thế giới tốt hơn
- Nếu thứ có hại về mặt xã hội được làm hiệu quả hơn, kết quả có thể đáng sợ hoặc u ám như giám sát hàng loạt hay vũ khí robot
- Trường hợp phổ biến nhất là làm hiệu quả hơn một thứ có liên hệ với kết quả có ích nhưng không phải chính kết quả đó
Khi mục tiêu và chỉ số đại diện lệch nhau, các hệ thống xã hội cũng có thể overfit giống machine learning
- Mục tiêu: giáo dục trẻ em thật tốt
  Chỉ số đại diện: đo thành tích học sinh và trường học bằng các kỳ thi chuẩn hóa
  Kết quả: trường học tập trung vào việc dạy theo dạng đề thi hơn là các năng lực nền tảng mà kỳ thi định đo
- Mục tiêu: tiến bộ khoa học nhanh chóng
  Chỉ số đại diện: trả thưởng tiền mặt cho mỗi bài báo
  Kết quả: công bố các kết quả thiếu chính xác hoặc chỉ mang tính gia tăng, thông đồng giữa reviewer và tác giả, xuất hiện các nhà máy sản xuất bài báo
- Mục tiêu: một cuộc sống tốt đẹp
  Chỉ số đại diện: tối đa hóa đường dẫn phần thưởng trong não
  Kết quả: nghiện ma túy, nghiện cờ bạc, thời gian bị mất vào doomscrolling trên Twitter
- Mục tiêu: một dân số khỏe mạnh
  Chỉ số đại diện: khả năng tiếp cận thực phẩm giàu dinh dưỡng
  Kết quả: dịch béo phì
- Mục tiêu: các nhà lãnh đạo hành động theo lợi ích của người dân
  Chỉ số đại diện: nhà lãnh đạo nhận được nhiều sự ủng hộ nhất từ dân chúng
  Kết quả: các lãnh đạo dồn chuyên môn và nhiệt huyết vào thao túng dư luận hơn là kết quả xã hội
- Mục tiêu: công dân có hiểu biết, biết cân nhắc và tham gia tích cực
  Chỉ số đại diện: khả năng để mọi người dễ chia sẻ và tìm ý tưởng
  Kết quả: filter bubble, thuyết âm mưu, meme ký sinh, chủ nghĩa bộ lạc bị khuếch đại
- Mục tiêu: phân bổ lao động và tài nguyên dựa trên nhu cầu xã hội
  Chỉ số đại diện: chủ nghĩa tư bản
  Kết quả: chênh lệch tài sản khổng lồ từ vài trăm USD mỗi năm đến vài trăm USD mỗi giây, cùng hơn 1 tỷ người sống trong nghèo đói
- Mục tiêu: tài sản của chủ sở hữu Paperclips Unlimited, LLC
  Chỉ số đại diện: số lượng kẹp giấy do nhà máy sản xuất vận hành bằng AI tạo ra
  Kết quả: kịch bản paperclip maximizer, nơi toàn bộ Hệ Mặt Trời, bao gồm cả chủ công ty, bị biến thành kẹp giấy

Những lĩnh vực mà việc tăng hiệu quả quá mức có thể trở nên nguy hiểm

Các lĩnh vực sau được nêu như ví dụ mà những cải thiện ban đầu có thể mang lại lợi ích rộng rãi, nhưng khi làm quá tốt lại có thể gây hậu quả tiêu cực lớn
- telepresence và thực tế ảo
- y học cá nhân hóa
- liệu pháp gen
- thông điệp marketing được cá nhân hóa cho từng người tiêu dùng hoặc cử tri
- dự đoán kết quả bầu cử
- viết code
- trí tuệ nhân tạo
- loại bỏ phần dư thừa trong chuỗi cung ứng
- lan truyền ý tưởng với tốc độ cao
- tạo nội dung giải trí
- xác định sản phẩm mới mà mọi người sẽ mua
- chăn nuôi gia súc
- giao dịch chứng khoán
- khai thác cá từ biển
- sản xuất ô tô

Giảm thiểu 1: căn chỉnh mục tiêu đại diện và regularization

Làm cho mục tiêu đại diện khớp hơn với kết quả mong muốn là biện pháp giảm thiểu đầu tiên
- Trong machine learning, cách này thường là thu thập cẩn thận các ví dụ huấn luyện giống nhất có thể với tình huống khi triển khai thực tế
- Ngoài machine learning, có thể thay đổi các chỉ số đại diện có thể kiểm soát như luật lệ, incentive và chuẩn mực xã hội để trực tiếp khuyến khích hành vi khớp mục tiêu hơn
Regularization penalty cũng có thể giảm tối ưu hóa quá mức
- Trong machine learning, cách phổ biến là phạt bình phương độ lớn tham số để giữ các giá trị nhỏ
- Regularization không cần nhắm trực tiếp vào hành vi không mong muốn; gần như bất kỳ cách nào phạt mô hình vì lệch khỏi tính điển hình đều có thể hoạt động tốt
Trong các hệ thống xã hội, regularization được ví như việc thêm độ phức tạp, ma sát hoặc chi phí bổ sung
- thêm cơ chế tính phí vào SMTP để mỗi email đều có một chi phí nhỏ
- dùng thuế lũy tiến để thành công bất thường đi kèm chi phí lớn không cân xứng
- áp dụng án phí tòa án tỷ lệ với bình phương hoặc hàm mũ của số vụ kiện do một tổ chức khởi xướng
- đánh thuế theo số bit thông tin được lưu về người dùng

Giảm thiểu 2: thêm nhiễu và dừng sớm

Thêm nhiễu là cách đưa dao động ngẫu nhiên vào đầu vào, tham số hoặc trạng thái bên trong mô hình để khiến overfitting khó xảy ra hơn
Trong các hệ thống xã hội, cũng có thể đưa tính ngẫu nhiên vào để giảm hành vi bám quá sát chỉ số đại diện
- Sau khi xếp hạng ứng viên cho trường học hay công việc cạnh tranh, thay vì đưa đề nghị chắc chắn cho top k, hãy đưa đề nghị theo xác suất tỷ lệ với thứ hạng
  - tính đa dạng của người được chọn có thể tăng lên
  - tài nguyên mà ứng viên dùng để tinh chỉnh hồ sơ hoặc reviewer dùng để soi khác biệt rất nhỏ về thứ hạng có thể giảm đi
  - có thể chọn nhầm những ứng viên dài hạn dễ thất bại hơn, nhưng cũng có thể chọn được người thành công rất giá trị theo cách phi truyền thống
- không thông báo trước ngày thi mà chọn ngẫu nhiên để khuyến khích học hiểu thay vì học tủ
- yêu cầu sở giao dịch chứng khoán thêm jitter ngẫu nhiên với độ lệch chuẩn khoảng 1 giây vào thời điểm xử lý giao dịch
- ngẫu nhiên hóa chi tiết của hình thức bỏ phiếu trong ngày bầu cử để ngăn ứng viên overfit vào những chi tiết tình cờ của hệ thống bầu cử hiện hành
Dừng sớm được xem là công cụ hiệu quả nhất trong machine learning để ngăn overfitting mang tính thảm họa
- theo dõi validation loss bên cạnh training loss và hiệu năng trên test
- nếu training loss vẫn tiếp tục tốt lên nhưng validation loss bắt đầu xấu đi thì dừng huấn luyện
Trong các hệ thống xã hội, có thể phản ứng bằng các cơ chế buộc phải dừng chuẩn bị, phân tích và tối ưu hóa quá mức
- giới hạn mạnh khoảng thời gian giữa yêu cầu đề xuất và hạn nộp để phản ánh tốt hơn mức độ chuẩn bị sẵn có
- dừng toàn bộ hoạt động thị trường khi biến động cổ phiếu vượt một ngưỡng
- chia nhỏ các công ty cản trở cạnh tranh bằng luật chống độc quyền
- ước tính tầm quan trọng của quyết định bằng tiền, và khi giá trị thời gian đã dùng cho phân tích tiến gần số tiền đó thì quyết định ngay
- đóng băng thông tin mà tác nhân có thể dùng để đạt mục tiêu, như hạn chế đưa tin báo chí trong 48 giờ trước bầu cử

Quan hệ giữa năng lực mô hình và overfitting

Một nguyên nhân đã được hiểu khá rõ của overfitting cực đoan là khi năng lực biểu đạt của mô hình khớp quá sát với độ phức tạp của bài toán đại diện
Nếu mô hình quá yếu, nó chỉ có thể tiến bộ một chút trên bài toán nên không khai thác cạn sự tương đồng giữa mục tiêu và chỉ số đại diện
Nếu mô hình rất mạnh và có năng lực biểu đạt lớn, nó có thể tối ưu mục tiêu đại diện một cách độc lập mà không tạo ra hành vi cực đoan ở các mục tiêu khác
Khi năng lực biểu đạt xấp xỉ độ phức tạp của bài toán, ví dụ số tham số không lớn hơn hay nhỏ hơn số mẫu huấn luyện quá nhiều bậc độ lớn, thì để làm tốt bài toán đại diện có thể cần hành vi cực đoan ở nơi khác
Thí nghiệm đồ chơi trong Figure 1 huấn luyện các mô hình ánh xạ đầu vào 1 chiều x sang đầu ra 1 chiều y trên cùng 10 điểm dữ liệu
- mô hình 4 tham số quá yếu để khớp chính xác các điểm dữ liệu nhưng xấp xỉ chúng một cách mượt mà
- mô hình 10.000 tham số dễ dàng khớp mọi điểm dữ liệu và nội suy mượt giữa chúng
- mô hình 10 tham số đủ mạnh để khớp các điểm dữ liệu, nhưng ngoài dữ liệu huấn luyện có thể uốn cong cực đoan và dự đoán rất tệ cho giá trị x mới
- thí nghiệm chi tiết có trong colab notebook

Giảm thiểu 3: giới hạn năng lực và mở rộng năng lực

Giới hạn capability hoặc capacity tương ứng với kỹ thuật machine learning làm mô hình đủ nhỏ để không thể overfit
- giới hạn tài trợ cho chiến dịch tranh cử
- đặt trần số người có thể làm việc cho một số loại công ty, ví dụ nhóm vận động hành lang chỉ được phép có 10 người
- đặt trần số tham số hoặc lượng compute huấn luyện mà hệ thống AI được phép dùng
Mở rộng capability hoặc capacity xuất phát từ quan sát rằng khi mô hình rất lớn, việc overfit trên training data có thể không còn làm xấu hiệu năng trên test data
- cách tiếp cận này là tăng năng lực đến mức không còn phải đánh đổi hiệu năng giữa mục tiêu và chỉ số đại diện
- một kịch bản ví dụ là mở truy cập công khai cho mọi cơ sở dữ liệu và lắp camera trong mọi tòa nhà để mọi thông tin về mọi người, chính phủ và tổ chức luôn được công khai cho tất cả mọi người
  - theo hệ giá trị của tác giả, kịch bản này được nêu rõ là phản địa đàng
- đầu tư vào nghiên cứu cơ bản về năng lượng sạch
- phát triển các sản phẩm giao dịch thị trường đa dạng, phức tạp và thiếu minh bạch nhất có thể trên nhiều kỳ hạn đáo hạn
- dùng các mô hình AI lớn nhất, tốn compute và dữ liệu nhất trong mọi kịch bản
Việc tiếp tục mở rộng năng lực là con đường có sức cản thấp và trong machine learning đã hoạt động tốt một cách đáng kinh ngạc
Việc cố sửa thể chế trong khi mù quáng làm cho các tổ chức đang theo đuổi mục tiêu căn chỉnh sai trở nên giỏi hơn bị đánh giá là một ý tưởng tồi tệ

AI và các bài toán nghiên cứu

Phiên bản mạnh của định luật Goodhart được nêu như nền tảng cho nỗi sợ cá nhân chủ yếu về AI
Thay đổi cốt lõi mà AI có thể tạo ra là làm tăng hiệu suất trong gần như mọi công việc trong một khoảng thời gian rất ngắn
Nhiều tác dụng phụ không mong muốn khác nhau có thể phải được xử lý cùng lúc, và khả năng hợp tác để giải quyết chúng cũng có thể bị làm rối loạn
Có cơ hội nghiên cứu lớn trong việc xây dựng cầu nối hình thức và toán học giữa kết quả overfitting trong machine learning với các vấn đề trong kinh tế học, khoa học chính trị, khoa học quản lý và vận trù học
- ví dụ được nêu là dùng PAC Bayes bound để dự đoán lượng quyền lực công đoàn tối ưu nhằm tối đa hóa sự giàu có của người lao động
- một ví dụ khác là ước lượng phổ các biến mà ứng viên chính trị có thể và không thể kiểm soát trong cạnh tranh chính trị để dự đoán điểm sụp đổ chính trị
Càng nhiều hệ thống xã hội sụp đổ vì phiên bản mạnh của định luật Goodhart, thì hành động hợp lý tập thể cần thiết để sửa chúng lại càng khó hơn

2 bình luận

gguimoon 2024-10-02

Tôi được biết kỳ thi CSAT của Hàn Quốc đã dần rời xa mục tiêu ban đầu là đo lường năng lực toán học, và biến thành một hệ thống chỉ nhằm tối ưu hóa việc phân bổ ngưỡng xếp hạng. Đây có vẻ là một ví dụ không thể thoát khỏi định luật Goodhart.

GN⁺ 2024-09-30

Ý kiến trên Hacker News

Tôi biết Jascha trước đây từng ở Google Brain và hiện đang ở Anthropic, là một nhà nghiên cứu học máy cực kỳ xuất sắc
Cùng với các đồng tác giả, anh ấy đã dùng các kỹ thuật vật lý học và thống kê học như lý thuyết trường trung bình và lý thuyết xác suất tự do để đặc trưng hóa về mặt toán học cách tín hiệu lan truyền trong các mạng nơ-ron sâu. Tôi xem đây là một trong những kết quả lý thuyết và thực nghiệm sâu sắc nhất nhưng bị đánh giá thấp nhất trong học máy suốt 10 năm qua. Chẳng hạn, dynamical isometry [1] và sự phát triển của ý tưởng đó đã đóng vai trò quan trọng trong việc đạt được sự hội tụ của các mô hình transformer rất sâu [2]
Sau khi đọc bài viết và các ví dụ này, rõ ràng người này có trực giác phi thường về tối ưu hóa không chỉ trong học máy mà còn trên toàn xã hội hiện đại. Nên thừa nhận nền tảng kỹ thuật của anh ấy và nâng cuộc thảo luận lên một mức cao hơn, thay vì sa vào tranh cãi chữ nghĩa quanh ý nghĩa hay định nghĩa
Cốt lõi là một lời kêu gọi hành động rất nhân văn và giàu đồng cảm, nằm dưới bóng của sự phát triển công nghệ nhanh chóng: “Nếu bạn là một nhà khoa học đang tìm kiếm ý tưởng nghiên cứu có thể tạo ra một lĩnh vực mang tính xã hội tích cực và hoàn toàn mới, hãy cân nhắc việc xây dựng những cây cầu hình thức và toán học giữa các kết quả về overfitting trong học máy với các vấn đề ở nhiều lĩnh vực như kinh tế học, khoa học chính trị, khoa học quản trị và nghiên cứu vận hành”
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- Thời điểm này cũng thú vị. Vài ngày trước tôi biết đến công trình của nhà sinh học Olivier Hamant, và ông ấy đang nêu đúng cùng một vấn đề
  Luận điểm cốt lõi của ông là hiệu năng rất cao, tức tính hiệu quả và hiệu suất đối với các mục tiêu đã biết, không thể cùng tồn tại về mặt vật lý với độ bền vững cao trước các biến động lớn của hệ thống. Trong tự nhiên có rất nhiều ví dụ như vậy, và trái với nhận thức phổ biến, tiến hóa tối ưu hóa cho độ bền vững cao chứ không phải hiệu năng cao. Trong một thế giới dồi dào tài nguyên, ưu tiên hiệu năng có thể từng hợp lý, nhưng giờ chúng ta đã bước vào một giai đoạn hoàn toàn khác, nơi bất ổn là chuẩn mực. Muốn trở nên bền vững thì không thể không trả lại một phần hiệu năng, và cuối cùng chúng ta sẽ bị buộc phải làm vậy. Đây là cách diễn giải mới mẻ và thú vị nhất về đa khủng hoảng mà tôi thấy sau một thời gian dài
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- Diễn giải cho người phổ thông: bài viết đang ví học máy với cấu trúc toán học của việc truyền tín hiệu giữa các cá nhân và tổ chức trong xã hội
  Nói cách khác, tác giả cho rằng một vấn đề làm khổ các nhà toán học ở phía này, tức overfitting trong học máy, nơi mạng nơ-ron học quá mức khiến khả năng khái quát hóa giảm và các hàm mà nó có thể mô phỏng bị ràng buộc chặt vào dữ liệu huấn luyện, cũng sẽ làm khổ phía kia
  Tóm lại, khi các hệ thống xã hội hoặc việc truyền tín hiệu giữa chúng phát triển quá mức, chắc chắn sẽ có một điểm sụp đổ mà từ đó mọi thứ đơn giản là trở nên tệ hơn. Cá nhân tôi cho rằng chỉ cần nhìn vào chuyện gì sẽ xảy ra nếu tuân thủ hoàn hảo mọi hệ thống, thì trong nhiều ngành công nghiệp, có thể chúng ta đã vượt xa điểm sụp đổ đó rồi
- Tôi thích ý tưởng ReZero. Về cơ bản, đó là cách đưa một tham số α có thể học được vào các tầng dư
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  Tuy vậy tôi chưa từng thấy nó được dùng trong thực tế. Các bài báo về Gemma và Llama dường như vẫn dùng chuẩn hóa tầng. Có phải tôi đang bỏ sót điều gì không?
- Lý do ý tưởng này thú vị là, chẳng hạn nếu có thể kết nối cách kinh tế học và học máy vận hành, thì một chương trình máy tính có thể chạy, sửa và biến đổi được sẽ có thể trực tiếp cung cấp dữ liệu đo lường được về các tương tác của hệ thống phức tạp
  Thực tế quá tinh vi và nhiều tầng đến mức khó kiểm chứng các khái niệm một cách hình thức, nên những tương tác kiểu này nhìn chung vẫn chỉ tồn tại như các ý niệm kiểu Platon. Ý tưởng rằng bên dưới kinh tế học có một tập con logic có thể chứng minh và chính xác là một ý tưởng mạnh mẽ, rất đáng theo đuổi
- Việc gạt bỏ cả một phạm trù phản biện theo kiểu này, mà không thực sự xử lý nội dung phản biện, là một cách làm khá mang tính thao túng
  Nó cũng có nhiều ngụy biện logic, như kêu gọi cảm xúc hoặc dựa vào uy quyền, và không phù hợp với tinh thần tò mò trí tuệ mà HN hướng tới
Lập luận này dựa vào định luật Goodhart vốn đã nổi tiếng: khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa
Tuy nhiên, nó chỉ giải thích vấn đề như một vấn đề đo lường: vì ta không thể đo được điều mình thật sự quan tâm, nên ta tối ưu hóa các chỉ số thay thế. Theo tôi, đó là một góc nhìn quá giản lược. Vấn đề không chỉ nằm ở đo lường, mà còn ở hành vi con người. Khác với các hạt, con người sẽ chủ động tìm cách khai thác bất kỳ hệ thống kiểm soát nào mà ta tạo ra
Vấn đề sâu hơn nhiều so với chuyện không đo lường tốt được những thứ như “hòa bình, tình yêu, chó con”. Tôi cho rằng định luật Campbell [0] nắm bắt điều này tốt hơn định luật Goodhart cổ điển: “Một chỉ báo xã hội định lượng càng được dùng nhiều trong việc ra quyết định xã hội, nó càng phải chịu nhiều áp lực tha hóa, và càng dễ làm méo mó, tha hóa các quá trình xã hội mà nó được dùng để giám sát”
Các biện pháp giảm nhẹ được đề xuất như chuẩn hóa và dừng sớm cùng lắm chỉ xử lý gián tiếp, còn tệ nhất thì có thể tạo ra những điểm kỳ dị mới để bị khai thác theo các hành vi không mong muốn
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- Câu “con người sẽ chủ động tìm cách khai thác bất kỳ hệ thống kiểm soát nào mà ta tạo ra” là đúng, nhưng điều đó khả thi vì hệ thống kiểm soát không thể kiểm soát chính xác chỉ những gì ta muốn kiểm soát
  Hệ thống kiểm soát chỉ là một đại diện không hoàn hảo cho điều ta thật sự mong muốn, rất giống vai trò của thước đo trong định luật Goodhart. Một biến thể khác là định luật về hệ quả không lường trước [0]. Có lẽ còn có một phiên bản tổng quát hơn theo hướng tính toán hoặc hệ phức hợp mà ta chưa phát hiện ra
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- Không chỉ con người; bất kỳ tác nhân nào cũng sẽ làm vậy
  Nếu tạo một thuật toán di truyền cho một tác nhân AI được thưởng càng nhiều khi mang về càng nhiều rắn hổ mang chết ở Delhi, tôi nghĩ chẳng bao lâu những tác nhân bắt đầu nuôi rắn hổ mang sẽ đạt hiệu năng cao nhất. Cả trong trường hợp con người lẫn AI, hàm thưởng đều đã bị hack. Với AI thì ta kết luận thiết kế hàm thưởng tệ, nhưng với con người thì ta lại kết luận các tác nhân xảo quyệt, thiếu đạo đức và đã “lợi dụng” hệ thống
- Con người không thích bị đánh giá chỉ bằng con số, và họ sẽ chống lại, thao túng những hệ thống siết họ như siết ốc
  Vì vậy câu trích dẫn đó rất đúng, và có vẻ không có nhiều khả năng sai nghiêm trọng
- Những “định luật” kiểu này là các xấp xỉ và những phép quy giản không hoàn hảo
  Cái nào hữu ích hoặc có sức giải thích còn tùy trường hợp cụ thể. Tối ưu hóa trong học máy, tối ưu hóa thuật toán mạng xã hội, và tối ưu hóa hệ thống giáo dục bằng các kỳ thi chuẩn hóa là những việc khác nhau
  Không có một trừu tượng hoàn hảo nào khớp chính xác với mọi tình huống đa dạng đó, và cũng không cần độ chính xác như vậy. Chỉ cần có được trực giác về nơi vấn đề có thể phát sinh là đủ
Ở Thụy Điển, trong khoảng 20 năm qua điều này đã trở thành một vấn đề xã hội
1: Khi hiệu quả y tế được đo bằng “công việc đã hoàn thành” của bác sĩ chăm sóc ban đầu, bộ máy được tối ưu để xử lý thật nhiều ca đơn giản. Vì vậy các bác sĩ thường chỉ kiểm tra qua loa rồi cho thuốc phù hợp về mặt thống kê, chẳng hạn aspirin hoặc kháng sinh, và cho bệnh nhân về nhà; hoặc nếu có vẻ phức tạp thì chuyển sang bác sĩ chuyên khoa
Vấn đề là do hiệu quả hóa, số bác sĩ chăm sóc ban đầu giảm đi và trên thực tế họ trở thành giống công nhân dây chuyền lắp ráp; sự tiếp xúc cá nhân với bệnh nhân biến mất, khiến khó nhận ra tín hiệu cho thấy có điều gì đó không ổn. Vì vậy nhiều bệnh như ung thư thường được chẩn đoán quá muộn, và dù điều trị ung thư chuyên khoa đã tốt hơn, nhiều trường hợp khi phát hiện thì đã không còn cách cứu chữa
2: Hệ thống đường sắt đã được tư nhân hóa, và nếu nhìn vào lượng hàng hóa được vận chuyển thì có lẽ đó là một thành công lớn. Nhưng hệ thống gần như không có dư địa để các chuyến tàu bị trễ bù lại thời gian, cũng không có khoảng trống để làm hơn mức bảo trì cơ bản, nên việc chậm trễ xảy ra thường xuyên và cuối cùng dẫn tới các vấn đề lớn hơn
- Như Steve Jobs từng nói, ví dụ có ở khắp nơi
  “Khi một công ty đủ lớn, họ muốn sao chép thành công ban đầu. Mọi người nghĩ về quy trình đã tạo ra thành công đầu tiên đó. Rồi họ sao chép quy trình ấy ra toàn công ty. Chẳng bao lâu sau, mọi người nhầm lẫn rằng quy trình chính là nội dung”
  Điều này đúng từ các công ty nhỏ cho tới những chính phủ lớn nhất thế giới. Phần lớn đã quên mất nội dung của mình
- Ước gì vấn đề lớn nhất mà ngành đường sắt và y tế Mỹ đang đối mặt chỉ đến mức đó
Trong lý thuyết hàng đợi cũng có một định luật liên quan. Khi mức sử dụng tiến gần 100%, thời gian chờ sẽ phân kỳ tới vô hạn
Nếu quy trình, máy móc hay kỹ sư không có một mức dư địa nhất định, một số công việc sẽ phải chờ mãi mãi
- Tôi nhớ từng đọc một bài nói rằng thành phố dùng tài nguyên rất hiệu quả so với ngoại ô hay nông thôn
  Nghĩ tới nhận xét này về thời gian chờ, giờ tôi hiểu vì sao thành phố lại khó chịu đến vậy. Đó là vì tranh chấp tài nguyên liên tục
- Trước đây tôi từng làm trong nhà máy, và mục tiêu mức sử dụng ở giai đoạn lập kế hoạch là 80%
  Dự đoán mức sử dụng quá cao thì lãng phí tiền, còn dự đoán quá thấp thì những việc “không quan trọng” sẽ bắt đầu chất thành các hàng đợi khổng lồ
- Có thể đưa thước đo về độ vững chắc vào tiêu chí tối ưu hóa
  Ta có thể tối ưu hóa một cách rõ ràng để chừa dư địa trong mức sử dụng đủ ứng phó với tình huống bất ngờ. Ví dụ, nếu gán mức ưu tiên cho tải hệ thống, thì khi rảnh không cần để hệ thống nhàn rỗi; trong tình huống khẩn cấp có thể bỏ các tải ưu tiên thấp để tạo dư địa
  Tôi hiểu điều bài viết muốn nói, nhưng vì thế mà cũng không nên từ bỏ tối ưu hóa một cách dễ dàng như vậy
- Tôi có cảm giác một hệ thống hiệu quả 100% thì không có khả năng chống chịu và phục hồi
  Một nhiễu loạn nhỏ ở hệ con cũng có thể dẫn tới sụp đổ lớn. Ta đã thấy phiên bản cực đoan của điều đó trong các đứt gãy chuỗi cung ứng do COVID-19. Các hãng sản xuất ô tô đã xây dựng hệ thống sản xuất đúng lúc gần như 100%, nên không hấp thụ được tình trạng thiếu chip, và mất nhiều năm để phục hồi
  Không gian để thử nghiệm cũng biến mất. Bất kỳ thử nghiệm nào cũng chỉ có thể diễn ra bên ngoài hệ thống, chứ không phải bên trong
- Đúng vậy. Tôi đã làm ở nhiều nơi và nhiều đội khác nhau, và những việc không phải P0 thì trên thực tế gần như không bao giờ được xử lý
Ngay cả trong sinh lý học vận động cũng có ví dụ về quy luật xấp xỉ này
Với người bình thường, có nhiều chỉ báo thay thế tốt cho thể lực. Có thể tập chạy nước rút, nhảy tại chỗ, squat, clean and jerk, v.v. Chạy nhanh hơn, nhảy cao hơn, squat nặng hơn đều là chỉ báo rằng thể lực đã tăng và việc tập luyện đã thành công
Thứ nhất, phương pháp tập càng tổng quát thì chỉ báo càng có ý nghĩa. Chẳng hạn nếu thước đo thể lực là “có thể đẩy ô tô lên dốc hay không” và phương pháp tập là chạy nước rút và bơi, thì đẩy được chiếc xe nặng hơn là một chỉ báo mạnh về thành công. Ngược lại, nếu phương pháp tập là “luyện đẩy ô tô”, thì cùng mức cải thiện đó không có nghĩa là thể lực tăng ở cùng mức
Thứ hai, vận động viên càng chuyên biệt hóa, như vận động viên clean and jerk, thì cải thiện thành tích càng ít phản ánh thể lực tổng quát. Quá trình đi từ con số 0 đến mức cử tạ nghiệp dư bao gồm sự gia tăng sức mạnh và khối lượng cơ bắp nói chung, nhưng quá trình đi từ vận động viên đại học lên trình độ Olympic thường đòi hỏi những đặc tính thể lực chuyên biệt cao, vốn không chuyển giao tốt sang các hoạt động khác
Khái niệm thể lực nền tảng và thể lực đỉnh cao trong thể thao cũng có thể là một ẩn dụ tương tự. Vô tình tập luyện cho một mức hiệu năng đỉnh không bền vững cũng là cái bẫy của tối ưu hóa quá mức. Điều này có thể xảy ra khi mù quáng chỉ nhìn vào việc “đường biểu diễn đi lên”, và sự tối ưu hóa có vẻ tuyệt vời thực ra có thể giam ta trong một cực đại cục bộ. Tôi cho rằng có nhiều phép tương tự không chỉ trong sinh học mà cả trong tối ưu hóa học máy và các hiện tượng xã hội
- Clean and jerk gần như có thể được xem là một trong những động tác “hoàn chỉnh”
  Đặc biệt nếu trộn thêm cả các biến thể squat thì càng đúng. Vì vậy đây có thể không phải ví dụ tốt nhất. Tôi không biết ai có thể clean and jerk nhiều lần với mức tạ nặng hơn trọng lượng cơ thể mình mà lại không phải là quái vật ở hầu hết các khía cạnh có ý nghĩa của thể lực con người
  Cơ thể con người là một cỗ máy thống nhất, và phản ứng hormone mang tính toàn thân. Sức bền và sức mạnh nằm trên một phổ, nhưng toàn bộ cơ thể sẽ cùng thích nghi theo
- Điều đó giống một tín hiệu rằng “thể lực tổng quát” không phải là một thước đo nghiêm ngặt hơn
  Đến một mức nào đó, khái niệm mơ hồ “năng lực thể chất” vẫn ổn, nhưng sau đó nó mất ý nghĩa vì cải thiện năng lực trở nên chuyên biệt theo từng nhiệm vụ và không chuyển giao sang nhiệm vụ khác
Vì vậy tôi không thích việc tập trung vào GDP. Tôi cho rằng các khảo sát hằng quý về mức độ hài lòng với cuộc sống và sự lạc quan là thước đo tốt hơn
Nếu quan tâm đến GDP thì khi xe tôi hỏng và tôi đem đi sửa, GDP tăng. Nếu cha mẹ ở nhà nuôi con, GDP giảm. Nếu tôi tự dọn nhà, GDP cũng giảm
Tỷ lệ thất nghiệp cũng là một chỉ số thô sơ. Nó không cho biết đó có phải là những công việc người ta muốn làm hay không, hay họ cảm thấy bị buộc phải làm những công việc tồi tệ
- Tôi không phản đối mạnh việc GDP là một thước đo thô sơ; tôi chỉ đang sắp xếp lại suy nghĩ
  Tôi không nghĩ mức độ hài lòng với cuộc sống và sự lạc quan của cá nhân nên bị nền kinh tế quốc gia chi phối, nhất là đến mức chính phủ lấy chúng làm đối tượng tối ưu hóa. Công việc của chính phủ là tạo ra các điều kiện cho an ninh, thịnh vượng và cơ hội, mà không áp bức phần còn lại của thế giới hay phá hủy Trái Đất
  Trong khuôn khổ đó, việc tìm một cuộc sống thỏa mãn là phần của tôi, và một cuộc sống như vậy có thể tồn tại trong những cấu trúc kinh tế và xã hội rất khác nhau. Tương tự, có lẽ không có điều kiện nào đem lại sự hài lòng phổ quát cho mọi công dân; nếu vậy thì ta nên tối ưu hóa thống kê tóm tắt nào của mức độ hài lòng với cuộc sống và sự lạc quan?
- Điểm cốt lõi là đo cái gì cũng không quan trọng
- Trong học máy, ta xử lý các vector gồm hàng nghìn đại lượng, nhưng thật mỉa mai là khi đo lường xã hội và kinh tế, ta chỉ dùng một hoặc vài con số
  Diễn ngôn phổ thông như tin tức, chính trị gia, diễn đàn, v.v. luôn bị đơn giản hóa rất mạnh quanh vài thước đo. Diễn ngôn dựa trên hàng nghìn thước đo thì quá phức tạp để truyền đạt dễ dàng
  Tôi hy vọng một ngày nào đó đa số mọi người sẽ ngầm thừa nhận rằng số lượng thước đo càng ít thì càng có khả năng đó là một sự đơn giản hóa nhằm che giấu điều gì đó. Ví dụ như “X là tỷ phú nên X thông minh”, “quốc gia X có GDP cao nên tốt hơn quốc gia Y có GDP thấp”
- Tôi đồng ý, và điều này cũng áp dụng cho chủ nghĩa tư bản nói chung
  Một phác thảo sơ bộ về các phương án kế hoạch hóa tập trung từng thất bại trong quá khứ và một đề xuất thay thế chủ nghĩa tư bản có ở đây:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  Nếu nhìn vào phần liên quan, nền tảng của chủ nghĩa xã hội là kế hoạch hóa và sự kiểm soát của người lao động, nhưng kế hoạch quá tham vọng đã thất bại theo kiểu Liên Xô, còn các nơi làm việc quá tự chủ đã thất bại theo kiểu Nam Tư. Kế hoạch hóa bao trùm vừa không hiệu quả vừa không đáng mong muốn, còn phân quyền về các tập thể nơi làm việc thì về mặt kinh tế quá phân mảnh để nhận diện lợi ích xã hội, và về mặt chính trị cũng quá phân mảnh để ảnh hưởng đến kế hoạch. Vì vậy, trọng tâm là phải thay đổi nhà nước, kế hoạch, nơi làm việc và quan hệ giữa chúng như thế nào để giải bài toán nan giải này
  Đơn vị vận hành của cả chủ nghĩa tư bản lẫn chủ nghĩa xã hội là nơi làm việc. Trong chủ nghĩa tư bản, nó trở thành một phần của các đơn vị tư bản cạnh tranh; trong chủ nghĩa xã hội, do các đơn vị tư nhân nhằm tự mở rộng bị loại bỏ, các tập thể nơi làm việc được đưa vào các “ngành” được tổ chức thực dụng theo công nghệ chung, sản phẩm đầu ra, dịch vụ, lịch sử quá khứ, v.v. Các ngành này trở thành đơn vị cốt lõi của kế hoạch kinh tế, và theo truyền thống nằm trong các bộ nhà nước như khai khoáng, cơ khí, y tế, giáo dục, giao thông
  Đổi mới cấp tiến ở đây là chuyển giao thẩm quyền và năng lực kế hoạch hóa của các bộ ra ngoài nhà nước, sang xã hội dân sự. Các bộ trước đây được hiến pháp thừa nhận nhưng đứng bên ngoài nhà nước, và được tổ chức lại thành hội đồng ngành do đại diện nơi làm việc của từng ngành bầu ra và vận hành. Ủy ban kế hoạch trung ương vẫn phân bổ vốn cho từng ngành theo các ưu tiên quốc gia, nhưng khi quyền lực nơi làm việc được kết tụ ở cấp ngành, điều đó thay đổi cán cân quyền lực giữa nhà nước và người lao động, đồng thời có thể xử lý vấn đề thị trường theo cách phù hợp hơn với chủ nghĩa xã hội
  Cốt lõi là sự cân bằng giữa các khuyến khích làm gia tăng bất bình đẳng và thiên hướng đầu tư mang tính bình quân. Thặng dư mà mỗi tập thể nơi làm việc kiếm được có thể dùng để tăng tiêu dùng chung hoặc tiêu dùng cá nhân, nhưng không thể dùng để tái đầu tư. Các ưu tiên toàn quốc được xác định ở cấp kế hoạch trung ương thông qua quy trình và áp lực dân chủ, rồi được chuyển thành phân bổ đầu tư theo ngành. Hội đồng ngành phân chia vốn đầu tư cho các tập thể nơi làm việc mà mình phụ trách, nhưng khác với quyết định kiểu thị trường, tiêu chí chính không phải là ưu ái hơn nữa những nơi làm việc năng suất nhất để tái tạo khoảng cách vĩnh viễn, mà là kéo năng suất của các tập thể yếu lên gần các tập thể xuất sắc
  Trái với lập luận của Hayek, chính chủ nghĩa tư bản mới là thứ ngăn cản việc chia sẻ thông tin một cách có hệ thống. Hệ quả của sở hữu tư nhân và tối đa hóa lợi nhuận là thông tin trở thành tài sản cạnh tranh nên phải được che giấu. Ngược lại, trong chủ nghĩa xã hội, việc tích cực chia sẻ thông tin là điều kiện thiết yếu để vận hành, và điều này được thể chế hóa thành trách nhiệm của các hội đồng ngành
Tôi đang cố nhớ đã nghe tên tác giả này ở đâu
Đây là người đã phát minh ra mô hình khuếch tán sinh đầu tiên vào năm 2015
https://arxiv.org/abs/1503.03585
- Với tôi, ông ấy được nhớ đến qua một bài báo thông minh năm 2019 viết cùng Stephan Hoyer và Sam Greydanus
  Nội dung là thực hiện tối ưu hóa cấu trúc bằng cách dùng mạng nơ-ron bị ràng buộc như một kho lưu trữ, bộ chỉnh sửa và bộ điều phối của mô hình vật lý mô tả cấu trúc cần tối ưu: https://arxiv.org/abs/1909.04240
  Đây là một cách tiếp cận rất thú vị và bài báo cũng được viết rất hay
Tôi liên tưởng đến việc đi ăn ở các nhà hàng chuỗi
Mọi thứ đều đã qua focus group và được tối ưu hóa, cảm giác như một chỉ số đại diện bị overfit cho một bữa ăn vui vẻ. Tôi có cảm giác mình đang ở trong một cỗ máy lộ liễu được tối ưu để khai thác lợi nhuận từ chuyến ghé thăm của tôi, còn việc đó là một nhà hàng gần như chỉ là thứ yếu
Kiểu như cảnh ai đó nói “Xin chào! Tên tôi là Tracy! Tối nay tôi sẽ là phục vụ của quý khách!” rồi dùng bút sáp viết ngược tên mình một cách hoàn hảo lên khăn trải bàn giấy. Chỗ này có lẽ cần hiệu chỉnh lại chút cá tính của nhân viên
Tôi nghĩ điều này cũng áp dụng khi nhà quản lý cố tối ưu hóa quá mức quy trình làm việc
Cuối cùng những người sáng tạo sẽ mất hứng, và công việc trở nên không thể chịu nổi. Tôi nghĩ nơi làm việc và cuộc sống cần một chút hỗn độn
- Tôi hay tự giết chết mong muốn làm nhiều dự án phụ vì cố tối ưu quá mức những phần mình không muốn làm
  Cứ xử lý xong phần khó chịu rồi đi tiếp là được. Dù sao thì ít nhất cũng không có ai trả tiền để đẩy tôi vào vòng xoáy đó
Tôi đã thấy một ví dụ của quy luật này ở một cửa hàng vật liệu xây dựng lớn trong khu
Khoảng 10 năm trước, cửa hàng đó lắp các lồng khóa chống trộm. Ban đầu họ chỉ để các món đắt tiền vào đó, hơi bất tiện nhưng không quá tệ. Nếu là khách mua dụng cụ điện cao cấp hơn 200 USD thì thường có thể chấp nhận chờ khoảng 5 phút
Nhưng vài năm sau có một thay đổi gần như chắc chắn là dựa trên dữ liệu. Đột nhiên không còn thấy logic nào có thể nhận ra trong việc món nào bị khóa và món nào để mở. Giờ đây một thiết bị chẩn đoán 500 USD có thể nằm ngay trên kệ, trong khi một bóng đèn 5 USD lại có thể ở sau ổ khóa
Có lẽ đó là kết quả của việc sắp xếp cơ sở dữ liệu theo thứ tự tổng thiệt hại do trộm cắp. Tức là họ khóa lại những món khiến cửa hàng vật liệu xây dựng mất nhiều tiền nhất
Kết quả là bầu không khí của cửa hàng đọc lên như “một nơi quá ám ảnh lợi nhuận đến mức không tin khách hàng sẽ không ăn cắp cả một hộp tăm”, và với khách hàng thì trong nhiều trường hợp không đáng để chờ nhân viên đến mở lồng
Dù có ngăn được vài vụ trộm mấy cục xà phòng 3 USD, tôi vẫn nghi ngờ liệu tối ưu hóa đó có giúp ích cho lợi nhuận ròng hay không
- Mua trên Amazon tiện hơn rất nhiều so với việc đi tìm người mở tủ kính ở hiệu thuốc
  Những hiệu thuốc nhốt cả các món cơ bản trong tủ kính thường cũng thiếu nhân viên
- Câu “khóa những món khiến cửa hàng vật liệu xây dựng chịu tổng thiệt hại lớn nhất vì trộm cắp” và câu “tôi nghi ngờ liệu tối ưu hóa đó có giúp ích cho lợi nhuận ròng hay không” trông có vẻ mâu thuẫn trực tiếp
  Trừ khi bạn thật sự nghĩ rằng vì thế mà mọi người ngừng đến cửa hàng đó, và khoản mất mát ấy vượt quá phần giảm trộm cắp. Hơn nữa, ngay cả nếu mọi người không đến, các cửa hàng vật liệu xây dựng lớn cạnh tranh trong khu vực có lẽ cũng làm y như vậy. Cũng nên nhớ rằng biên lợi nhuận bán lẻ thường không lớn. Khi một món bị trộm, phải bán thêm bao nhiêu món nữa để bù lỗ? Ngay cả khi một số khách chuyển sang Amazon, tránh được trộm cắp vẫn có thể có lợi
  Trên thực tế, khả năng cao là nó đã tạo tác động lớn nhất đến việc giảm trộm cắp. Việc không thấy “logic có thể nhận ra” có thể là vì không có kinh nghiệm về những chuyện như vậy. Trộm cắp thường phụ thuộc vào khả năng bán lại hơn là giá của món hàng. Một dụng cụ điện đắt tiền nhưng ngách có thể mất lâu mới bán lại được, còn chất tẩy rửa và dao cạo râu có thể tẩu tán hàng loạt ngay trong ngày. Người ta dùng chất tẩy rửa và dao cạo râu thường xuyên hơn bóng đèn rất nhiều
  Tôi hiểu là bạn không thích sự bất tiện. Nhưng tôi nghĩ sự chỉ trích nên hướng vào kẻ trộm hoặc các yếu tố tạo ra trộm cắp, chứ không phải cửa hàng