10 điểm bởi GN⁺ 2025-04-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • arXiv là kho lưu trữ bài báo khoa học truy cập mở do Paul Ginsparg tạo ra בשנת 1991, và đến nay vẫn được các nhà khoa học trên toàn thế giới sử dụng như một trong những nền tảng quan trọng nhất
  • Bằng cách vượt qua cấu trúc xuất bản học thuật vốn chậm chạp và tốn kém, nền tảng này cho phép các nhà nghiên cứu chia sẻ ngay lập tức các bài báo preprint trước phản biện, qua đó đóng góp cho hợp tác khoa học và đổi mới
  • arXiv khởi đầu từ một script tự động hóa đơn giản, nhưng nay đã phát triển thành một nền tảng khổng lồ với hơn 20.000 bài nộp mỗi tháng5 triệu người dùng
  • Ban đầu hệ thống được vận hành theo cách không chính thức và khá nhẹ nhàng, nhưng về sau đã nhiều lần vượt qua khủng hoảng do các vấn đề như độ phức tạp của mã vận hành, xung đột nội bộ và công nghệ lạc hậu
  • Hiện tại, với sự hỗ trợ của Simons Foundation và ban lãnh đạo mới, arXiv đang được chuyển lên đám mây và tái cấu trúc mã Python, trong khi Ginsparg vẫn tiếp tục tập trung vào bài toán lọc chất lượng

Nguồn gốc của arXiv và thách thức đối với cấu trúc xuất bản khoa học

  • Nhà vật lý Paul Ginsparg đã trích dẫn một câu thoại từ The Godfather để diễn tả cảm giác không thể hoàn toàn rút tay khỏi nền tảng do mình tạo ra
    > “Just when I thought I was out, they pull me back in!
    > “Tưởng như cuối cùng tôi đã thoát ra được, vậy mà họ lại kéo tôi trở vào!”
  • Ông là giáo sư tại Cornell University và là người nhận MacArthur Genius Grant; 35 năm trước ông đã phát triển arXiv, một kho lưu trữ số cho phép chia sẻ các bài báo preprint trước phản biện đồng cấp
  • Đến nay, arXiv.org vẫn giữ thiết kế web 1.0 cổ điển cùng biểu tượng của Cornell, nhưng trái với vẻ ngoài đơn giản đó, arXiv là nền tảng đã tạo ra thay đổi căn bản trong cấu trúc lưu thông tri thức khoa học
  • Nếu arXiv ngừng hoạt động, các nhà khoa học trên toàn thế giới có thể bị gián đoạn công việc nghiêm trọng; trên thực tế, nhiều nhà toán học và vật lý học truy cập arXiv hằng ngày
    > “Everybody in math and physics uses it. I scan it every night.” — Scott Aaronson
    > “Ai trong toán học và vật lý cũng dùng nó. Tôi lướt qua nó mỗi tối.”

Vai trò của arXiv và vấn đề với cấu trúc xuất bản học thuật

  • Trong nhiều lĩnh vực của xã hội đều tồn tại những cấu trúc vấn đề cố hữu, và trong giới học thuật, sự bất hợp lý của hệ thống xuất bản thường được xem là một ví dụ tiêu biểu

  • Mô hình vì lợi nhuận của các nhà xuất bản lớn như ElsevierSpringer bị chỉ trích theo những cách sau:

    • Yêu cầu tác giả viết bài mà không được trả công
    • Để các nhà nghiên cứu khác biên tập miễn phí
    • Sau đó bán bài báo hoàn chỉnh với giá cao, buộc các tổ chức phải trả phí thuê bao đắt đỏ
      > “Calling their practice a form of thuggery isn’t so much an insult as an economic observation.
      > “Gọi cách làm của họ là một kiểu côn đồ không hẳn là xúc phạm, mà là một nhận xét mang tính kinh tế.”
  • Phản biện đồng cấp truyền thống có thể mất từ vài tháng đến một năm, và quy trình chậm chạp này trở thành nút thắt trong lưu thông thông tin

  • Trong khi đó, arXiv giải quyết vấn đề cấu trúc của xuất bản bằng cách cho phép mọi người công bố và truy cập ngay lập tức ở giai đoạn preprint, tức trước khi bài báo được phản biện

  • Đổi mới cốt lõi của arXiv có thể được tóm gọn như sau:
    > “Showing that you could divorce the actual transmission of your results from the process of refereeing.” — Paul Fendley
    > “Điều nó chứng minh là bạn có thể tách việc truyền tải kết quả nghiên cứu khỏi quá trình phản biện.”

  • Cấu trúc này đã đóng góp mang tính quyết định trong việc lan truyền nhanh các phát hiện khoa học có ý nghĩa trong những tình huống khủng hoảng như đại dịch COVID-19

    • Các nền tảng như bioRxivmedRxiv, lấy cảm hứng từ arXiv, đã mở rộng mô hình này sang lĩnh vực khoa học sự sống, và thậm chí còn có ý kiến cho rằng chúng có thể đã góp phần cứu sống hàng triệu người

Cấu trúc kiểm soát chất lượng của arXiv

  • Các bài báo gửi lên arXiv không trải qua peer review chính thức, nhưng những chuyên gia theo từng lĩnh vực tự nguyện rà soát giúp duy trì các tiêu chuẩn học thuật cơ bản và quy định cần thiết
  • Các yếu tố chính trong kiểm soát chất lượng gồm:
    • Chỉ cho phép nghiên cứu gốc
    • Cấm dữ liệu bị ngụy tạo
    • Yêu cầu sử dụng cách diễn đạt trung tính
  • Ngoài ra, các bài nộp còn được kiểm tra sơ bộ thông qua hệ thống tự động
  • Nếu không có những quy trình xác minh này, arXiv có nguy cơ bị lấp đầy bởi khoa học ngụy biện hoặc các bài nộp từ người không chuyên

Ảnh hưởng của arXiv và chân dung hiện tại của Ginsparg

  • Năm 2021, tạp chí học thuật Nature đã chọn arXiv là một trong “10 computer codes that transformed science
    > “10 computer codes that transformed science
    > “10 đoạn mã máy tính đã làm thay đổi khoa học”
  • Vai trò của arXiv trong thúc đẩy hợp tác khoa học được đánh giá rất cao, và hiện nền tảng này
    • Lưu trữ hơn 2,6 triệu bài báo
    • 20.000 bài nộp mới mỗi tháng
    • Ghi nhận 5 triệu người dùng mỗi tháng
  • Nhiều phát hiện khoa học quan trọng của thế kỷ 21 đã được công bố lần đầu qua arXiv, ví dụ như
    • Bài báo về “transformers”, thứ đã châm ngòi cho làn sóng AI hiện đại
    • Lời giải cho giả thuyết Poincaré, một trong các bài toán thiên niên kỷ
  • Nhiều bài báo đăng trên arXiv về sau vẫn xuất hiện trên các tạp chí uy tín, nhưng điểm mạnh cốt lõi là ngay từ khi được đưa lên arXiv, bất kỳ ai cũng có thể truy cập
    > “Just because a paper is posted on arXiv doesn’t mean it won’t appear in a prestigious journal someday.
    > “Một bài báo được đăng trên arXiv không có nghĩa là sau này nó sẽ không xuất hiện trên một tạp chí danh tiếng.”

Thực tế nội bộ của arXiv và vấn đề tính bền vững

  • Với các nhà khoa học, arXiv được xem là thứ không thể thiếu như thư viện công cộng hay GPS, nhưng trên thực tế việc vận hành arXiv khác xa một nền tảng lý tưởng không ma sát
  • Trong suốt thời gian qua, arXiv đã phải đối mặt với nhiều vấn đề như:
    • Xung đột quan liêu
    • Mã nguồn già cỗi
    • Thậm chí cả vụ việc gián điệp
  • Ginsparg mô tả thực tế này như sau
    > “A child I sent off to college but who keeps coming back to camp out in my living room, behaving badly.
    > “Nó như đứa con tôi cho đi học đại học nhưng cứ quay về nhà, cắm trại ngay trong phòng khách và quậy phá đủ điều.”
  • Ginsparg vẫn tiếp tục cố giữ khoảng cách với arXiv, chẳng hạn chuyển các đề nghị phỏng vấn sang FAQ hoặc khuyên người khác đừng trực tiếp đến thăm

Tính cách, sở thích và đời sống thường nhật của Ginsparg

  • Qua cuộc phỏng vấn tại Ithaca (nơi Cornell tọa lạc), Ginsparg hiện lên là người
    • Vui tính và tinh nghịch
    • Đồng thời cũng cứng đầu theo đuổi triết lý của mình mà không chấp nhận giới hạn
  • Theo cách diễn đạt của Geoffrey West, cấp trên cũ của ông, Ginsparg là
    > “Quite a character, infamous in the community, extremely funny, a great guy.
    > “Một cá tính rất đặc biệt, nổi tiếng trong cộng đồng, cực kỳ hài hước và là một người tuyệt vời.”
  • Bản thân Ginsparg lại hạ thấp các bài viết về arXiv khi nói rằng
    > “So many articles, so few insights.
    > “Bài viết thì nhiều, nhưng hiểu biết sâu sắc thì quá ít.”
  • Hiện 69 tuổi, ông vẫn duy trì cuộc sống năng động với đạp xe và leo núi, và phong cách ăn mặc luôn theo kiểu du khách thoải mái

Văn phòng của Ginsparg và mối quan tâm gần đây

  • Văn phòng của khoa Vật lý Cornell không hẳn là “bừa bộn”, mà đúng hơn mang bầu không khí như những món đồ cũ đang nằm trong thời gian đóng băng
    • Có các thùng hàng từ thập niên 90, tạp chí cũ, màn hình CRT, thiệp mời từ Nhà Trắng, v.v.
    • Quyển sách do Stephen Wolfram gửi có một lời nhắn dí dỏm
      > “Since you can’t find it on arXiv :)
      > “Vì bạn sẽ không tìm thấy nó trên arXiv :)
  • Thứ duy nhất được sử dụng tích cực là bảng đen đầy kín các công thức liên quan đến lý thuyết đo lường lượng tử
  • Ngay cả ngoài văn phòng, ông cũng thể hiện khả năng quan sát tỉ mỉ, không bỏ sót những chi tiết nhỏ, từ cấu trúc tòa nhà, lối di chuyển của nhân viên cho đến các loài chim bay tới hằng năm
  • Ông bày tỏ lo ngại về vấn đề các bài báo chất lượng thấp gia tăng cùng với làn sóng bùng nổ bài báo AI, và đang phát triển một “holy grail crackpot filter” để sàng lọc chúng
    > “The holy grail crackpot filter.
    > “bộ lọc tối thượng cho các bài báo ngụy khoa học”
  • Để quản lý chất lượng của arXiv, đến nay ông vẫn thử nghiệm các mô hình ngôn ngữ, thậm chí tự mình khôi phục ổ cứng
    • Hành động này có thể được hiểu là thái độ tự xem mình có trách nhiệm duy trì chất lượng của arXiv

Sự ra đời của arXiv và lịch sử ban đầu

  • arXiv ban đầu không phải hạ tầng khoa học, mà chỉ là một tập hợp script shell đơn giản chạy trên máy NeXT của Ginsparg, và được tạo ra vào tháng 6/1991 nhờ một cơ duyên tại hội nghị ở Colorado
  • Khi đó, Joanne Cohn, postdoc tại Viện Nghiên cứu Cao cấp Princeton và là người điều hành danh sách gửi thư preprint vật lý, đã nhắc đến vấn đề rằng “không có một hệ thống trung tâm để chia sẻ các bài báo vật lý
    • Việc có được quyền truy cập danh sách gửi thư hay không phụ thuộc vào cơ quan hoặc quan hệ cá nhân, và còn tồn tại sự kém hiệu quả khi phải mất hàng tháng để công bố bài báo
  • Khi một nhà vật lý nói đùa rằng “trong lúc đi công tác, email chứa các bài báo nhiều đến mức làm đầy cả dung lượng lưu trữ”, Ginsparg nhận ra sự cần thiết của một hệ thống phân phối bài báo tự động
    • Khi hỏi Cohn rằng “chưa từng nghĩ đến chuyện tự động hóa sao”, câu trả lời ông nhận được là
      > “Go ahead and do it yourself.
      > “Thế thì anh tự làm đi.”
  • Ngay ngày hôm sau, Ginsparg thực sự viết xong các script, và
    > “My recollection is that the next day he’d come up with the scripts and seemed pretty happy about having done it so quickly.
    > “Theo ký ức của tôi thì ngay hôm sau ông ấy đã làm ra các script, và có vẻ rất vui vì hoàn thành chúng nhanh đến vậy.” — Joanne Cohn

Vị trí của Ginsparg trong thời đại của ông và sự tiến hóa công nghệ của arXiv

  • Ginsparg thường được ví như Forrest Gump của thời đại internet,
    • khi học ở Harvard, ông là bạn cùng khóa với Bill GatesSteve Ballmer
    • anh trai ông học ở Stanford cùng Terry Winograd, một người tiên phong của AI
    • cả hai anh em đều sở hữu tài khoản email Arpanet, điều cực kỳ hiếm vào thời đó
  • Sau khi lấy bằng tiến sĩ vật lý lý thuyết tại Cornell, ông bắt đầu làm giảng viên ở Harvard, nhưng sau khi bị từ chối tenure, ông chuyển sang Los Alamos
    • tại đây có môi trường cho phép chỉ tập trung vào nghiên cứu vật lý lý thuyết năng lượng caođiều kiện khu vực phù hợp với lối sống thiên về vận động

Hệ thống arXiv trước thời web và quá trình tiến hóa sang nền tảng web

  • Ở giai đoạn đầu, arXiv không phải là website mà là một máy chủ tự động trả lời qua email, và vài tháng sau còn vận hành thêm máy chủ FTP
    • Sau đó Ginsparg nghe đến một công nghệ mới có tên “World Wide Web”, và ban đầu phản ứng hoài nghi rằng
      > “I can’t really pay attention to every single fad.
      > “Tôi đâu thể để ý đến từng trào lưu một.”
      nhưng sau khi trình duyệt Mosaic xuất hiện vào năm 1993, ông bắt đầu hứng thú và tự xây dựng giao diện web
  • Ông cũng từng giao lưu với Tim Berners-Lee của CERN, và nhớ về ông ấy như “một lập trình viên nướng cá kiếm rất giỏi”
    > “Tim grilled excellent swordfish at his home in the French countryside.
    > “Tim nướng cá kiếm tuyệt hảo tại nhà ông ấy ở vùng quê nước Pháp.”

Nguồn gốc cái tên và việc chỉnh đốn codebase

  • Năm 1994, với nguồn tài trợ từ National Science Foundation, ông tuyển hai nhà phát triển để refactor các script shell ban đầu thành mã Perl ổn định hơn
    • Mark Doyle: sau này trở thành CIO của American Physical Society
    • Rob Hartill: khi đó đồng thời làm dự án IMDb, và sau này cũng hoạt động tại Apache Software Foundation
  • Địa chỉ ban đầu của arXiv là xxx.lanl.gov; khi ấy “xxx” chưa mang ý nghĩa như hiện nay, và sau đó khi cùng vợ suy nghĩ về “một cái tên tốt hơn”, họ đã quyết định dùng chữ cái Hy Lạp chi (χ) để tạo ra ‘arXiv’
    > “She wrote it down and crossed out the e to make it more symmetric around the X.
    > “Cô ấy viết nó ra rồi gạch chữ ‘e’ đi để nó đối xứng hơn quanh chữ X.”
  • Ban đầu, không hề có một tổ chức riêng biệt; chỉ có 1–2 nhà phát triển, còn người quản lý phần lớn là bạn bè và đồng nghiệp, và dù dự tính mỗi năm chỉ khoảng 100 bài báo, hệ thống đã bắt đầu với 100 bài mỗi tháng ngay từ đầu rồi tăng trưởng nhanh chóng

Sự mở rộng chóng mặt của cộng đồng và việc arXiv bám rễ

  • Theo lời Ginsparg,
    > “Day one, something happened, day two something happened, day three, Ed Witten posted a paper. That was when the entire community joined.
    > “Ngày đầu tiên có chuyện gì đó xảy ra, ngày thứ hai cũng vậy, đến ngày thứ ba Ed Witten đăng một bài báo. Đó là lúc cả cộng đồng tham gia.”
  • Edward Witten được xem là nhà vật lý lý thuyết vĩ đại nhất đương đại và được gọi là “người thông minh nhất còn sống”, và chính ông cũng nói rằng
    > “The arXiv enabled much more rapid worldwide communication among physicists.
    > “arXiv đã giúp việc giao tiếp giữa các nhà vật lý trên toàn thế giới diễn ra nhanh hơn rất nhiều.”
  • Sau đó, nền tảng mở rộng sang nhiều lĩnh vực khác như toán học, khoa học máy tính, và bản thân Ginsparg cũng hồi tưởng về trải nghiệm phát triển arXiv thời kỳ đầu bằng câu
    > “It was fun.
    > “Nó rất vui.”

Sự mở rộng của arXiv và khởi đầu của xung đột

  • Khi lượng sử dụng arXiv tăng vọt, hệ thống bắt đầu đối mặt với các vấn đề về khả năng mở rộng và vận hành mà những hệ thống phần mềm lớn thường gặp, trong đó nổi bật nhất là tốc độ máy chủ suy giảm và gánh nặng kiểm duyệt
    • Ví dụ, đã từng có sự cố máy chủ quá tải do lưu lượng truy cập bùng nổ từ “stanford.edu”, và đó cũng là thời điểm Sergey Brin và Larry Page, những người sau này tạo ra Google, đang crawl web arXiv
      > “Years later, when Ginsparg visited Google HQ, both Brin and Page personally apologized to him for the incident.
      > “Nhiều năm sau, khi Ginsparg đến trụ sở Google, cả Brin lẫn Page đều trực tiếp xin lỗi ông về sự cố đó.”

Chiến lược sinh tồn của arXiv và việc bảo đảm tính độc lập với ngành xuất bản

  • Lý do lớn nhất giúp arXiv sống sót là tránh được các đòn tấn công từ cấu trúc lợi ích cố hữu của ngành xuất bản học thuật truyền thống, và điều này có được nhờ chiến lược từ rất sớm là yêu cầu người dùng khi nộp bài phải đồng ý với điều khoản rằng “arXiv có thể phân phối vĩnh viễn bài báo đó theo giấy phép không độc quyền
    • Nhờ điều khoản này, ngay cả khi bài báo được xuất bản ở tạp chí khác, nó vẫn có thể tiếp tục ở lại trên arXiv, từ đó loại bỏ động cơ để các nhà xuất bản lớn tìm cách đóng cửa nền tảng

Rời Los Alamos và trở lại Cornell

  • Dù arXiv ngày càng trở thành hạ tầng quan trọng của giới khoa học, bên trong Phòng thí nghiệm Los Alamos, dự án arXiv lại không nhận được nhiều ủng hộ, và việc ảnh hưởng của nó lớn hơn cả viện nghiên cứu lại trở thành một gánh nặng
    • Ginsparg mô tả thời kỳ đó là
      > “dreamlike and heavenly” “như mơ và tựa thiên đường”
    • nhưng sau vụ gián điệp Wen Ho Lee năm 1999, bầu không khí trong viện thay đổi đột ngột, khiến ông quyết định chuyển việc do các biện pháp tăng cường an ninh và sự mệt mỏi tâm lý tích tụ
      • Trong đánh giá thành tích khi đó, ông bị chê bai nặng nề là “a strictly average performer with no particular computer skills
        → “một người có thành tích chỉ ở mức trung bình và không có kỹ năng máy tính đặc biệt”, và việc cô con gái mới chào đời cùng vấn đề môi trường giáo dục cũng là một phần lý do chuyển việc
  • Cuối cùng, Ginsparg trở lại Cornell, trường cũ của mình, và arXiv cũng được chuyển theo, đồng thời ông tuyên bố rằng “trong tối đa 5 năm nữa sẽ rút tay khỏi arXiv”
    > “They disseminate material to academics, so that seemed like a natural fit.
    > “Họ phổ biến tài liệu tới giới học thuật, nên điều đó có vẻ là một sự phù hợp tự nhiên.”

Xung đột vận hành trong thư viện

  • Tuy nhiên, thư viện Cornell đã không thực sự hiểu đúng độ phức tạp kỹ thuật của arXiv, và ngay cả riêng logic gửi bài cũng đòi hỏi xử lý vô số ngoại lệ, nên việc coi nó như một hệ thống lưu trữ tài liệu đơn thuần đã trở thành vấn đề
  • Ginsparg và các thành viên đầu tiên cảm thấy phía thư viện xem arXiv như một thứ phụ thêm có cũng được không có cũng không sao, trong khi ngược lại, phía thư viện lại có ấn tượng rằng Ginsparg can thiệp quá trực tiếp
    > “Good lower-level manager … but his sense of management didn’t scale.
    > “Là một nhà quản lý thực thi giỏi... nhưng năng lực quản lý của ông không phù hợp với vận hành ở quy mô lớn.”
  • Trong phần lớn thập niên 2000, arXiv được vận hành mà không thể bảo đảm đội ngũ phát triển ổn định

Triết lý của Ginsparg và những chỉ trích về cách vận hành

  • Ginsparg vẫn giữ khuynh hướng của một lập trình viên thiên về thực chiến, tự mình review code và tìm lỗi, đồng thời tỏ ra hoài nghi với các buổi diễn thuyết bên ngoài hay vai trò cố vấn cấp cao
    > “Larry Summers spending one day a week consulting for some hedge fund—it’s just unseemly.
    > “Larry Summers dành một ngày mỗi tuần để tư vấn cho một quỹ hedge fund nào đó — như vậy trông thật chẳng hay ho gì.”
  • Tuy nhiên, việc ông tiếp tục can dự quá lâu cũng trở thành vấn đề, và arXiv thì ngày một lớn hơn
    > “bigger than all of us” — Stephanie Orphan (giám đốc chương trình arXiv)
    > “một thứ đã lớn hơn tất cả chúng ta”
    và cách nhìn đó bắt đầu được nhiều người chia sẻ
  • Nhiều tranh cãi cũng nổ ra, như vụ kiện của một nhà vật lý theo thuyết thiết kế thông minh, tranh cãi đạo văn, chỉ trích về việc lạm dụng quyền lực của moderator
    • Đặc biệt, năm 2009, nhà vật lý độc lập Philip Gibbs đã lập ra viXra, nền tảng đối nghịch với arXiv
      • Đây là “một nền tảng gần như không có điều tiết, vận hành theo hướng ngược lại với arXiv”, nơi chủ yếu đăng các lý thuyết kỳ quặc hoặc bài báo của giới nghiệp dư
      • Một ví dụ tiêu biểu là bài báo “π là giả dối” (liên kết)

Vấn đề quản lý codebase và xung đột trong thực hành phát triển

  • arXiv dần phát triển thành một codebase quy mô lớn, và do cấu trúc ban đầu được tổ chức theo cách không tính đến khả năng bảo trì và kiểm thử, nên
    • đã phát sinh các vấn đề cấu trúc tương tự như “xây một tòa nhà mà không hề kiểm định an toàn
    • điều này cho phép phát triển nhanh ở giai đoạn đầu nhưng gây ra nợ kỹ thuật dài hạn và độ phức tạp ngày càng tăng
  • Ginsparg vẫn tiếp tục trực tiếp can dự vào việc xem xét và chỉnh sửa code mà không có phê duyệt từ phía thư viện, và vì thế
    > “micromanaging and sowing distrust
    > “quản lý vi mô quá mức và gieo rắc sự mất lòng tin”
    ông đã bị chỉ trích như vậy

Nỗ lực nghỉ hưu, ở lại, và xung đột nội bộ leo thang

  • Năm 2011, nhân dịp 20 năm arXiv, Ginsparg quyết tâm nghỉ hưu và đăng lời từ biệt mang tên Nature “ArXiv at 20”
    > “For me, the repository was supposed to be a three-hour tour, not a life sentence.
    > “Với tôi, kho lưu trữ này đáng lẽ chỉ là một chuyến đi kéo dài ba giờ, chứ không phải bản án chung thân.”
    > “ArXiv was originally conceived to be fully automated, so as not to scuttle my research career.
    > “arXiv ban đầu được hình dung là sẽ hoàn toàn tự động, để không làm trật bánh sự nghiệp nghiên cứu của tôi.”
    > “But daily administrative activities associated with running it can consume hours of every weekday, year-round without holiday.
    > “Nhưng các công việc hành chính hằng ngày đi kèm với việc vận hành nó có thể ngốn hàng giờ mỗi ngày trong tuần, quanh năm không có ngày nghỉ.”
  • Sau đó, việc vận hành thường nhật được chuyển giao cho thư viện Cornell, và Ginsparg dự định lùi về vai trò cố vấn, nhưng thực tế lại không diễn ra như vậy
    • Một số nhân viên chỉ trích rằng Ginsparg “giữ code làm con tin”, từ chối đưa lên GitHub hoặc chia sẻ nội bộ,
    • còn ông thì bày tỏ sự thất vọng khi những chức năng trước đây từng triển khai chỉ trong một ngày nay lại mất vài tuần
      > “I learned Fortran in the 1960s, and real programmers didn’t document.
      > “Tôi học Fortran từ những năm 1960, và các lập trình viên thực thụ thì không làm tài liệu.”
      (→ được mô tả là một câu trả lời gây sốc ở mức “đau tim” cho người hỏi)

Rối loạn quản trị và tái cấu trúc

  • Ngoài vấn đề kỹ thuật, arXiv còn trải qua sự hỗn loạn về quản trị,
    • Năm 2019, trong Cornell, đơn vị phụ trách arXiv được chuyển sang khoa Khoa học Máy tính và Thông tin, nhưng vài tháng sau lại đổi tiếp
    • Sau đó, một người có kinh nghiệm trong xuất bản học thuật thương mại được bổ nhiệm làm người phụ trách vận hành, nhưng rời vị trí sau một năm rưỡi
      > “There was disruption … it was not a good period.
      > “Đã có xáo trộn... đó không phải là một giai đoạn tốt đẹp.” — người trong nội bộ arXiv
  • Bước ngoặt đến vào năm 2022, khi quỹ Simons hỗ trợ để tuyển mạnh nhân lực phát triển,
    • giáo sư Ramin Zabih của Cornell được bổ nhiệm làm người phụ trách vận hành,
    • việc chuyển lên cloud cùng quá trình refactor code dựa trên Python được đẩy mạnh một cách nghiêm túc

Khía cạnh cá nhân và sự tự nhìn lại

  • Ngay cả trong lúc trả lời phỏng vấn với phóng viên, Ginsparg vẫn giữ thái độ tinh nghịch, như sửa xe đạp cho con trai và trêu chọc thể lực của người đi cùng trong chuyến đạp xe
    • Ở đoạn leo dốc cuối cùng, ông nói
      > “I might’ve oversold this to you.
      > “Có lẽ tôi đã quảng bá quá đà về cung đường này với anh.”
      như một sự thừa nhận mệt mỏi
  • Sau nhiều ngày phỏng vấn, phóng viên nhận xét rằng chính sự bền bỉ và cứng đầu của ông là lý do arXiv còn tồn tại, và Ginsparg đã có một phản ứng bất ngờ
    > “One person’s tenacity is another person’s terrorism.
    > “Với người này là sự bền bỉ, nhưng với người khác có thể lại là khủng bố.”
  • Ông nói tiếp
    > “I’ve heard that the staff occasionally felt terrorized.
    > “Tôi có nghe rằng đôi khi nhân viên đã cảm thấy bị đe dọa.”
    và thừa nhận điều đó

Hiện tại và tương lai của arXiv

  • Hiện tại, arXiv vẫn tiếp tục vận hành theo cách đầy kịch tính,
  • Năm 2023, một bài báo tuyên bố phát hiện chất siêu dẫn ở nhiệt độ phòng đã nhanh chóng bị bác bỏ, và điều này trở thành một ví dụ cho thấy cơ chế phản hồi nhanh của arXiv
    • Ngược lại, cũng có những trường hợp bài báo bình thường bị rút lại vì "cách diễn đạt mang tính kích động" hoặc "ngôn ngữ thiếu tính chuyên môn", từ đó làm dấy lên tranh cãi về "kiểm duyệt"
      • Trường hợp tiêu biểu: vụ rút bài báo của Jorge Hirsch, người tạo ra h-index

Thái độ hiện tại và sự gắn bó của Ginsparg

  • Ông không muốn tự tô vẽ mình thành "người tiên phong của khoa học mở", và thay vì theo đuổi những sứ mệnh to tát, ông đang tận hưởng arXiv như một nơi để thử nghiệm ý tưởng
    > "There are various aspects of this that remain incredibly entertaining."
    > "Vẫn có nhiều khía cạnh của dự án này cực kỳ thú vị."
    > "I have the perfect platform for testing ideas and playing with them."
    > "Tôi có một nền tảng hoàn hảo để thử nghiệm và nghịch với các ý tưởng."
  • không còn trực tiếp đụng vào mã vận hành của arXiv, ông vẫn miệt mài với dự án cá nhân phát triển bộ lọc 'bài báo giả'
    > "It’s like that Al Pacino quote: They keep bringing me back."
    > "Giống như câu nói đó của Al Pacino: Họ cứ kéo tôi quay lại."
    > "But Al Pacino also developed a real taste for killing people."
    > "Nhưng rồi Al Pacino cũng bắt đầu thực sự khoái việc giết người."
    (→ đây là cách ông hài hước diễn tả mối quan hệ vừa yêu vừa ghét với arXiv và sự ám ảnh của chính mình)

1 bình luận

 
GN⁺ 2025-04-23
Ý kiến trên Hacker News
  • Khẳng định rằng vào thập niên 90, cách diễn đạt "xxx" không mang nghĩa như ngày nay là không đúng sự thật
  • Bài viết này là một ví dụ vi mô cho thấy khó khăn trong việc duy trì các tài sản công, mang hơi hướng hơi u ám
    • Những dịch vụ nhỏ ít được chú ý nhưng đóng vai trò quan trọng, và rất khó nhận được hỗ trợ để duy trì chúng
    • Khi dịch vụ phát triển lớn hơn, nó bắt đầu thu hút chú ý, kéo theo những nỗ lực làm lệch hướng nó sang các mục đích khác, và vì thế việc nhận hỗ trợ lại càng khó hơn
  • Với các nhà khoa học, một thế giới không có arXiv cũng giống như một thế giới không có thư viện công cộng
  • Cũng có người thích Zenodo hơn, vì nó được CERN lưu trữ và cung cấp nhiều tính năng hơn
  • Năm 2021, tạp chí Nature đã chọn arXiv là một trong 10 đoạn mã máy tính làm thay đổi khoa học
    • Bài báo này nằm sau tường phí và có thể đọc với giá $199 mỗi năm
  • Một số giấy phép của arXiv chỉ cho phép sử dụng phi thương mại
    • Đang tìm cách kiểm tra thông tin giấy phép trên trang chính của từng bài báo cụ thể
  • arXiv cho phép tải lên các bài báo học thuật ở định dạng .ps, .tex, .pdf
  • Internet và web là những nền tảng có tính biến đổi mạnh mẽ nhất đối với khoa học
  • arXiv đang tạm giữ một bài báo vì không tin rằng một người không có bằng khoa học máy tính lại có thể tự phát triển một ngôn ngữ lập trình