Groq chạy Mixtral 8x7B-32k ở tốc độ 500 T/s

(groq.com)

1 điểm bởi GN⁺ 2024-02-21 | 1 bình luận | Chia sẻ qua WhatsApp

Trong bối cảnh tốc độ phản hồi và chi phí suy luận trở thành nút thắt của các dịch vụ AI, Groq đưa hạ tầng suy luận nhanh và rẻ lên làm trọng tâm
Điểm khác biệt là không đi theo cách tiếp cận xoay quanh GPU, mà sử dụng stack dựa trên LPU được phát triển riêng cho suy luận từ năm 2016
GroqCloud vận hành stack LPU tại các trung tâm dữ liệu trên toàn thế giới để cung cấp độ trễ thấp, và cho biết có 3 triệu nhà phát triển và đội ngũ đang sử dụng
Nhà phát triển có thể tích hợp tương đối dễ dàng bằng cách chỉ thay base_url và GROQ_API_KEY trong client tương thích OpenAI
Fintool cho biết sau khi áp dụng GroqCloud, tốc độ chat đã nhanh hơn 7,41 lần và chi phí giảm 89%; McLaren Formula 1 Team cũng chọn Groq làm đối tác suy luận

Nền tảng suy luận nhanh và rẻ

Groq xem suy luận (inference) là nhiên liệu cốt lõi của AI, và nhấn mạnh một nền tảng suy luận nhanh, rẻ, vận hành ổn định cả trong các workload thực tế
Thông điệp chính trên trang chủ gần với “suy luận nhanh và rẻ, không chao đảo ngay cả trong tình huống thực tế”
Công ty được thành lập năm 2016, và giới thiệu mục tiêu thành lập là tập trung vào duy nhất suy luận

Stack chuyên dụng cho suy luận được xây dựng bằng LPU

Khác với các công ty khác phụ thuộc vào GPU, Groq xem silicon tự phát triển là lợi thế cốt lõi
Groq cho biết họ đã tiên phong với LPU vào năm 2016, và mô tả đây là con chip đầu tiên được tạo ra riêng cho suy luận
Các lựa chọn thiết kế của LPU tập trung vào việc giữ cho phản hồi của mô hình thông minh vừa nhanh vừa rẻ
Groq nhấn mạnh môi trường triển khai thực tế bằng thông điệp “không phải benchmark, mà workload mới là thứ thực sự được triển khai”

Trung tâm dữ liệu toàn cầu và GroqCloud

Stack dựa trên LPU chạy tại các trung tâm dữ liệu trên toàn thế giới, tập trung vào việc cung cấp phản hồi có độ trễ thấp
Dựa trên tiền đề rằng suy luận hoạt động tốt nhất khi chạy cục bộ, Groq nhấn mạnh cấu hình cung cấp phản hồi mô hình ở vị trí gần người dùng hơn
GroqCloud là dịch vụ đám mây cho phép nhà phát triển sử dụng suy luận nhanh và rẻ
Groq cho biết 3 triệu nhà phát triển và đội ngũ đang sử dụng Groq

Tích hợp cho nhà phát triển tương thích OpenAI

Groq nhấn mạnh khả năng tích hợp tương thích OpenAI và hướng dẫn rằng có thể chuyển đổi chỉ với “hai dòng”
Ví dụ Python thiết lập các giá trị sau trong client openai.OpenAI
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Nhà phát triển có thể bắt đầu từ console của Groq hoặc nhận API key miễn phí để sử dụng

Câu chuyện khách hàng và quan hệ đối tác

McLaren Formula 1 Team được giới thiệu như một ví dụ đối tác đã chọn Groq cho suy luận trên toàn cầu
McLaren F1 Team chọn Groq cho ra quyết định, phân tích, phát triển và insight thời gian thực
CTO Kevin Scott của PGA of America cho biết họ sử dụng Groq cho những tác vụ mà hiệu năng quan trọng hơn
CEO Nicolas Bustamante của Fintool cho biết sau khi áp dụng GroqCloud, họ trải nghiệm các thay đổi sau
- Tốc độ chat tăng 7,41 lần
- Chi phí giảm 89%
- Lượng token tiêu thụ tăng 3 lần
CTO Abhigyan Arya của Opennote cho biết Groq đã giúp giảm chi phí và giảm gánh nặng vận hành, đồng thời giúp giữ mức giá gói premium cho sinh viên ở mức hợp lý

Các mục tin tức được công bố cùng lúc

Groq Raises $750 Million as Inference Demand Surges: mục ngày 17 tháng 9 năm 2025
Day Zero Support for OpenAI Open Models: mục ngày 5 tháng 8 năm 2025
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: mục ngày 27 tháng 5 năm 2025

1 bình luận

GN⁺ 2024-02-21

Ý kiến trên Hacker News

Đây là một trong những demo công nghệ ấn tượng nhất tôi từng thấy, và tôi thích việc nó là một demo công khai thật sự mà ai cũng có thể dùng thử ngay, không cần đăng ký
Nhìn token tuôn ra với tốc độ điên rồ đến mức có cảm giác không thật, và càng đáng kinh ngạc hơn vì thường ngày đã quen với tốc độ chưa bằng 1/5. Thật lạ là nó vẫn chưa bị những nơi như Microsoft, Apple, Google mua lại với mức premium lớn
- Nếu tôi hiểu đúng thì mỗi chip có 200MB RAM, nghĩa là cần nhiều rack để chạy một LLM đơn lẻ, điều này nghe không giống một bước tiến
  Cần một bo mạch PCIe đơn lẻ có hàng chục đến hàng trăm GB RAM và một bộ xử lý xử lý tốt lượng RAM đó
- Perplexity Labs cũng có demo công khai Mixtral 8x7b, nhưng không nhanh đến mức này
  https://labs.perplexity.ai/
- Tôi thật sự không hiểu vì sao nó lại ghê gớm đến vậy và cũng tò mò
  Điều cốt lõi là TFLOPS/$ và TFLOPS/W là bao nhiêu, và so sánh với Nvidia, AMD, TPU như thế nào. Tìm sơ qua thì có vẻ Groq đã đưa ra những tuyên bố tương tự từ năm 2020, nhưng mọi người vẫn đang trả premium lớn cho Nvidia và Groq dường như chưa làm thị trường đó rung chuyển đáng kể. Nếu chạy một mô hình nhỏ hơn ChatGPT rất nhiều trên phần cứng tương đương hoặc mạnh hơn thì có thể nhanh hơn, nhưng điều đó không có nghĩa là đây là đột phá đối với phần lớn mô hình hay trường hợp sử dụng nơi độ trễ không phải chỉ số cốt lõi
- Tại sao phải bán? Đánh bại họ trong chính cuộc chơi của họ có vẻ vui hơn nhiều
Vấn đề cốt lõi của Groq LPU là hoàn toàn không có HBM, chỉ có 230MiB SRAM siêu nhanh rất nhỏ
Đúng là nó nhanh hơn HBM3 20 lần, nhưng vì thế để phục vụ một mô hình đơn lẻ cần khoảng 256 LPU, tức quy mô 4 rack máy chủ. Trong khi đó chỉ một H200 cũng có thể phục vụ các mô hình kiểu này khá hợp lý. Nếu là một mô hình đơn lẻ có nhiều khách hàng thì có thể rất phù hợp, nhưng ngay khi cần nhiều mô hình và nhiều fine-tuning/LoRA hạng cao thì sẽ khó dùng. Nó cũng không phù hợp cho triển khai on-premises, vì lợi thế cốt lõi nằm ở việc gom nhiều người dùng vào cùng một mô hình
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Từ góc nhìn của một kỹ sư Groq, tôi không thật sự hiểu vì sao việc có thể mở rộng tính toán ra ngoài một card đơn hay một node đơn lại là vấn đề
  Tôi thích ví von với nhà máy ô tô: chỉ với một hoặc hai cái khoan cũng có thể làm ra xe, nhưng trong một nhà máy tự động hóa hiện đại có hàng trăm cái khoan. Một cái khoan có thể làm nhiều loại xe, nhưng dây chuyền lắp ráp của nhà máy chỉ có thể làm xe theo một cấu hình nhất định. Điều đó không có nghĩa là nhà máy kém hiệu quả. Việc nói H200 hoạt động khá tốt cũng có thể hợp lý cho các trường hợp tương tác đồng bộ với con người, nhưng vẫn còn gây tranh luận. Tôi muốn thấy một ví dụ trên Nvidia nơi mô hình 30B+ tham số thực hiện RAG trong lúc hội thoại và đưa ra phản hồi bằng giọng nói trong vòng dưới 1 giây
- Groq cho biết trong bài rằng họ đã dùng 576 chip cho kết quả này
  Cũng cần tính thêm việc mỗi người dùng cần KV cache riêng, và phần này có thể thêm vài GB cho mỗi người dùng. Theo đánh giá chuyên môn của tôi với tư cách một người quan sát độc lập, giá vốn để đạt được các con số hiệu năng này rất có khả năng vượt quá vài triệu đô la, và việc khấu hao theo mức sử dụng dự kiến để khớp với giá lý thuyết đã công bố có vẻ không thực tế. Xét theo hiệu năng thực tế trên mỗi đô la thì có vẻ khó khả thi, nhưng nếu bỏ qua chi phí thì đúng là một demo cực kỳ ấn tượng với hiệu năng điên rồ
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Nếu mục tiêu là độ trễ thấp thì phải rất thận trọng với HBM. Không chỉ bản thân độ trễ, mà cả tính bất định cũng là vấn đề
  Ưu điểm lớn của kiến trúc LPU là có thể tạo hệ thống gồm hàng trăm chip với interconnect nhanh, đồng thời vẫn biết được thời điểm chính xác của toàn hệ thống tới mức ppm. Một khi bắt đầu đưa các thành phần bất định vào, bảo đảm về độ trễ sẽ biến mất rất nhanh
- Thiết bị Groq nhờ SRAM nên rất phù hợp với suy luận batch nhỏ
  Tuy vậy tôi không chắc nó có lợi thế về token/giây/đô la hay không, đặc biệt là với những người dùng batch cỡ trung đến lớn có thể mua nhiều silicon. Về mặt kiến trúc, Groq có vẻ sẽ không nhanh hơn khi vượt quá batch size 1, còn card Nvidia có lẽ sẽ cải thiện throughput đáng kể khi batch size tăng lên hàng trăm
- Có thể có cách nạp một mô hình nền tảng và nhiều LoRA mà hầu như không dùng thêm RAM nhiều hơn so với chỉ mô hình nền tảng
  Có thể fine-tune theo kiểu chỉ thay đổi khoảng 0,1% trọng số, và trong mỗi phép tính, tính chênh lệch của activation ở lớp đầu ra thay vì chênh lệch trọng số
Nhìn bề ngoài thì rất ấn tượng. Tuy nhiên nếu không có benchmark thì nên nhìn với một mức hoài nghi nhất định
Vì có nhiều cách đi đường vòng như lượng tử hóa mạnh để tăng tốc độ bằng cách hy sinh chất lượng. Nếu không phải vậy, tôi muốn thấy quá trình phát triển token/giây của LLM tiếp diễn giống như số lệnh/giây của CPU vài chục năm trước
- Tôi đồng ý với thái độ của nhà khoa học rằng về cơ bản nên tiếp cận một cách hoài nghi
  Ứng dụng chat và API đang được mở để bất kỳ ai cũng có thể thử nghiệm và so sánh chất lượng đầu ra với các nhà cung cấp khác
- Như tome đã nói ở trên, chúng tôi không lượng tử hóa, và mọi giá trị kích hoạt đều là FP16
  Cũng có benchmark độc lập: https://artificialanalysis.ai/models/llama-2-chat-70b
- Trong demo Llama 70B trước đó, họ tuyên bố là chạy không lượng tử hóa
  https://twitter.com/lifebypixels/status/1757619926360096852
  Tuy nhiên trong bình luận này có nói “một số dữ liệu được lưu dưới dạng FP8 khi lưu trữ”, nhưng tôi không rõ chính xác điều đó nghĩa là gì: https://news.ycombinator.com/item?id=39432025
- Trong quá trình benchmark Groq, tôi đã hỏi liệu có lượng tử hóa hay không, và được xác nhận rằng họ đang chạy mô hình ở dạng FP-16 đầy đủ
  Đây là điểm rất đáng kiểm chứng và là phần quan trọng. Liên kết benchmark: https://artificialanalysis.ai/
  Đối tượng được hỏi là API, không phải demo chat
- Có thể tôi đang đẩy phép so sánh đi quá xa, nhưng phải chăng LLM đã bước vào kỷ nguyên transistor rồi?
  Nhìn con quái vật 70 tỷ tham số thì vẫn có cảm giác như đang xây ENIAC bằng bóng đèn chân không. Nói cách khác, tôi tò mò liệu giờ đã sẵn sàng để đều đặn cải thiện token/giây của LLM hằng năm, hay vẫn còn cần một hai đột phá lớn nữa trước khi đến giai đoạn đó
Tôi đang làm việc tại Groq. Có thể hỏi bất cứ điều gì
Nếu xem lịch sử bài viết trên HN, bạn sẽ thấy tôi nói nhiều về Haskell, đúng vậy. Một phần pipeline biên dịch của Groq được viết bằng Haskell
- Có thể là lỗi giao diện web, nhưng sau khi nhập prompt vào mô hình Mixtral và nhận phản hồi, tôi đổi dropdown sang Llama rồi nhập cùng prompt thì nhận được phản hồi hoàn toàn giống hệt
  Có thể là caching, hoặc mô hình được truy vấn thực ra không thay đổi, hoặc điều gì khác
- Haskell trông khá độc đáo trong lĩnh vực machine learning
  Tôi muốn biết lựa chọn này có lợi thế đặc biệt nào không, và có đáng khuyến nghị cho các nhóm khác không. Tôi cũng muốn biết phần nào của dự án dùng Haskell và phần nào không dùng
- Theo tôi hiểu, họ đang dùng phần cứng chuyên dụng để tăng tốc độ sinh token, mà việc sinh token bị ràng buộc rất nhiều bởi độ trễ của tốc độ tính toán
  Nhưng sinh token thường chỉ cần phép nhân ma trận một chiều. Khi nhập prompt khoảng 100 token, dịch vụ chậm hơn nhiều, có lẽ vì phải nhân ma trận hai chiều. Tôi tò mò họ đang làm gì để tăng tốc độ tính toán cho xử lý prompt
- Có vẻ như đây là một trong số rất ít công ty nhắm đến suy luận độ trễ thấp, chứ không chỉ tập trung vào throughput và chi phí trên mỗi lần suy luận kéo theo đó
  Tôi muốn biết họ xem thị trường chính là ở đâu
- Cảm ơn vì AMA. Tôi tò mò demo đang dùng bao nhiêu GroqCard, và liệu có dùng bản mới có nhiều SRAM hơn mức 230MB SRAM thấy trên mạng hay không
  Con số này có vẻ sẽ ảnh hưởng đến khả năng tận dụng xử lý theo batch và giảm chi phí. Ngoài ra nếu có thể tích hợp pipeline TTS vào stack thì có lẽ sẽ tạo được cuộc gọi với độ trễ thật sự thấp. Tôi giả định sản phẩm đang dùng là sản phẩm này: https://www.bittware.com/products/groq/
Demo ấn tượng
Tuy nhiên do yêu cầu phần cứng và chi phí, có vẻ khó tiếp cận nếu không phải là doanh nghiệp lớn. Tôi tò mò khi nào mức giá mà cả lập trình viên làm hobby cũng chịu được sẽ khả thi. Demo CNN Vapi cũng ấn tượng, nhưng https://smarterchild.chat/ được chia sẻ vài tuần trước cũng cho phép trò chuyện tự nhiên với độ trễ giọng nói rất thấp. Theo cuộc thảo luận đó thì có vẻ là do https://www.sindarin.tech/ tạo ra, và tôi tò mò họ dùng Groq LPU hay thứ gì khác. Tôi cho rằng khi đạt khoảng 50 t/s thì đã có thể tương tác thời gian thực. Cao hơn nữa thì hữu ích để tạo dữ liệu hàng loạt nhanh chóng, nhưng vượt xa tốc độ con người có thể xử lý nên lợi ích cảm nhận sẽ giảm. Nó có thể hữu ích cho giao tiếp giữa các AI, truyền tải tri thức/ngữ cảnh, v.v. Nếu vậy, chẳng phải một sản phẩm LPU chỉ tập trung vào tương tác AI-con người có thể khả thi với hiệu năng thấp hơn nhiều và chi phí thấp hơn nhiều sao
https://news.ycombinator.com/item?id=39180237
- Truy cập API token dạng dịch vụ đảm bảo chi phí trên mỗi token thấp hơn bất kỳ nhà cung cấp nào khác
  Xem https://wow.groq.com. Mảng bán phần cứng tập trung vào bán toàn bộ hệ thống, và trên thực tế chỉ phù hợp với doanh nghiệp hoặc viện nghiên cứu
- Để tương tác thời gian thực với hệ thống AI, tốc độ cao hơn 50 t/s rất nhiều là điều bắt buộc
  Phần lớn đầu ra của LLM sẽ được dùng cho độc thoại nội bộ, lập kế hoạch, RAG, tóm tắt, v.v., và chỉ đầu ra cuối cùng mới được chuyển tới người dùng. Hãy tưởng tượng một GPT-5 cực nhanh, trong vài lần chớp mắt đã lập kế hoạch trả lời nhiều lần, tìm kiếm web, viết cảm nhận sau khi đọc, tự tranh luận, tinh lọc nội dung tìm được, phê bình câu trả lời rồi viết lại
- Xét việc quy mô đội Sindarin có vẻ chỉ khoảng 3 người, có vẻ họ đã kết hợp các công nghệ hiện có một cách rất thông minh
  Cũng có các API giọng nói cung cấp chuyển lời nói thành văn bản thời gian thực theo từng từ, và Google cũng có thứ như vậy. Bí quyết cốt lõi rất có thể là thiết kế pipeline cực tốt giữa nhận dạng giọng nói → LLM → TTS. Tôi không có ý hạ thấp thành quả của họ; ngược lại, tôi quan tâm vì muốn biết có thể tái hiện kết quả đó như thế nào
Không phải lúc nào cũng nhanh; nếu đặt câu hỏi phức tạp hoặc thêm prompt trước yêu cầu nói bằng giọng điệu khác, vẫn mất thời gian tải
Dù thú vị, nhưng rốt cuộc có vẻ khả năng cao sẽ thành một sản phẩm thất bại
Nếu trang không truy cập được một phông chữ cụ thể thì nó không hoạt động và cứ thử lại yêu cầu liên tục
Tôi phát hiện ra vì trình duyệt mặc định chặn những thứ gần như là trình theo dõi như vậy
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Có vẻ như đây là cách cho Google thấy trang web của bạn phổ biến và thú vị đến mức nào như một mục tiêu mua lại, mà không cần cài trực tiếp trình theo dõi của Google lên website
- Ngay cả khi dùng plugin bảo vệ quyền riêng tư để thay thế phông chữ cũng gặp vấn đề tương tự
  Việc có sự phụ thuộc như thế này khá kỳ lạ
Tôi hơi ngây thơ về lĩnh vực này nên muốn hỏi: vì sao điều này ấn tượng?
Muốn phản hồi nhanh thì chẳng phải chỉ cần投入 nhiều tính toán hơn sao? Việc có hàng đợi khi có tải chẳng phải chỉ cho thấy sự đánh đổi giữa số yêu cầu có thể xử lý trên mỗi đơn vị thời gian và lượng tính toán投入 để phản hồi nhanh hơn sao? Biểu đồ này của NVIDIA trông như nói rằng H100 chạy llama v2 70B ở hơn 500 tok/s
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Tăng tính toán có thể cải thiện thông lượng, nhưng độ trễ giữa các token thì không dễ cải thiện
  Khi sinh văn bản, nút thắt thường là thời gian đi qua mạng cho từng token. Muốn nhanh hơn thì phải thực hiện phép tính nhanh hơn, và sau khi đã dùng hết các lựa chọn hiển nhiên như accelerator nhanh nhất hay cache, đó trở thành một bài toán khó
- Suy luận LLM về bản chất là một bài toán tuần tự
  Làm nhiều hơn song song không khiến nó nhanh hơn. Bạn không thể tạo token thứ 101 trước khi tạo token thứ 100
- Thông lượng token và độ trễ là hai thứ khác nhau
  Thông lượng token là thông lượng của toàn bộ GPU/hệ thống, còn độ trễ là thông lượng token theo từng người dùng. Groq cung cấp độ trễ cực thấp, tức thông lượng token rất cao trên mỗi người dùng, nhưng hiện chưa có con số tổng thông lượng token của toàn hệ thống. Ngược lại, chỉ số Nvidia ở đây thể hiện thông lượng token của toàn bộ GPU/hệ thống. Trên thực tế, ngay cả khi có thể đạt 1,5k t/s trên H100, thông lượng token trên mỗi người dùng theo độ trễ có thể thấp hơn nhiều, chẳng hạn 20 t/s. Chỉ số thực sự quan trọng là chi phí trên mỗi token. Việc Groq có thể chạy với độ trễ thấp không có nghĩa là họ có thể làm rẻ. Một cách xấp xỉ hữu ích là lấy chi phí hệ thống chia cho tổng thông lượng token mỗi giây của toàn hệ thống, nhưng vì không có tổng thông lượng token mỗi giây của hệ thống Groq nên khó nói về hiệu quả; hiện họ cũng có thể đang trợ giá chi phí hệ thống để PR rồi sau này tăng giá
- Cuối cùng có vẻ phụ thuộc vào chi phí hạ tầng trong bài là bao nhiêu
  H100 chỉ có chi phí sản xuất khoảng 3.300 USD, nhưng trung bình được bán khoảng 30.000 USD
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Có vẻ Nvidia ghi thông lượng tối đa theo xử lý batch. Ví dụ như đồng thời 10 prompt khác nhau, mỗi prompt 50 tok/s
  Groq LPU rõ ràng vượt H100 về tốc độ thuần túy. Nhưng về cơ bản đây là một hệ thống giá đắt gấp 500 lần mà tốc độ chỉ nhanh gấp 10 lần, và trông như một công ty vận hành blockchain đang tiếp thị mạnh các chip vốn ban đầu được nhắm cho đào tiền mã hóa sang mục đích suy luận LLM. Cũng khá buồn cười khi mỗi tuần lại có ai đó kinh ngạc đăng liên kết này, và trong phần bình luận thì các kỹ sư Groq dường như đã chờ sẵn để trả lời đủ kiểu
Cái này không liên quan gì đến mô hình Grok do x.ai cung cấp sao?
Tôi đã dùng thử và tốc độ rất ấn tượng
- Không liên quan gì đến Elon; Groq chúng tôi dùng tên này trước
  Trong lĩnh vực AI, đây là một lựa chọn tên tự nhiên vì liên hệ với tinh thần hacker, nhưng nhãn hiệu là của chúng tôi còn Elon thì không có
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Nếu không có bình luận này, chắc tôi đã nghĩ đây là thứ do Twitter tạo ra
- Cũng có một món đồ chơi trẻ em tên Grok dùng LLM để trò chuyện với trẻ
Cả Groq lẫn Mixtral đều khiến tôi há hốc mồm
Tôi đã thử prompt dưới đây: tạo file GitLab CI yaml cho một dự án frontend/backend lai, trong đó dưới /frontend có frontend Node được đóng gói bằng yarn và build bằng vite rồi đưa vào /backend/public, còn backend là server Python Flask
- Vậy mà nó vẫn mắc lỗi trong đoạn Python đơn giản
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq chạy Mixtral 8x7B-32k ở tốc độ 500 T/s

Nền tảng suy luận nhanh và rẻ

Stack chuyên dụng cho suy luận được xây dựng bằng LPU

Trung tâm dữ liệu toàn cầu và GroqCloud

Tích hợp cho nhà phát triển tương thích OpenAI

Câu chuyện khách hàng và quan hệ đối tác

Các mục tin tức được công bố cùng lúc

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News