Smart TV trong phòng khách là một nút của nền kinh tế scraping AI
(blog.includesecurity.com)- Bright Data SDK được nhúng vào các ứng dụng tiêu dùng sẽ, với sự đồng ý của người dùng, biến điện thoại hoặc smart TV thành nút thoát proxy dân dụng và định tuyến lưu lượng web scraping của khách hàng qua IP hộ gia đình
- Proxy dân dụng là cách vượt qua để tiếp cận trang web đích bằng IP của khách hàng dân dụng trả phí trong môi trường nơi Cloudflare, DataDome, HUMAN và các bên khác hạn chế hoặc chặn các yêu cầu từ IP đám mây đã biết
- TV kết nối có lợi thế làm proxy hơn điện thoại về tính thường trực và khả năng bị bỏ mặc, vì không bị giới hạn pin, luôn kết nối Wi‑Fi và hoạt động 24/7 ở trạng thái chờ
- SDK iOS nhận tiêu chí nhàn rỗi, giới hạn băng thông và danh sách đối tác từ một endpoint cấu hình không cần xác thực, rồi mở đường hầm peer WebSocket để xử lý telemetry trạng thái thiết bị và các tác vụ scraping
cmd_tun - Phòng vệ tập trung vào chặn DNS
proxyjs.*vàclientsdk.*, lọc SNI, phát hiện dấu vân tay chứng chỉ TLS và quét binary ứng dụng bằng MDM;use_netifstrên iOS là một ràng buộc giúp né khả năng quan sát dựa trên VPN
Tổng quan
- Bất kể sự phản đối ở cấp cộng đồng đối với việc xây dựng trung tâm dữ liệu để tăng cường năng lực AI, vẫn tồn tại một cấu trúc trong đó thiết bị trong gia đình có thể bị dùng cho hoạt động thu thập dữ liệu phân tán phục vụ huấn luyện AI
- Bright Data bán quyền truy cập vào mạng proxy dân dụng gồm hơn 400M địa chỉ IP hộ gia đình mà khách hàng dùng để định tuyến lưu lượng web scraping, và nguồn cung đến từ SDK được nhúng trong các ứng dụng tiêu dùng
- SDK này, với sự đồng ý của người dùng, biến điện thoại hoặc smart TV thành nút thoát; nội dung phân tích tập trung vào cách SDK hoạt động, các nền tảng triển khai và vì sao TV kết nối Internet phù hợp với vai trò proxy web scraping cho mô hình AI
Vì sao điều này quan trọng lúc này
- Các công ty AI phụ thuộc vào nội dung web scraping cho tiền huấn luyện, tìm kiếm/truy xuất tăng cường, grounding cho agent và các tính năng tìm kiếm
- Web hiện đại là môi trường không dễ scraping từ trung tâm dữ liệu, và Cloudflare, DataDome, HUMAN cùng các bên khác hạn chế hoặc chặn yêu cầu từ các IP đám mây đã biết
- Giải pháp thay thế là proxy dân dụng đi tới trang đích từ IP của khách hàng dân dụng trả phí, như kết nối thuê bao Comcast hay T-Mobile
- Một trích dẫn trong bài Krebs tháng 10/2025 viết rằng: “Sự dư thừa proxy từ Aisuru và các nguồn khác đang tiếp sức cho các nỗ lực thu hoạch dữ liệu quy mô lớn gắn với nhiều dự án AI”
- Đo lường học thuật từ tận năm 2019 cho thấy các mạng như vậy bị lạm dụng áp đảo, và FBI cũng đã ban hành khuyến cáo chính thức vào đầu năm nay
- Phần lớn các bài báo trước đây tập trung vào nguồn cung proxy dân dụng bất hợp pháp như botnet kiểu Aisuru và Kimwolf, ứng dụng bị trojan hóa như PROXYLIB, hoặc phần cứng IoT đã bị lây nhiễm sẵn như IPIDEA
- Mặt cung hợp pháp nhận được ít xem xét hơn tương đối, và Bright Data, theo tiêu chuẩn marketing của chính họ, là mạng proxy dân dụng lớn nhất thế giới, quảng bá “150M+ IPs” dựa trên SDK có sự đồng ý được nhúng trong ứng dụng đối tác
Vì sao TV kết nối là proxy lý tưởng
| Yếu tố | Điện thoại | Smart TV / CTV |
|---|---|---|
| Nguồn điện | Dùng pin phần lớn thời gian trong ngày | Luôn cắm điện |
| Mạng | Wi‑Fi + di động | Luôn có Wi‑Fi, tốc độ cao |
| Thời gian hoạt động | Gián đoạn | 24/7 ở trạng thái chờ |
| Giới hạn băng thông | Thấp, bị giới hạn di động | Gần như không giới hạn |
| Mức độ chú ý của người dùng | Dùng chủ động | Thường bị bỏ mặc |
| UI xin đồng ý | Văn bản trên màn hình điện thoại | Văn bản điều hướng bằng phím mũi tên trên remote TV |
| Giám sát bởi doanh nghiệp/gia đình | Cao hơn, như MDM, mobile EDR | Gần như không có |
- TV là thiết bị không bao giờ xuống 1% pin, không thường xuyên chuyển giữa các mạng Wi‑Fi và không bị khóa lại khi người dùng đang ngủ
- Một số nhà phát hành đối tác có công bố mối quan hệ với Bright Data trong chính sách quyền riêng tư, và chính sách quyền riêng tư của PlayWorks là một ví dụ
- Việc công bố trong chính sách quyền riêng tư không phải điểm kiểm soát phù hợp cho TV, vì khó cuộn tài liệu pháp lý bằng phím mũi tên trên remote, còn hộp thoại đồng ý trong ứng dụng lại không truyền đạt được rằng khách hàng trả phí của Bright Data sẽ định tuyến lưu lượng scraping qua Internet gia đình của người dùng
- Màn hình opt-in của ứng dụng Roku Petflix được The Verge ghi lại dùng câu chữ rằng “để giảm quảng cáo và tận hưởng miễn phí, hãy cho phép Bright Data thỉnh thoảng sử dụng tài nguyên nhàn rỗi và địa chỉ IP của thiết bị để tải dữ liệu web công khai trên Internet”
- Hộp thoại Petflix dùng cụm từ “thỉnh thoảng”, nhưng
max_bw_monthly_wifi: 200,000,000,000trong cấu hình SDK có thể truy vấn công khai cho thấy ngân sách Wi‑Fi mặc định hàng tháng là 200GB
Các đối tượng được Bright Data nêu tên là đối tác
- Bright Data để lộ một endpoint manifest đối tác mà bất kỳ ai cũng có thể lấy mà không cần xác thực
- Các mục nhận diện có độ tin cậy cao dựa trên nguồn công khai
| Partner ID | Thực thể | Quy mô |
|---|---|---|
playworks_digital |
PlayWorks Digital Ltd | Hơn 400 tựa game CTV, tiếp cận khoảng 250M hộ gia đình có TV qua Comcast, Sky, Cox, LG, Samsung, Vizio, Roku |
cloudtv |
CloudTV | Tích hợp trên hơn 125 thương hiệu TV và hơn 15 OEM |
longvision_media_hong_kong_co_limited |
Longvision Media HK (LongTV) | 5M người dùng OTT trên khắp Hong Kong và Malaysia |
viber_media_s_r_l |
Viber Media S.à r.l. (Rakuten) | 250M–820M người dùng hàng tháng của Viber Messenger |
supercent_inc |
Supercent | Nhà phát hành mobile số 1 Hàn Quốc theo lượt tải năm 2023 |
moonfrog_labs_private_limited |
Moonfrog Labs | Riêng Teen Patti Gold đã có khoảng 10M MAU, được mua lại với giá 90 triệu USD |
hola_networks |
Hola Networks | Công ty mẹ theo dòng dõi doanh nghiệp của Bright Data; theo marketing trước đây của Hola, số người dùng đỉnh từng ở mức hàng chục triệu đến khoảng hơn 100M |
desoline,free_time,ott_studio,global_microtrading,m_m_media,easystaff_lplà các mục có trong manifest nhưng khó xác định nguồn công khaibright_screensavers,bright_videos,brightdatalà các ứng dụng của chính Bright Data- Việc tên xuất hiện trong phần cài đặt của Bright Data cho thấy có khả năng đã từng có tích hợp ở một thời điểm nào đó, nhưng không phải là bằng chứng trực tiếp rằng ứng dụng hiện đang được nhà phát hành cụ thể phân phối trong môi trường vận hành có tích hợp SDK
- Điều mà danh sách đối tác trực tiếp chứng minh là Bright Data đang phát tán danh sách này qua một endpoint công khai không cần xác thực, và ít nhất ba doanh nghiệp tập trung vào CTV gồm PlayWorks, CloudTV và Longvision đã kiếm tiền từ thiết bị của người dùng như các nút thoát proxy dân dụng
- Theo tài liệu marketing của chính PlayWorks, công ty này đưa ra các con số về phạm vi phân phối CTV trên các nền tảng TV lớn và các ISP, với mức độ tiếp cận lên tới hàng trăm triệu hộ gia đình
Cách Bright Data SDK biến thiết bị người dùng thành nút thoát proxy dân dụng
-
Bright Data SDK là một sản phẩm thương mại được công khai tài liệu, có tài liệu tích hợp SDK cho publisher và biến thể JavaScript cho web
-
Phân tích được xây dựng dựa trên việc dịch ngược framework iOS đang được triển khai và đo đạc lưu lượng runtime trong 30 ngày
-
SDK được phân phối dưới dạng framework iOS
brdsdk.frameworkbên trong ứng dụng đối tác -
Cấu hình không cần xác thực
- Mỗi lần chạy, SDK gọi yêu cầu sau
GET https://clientsdk.bright-sdk.com/sdk_config_ios.json/…;- Endpoint hoạt động mà không có xác thực đáng kể; máy chủ chỉ kiểm tra hai tham số truy vấn là
appid, tức bundle ID của ứng dụng, vàver, tức chuỗi phiên bản SDK - Nếu cung cấp bundle ID có thể tìm thấy trên danh sách App Store của ứng dụng đối tác, chuỗi phiên bản SDK và một UUID được tạo tùy ý, nó sẽ trả về cấu hình giống hệt phản hồi mà thiết bị thật nhận được
- Phản hồi chứa cờ tính năng, ngưỡng phát hiện trạng thái nhàn rỗi như mức pin, giới hạn CPU/bộ nhớ, quy tắc Wi‑Fi/cellular, các tầng băng thông theo quốc gia, và manifest đối tác
- Trong cấu hình có các quy tắc nhàn rỗi để thiết bị đủ điều kiện chuyển tiếp lưu lượng, cờ định tuyến lưu lượng peer quanh VPN, map liên kết cài đặt đa nền tảng thành một danh tính, và giới hạn băng thông theo quốc gia
-
Đường hầm peer
- Sau khi lấy cấu hình, SDK mở một WebSocket duy trì liên tục tới địa chỉ sau
wss://proxyjs.brdtnet.com:443- Tên host này tại thời điểm viết được phân giải tới các IP AWS Global Accelerator
3.33.193.183,15.197.193.114 - Chứng chỉ TLS là
CN=*.luminatinet.com; Luminati Networks là tên công ty trước năm 2018 của Bright Data - Ngay cả sau đợt đổi thương hiệu năm 2018, hạ tầng SDK đang hoạt động vẫn dùng chứng chỉ legacy, và lưu lượng
luminatinet.comhoặcbrdtnet.comlà dấu hiệu nhận biết peer tunnel plane chứ không phải việc khách hàng đang dùng Bright Data - Dịch vụ proxy hướng tới khách hàng hiện chạy trên các domain mang thương hiệu
brightdata.com, nên lưu lượngluminatinet.com·brdtnet.comtrên mạng là peer tunnel plane - Máy chủ tự nhận diện là
uWebSockets: 20 - Endpoint peer không yêu cầu xác thực khi nâng cấp; sau khi TLS chấp nhận một WebSocket upgrade hợp lệ, nó lập tức gửi một frame tầng ứng dụng trả lại IP công khai của client
- Luồng handshake
-
- Server → Client
tunnel_init: tạo phiên và trả về IP công khai của client
- Server → Client
-
- Server → Client
cid_set: gán định danh theo dõi phiên có dạng<IP>-<token>/ls<N>c<M>p443_<IP>_<counter>, và được xác nhận trùng với trườngcidtrong telemetry từ thiết bị thật
- Server → Client
-
- Server → Client
status_get: polling trạng thái nhàn rỗi của thiết bị, pin, loại mạng, băng thông khả dụng; thiết bị phản hồi bằng telemetry liên tục gồmidle,wifi_connected,mobile_connected,mobile_type,roaming,battery_level,using_battery,screen_on,on_call,cpu_usage,mem_usage,raw_bw,bw,ipv6_supported,appid,sdk_version,platform,cid...
- Server → Client
-
- Sau khi handshake hoàn tất, nếu thiết bị báo trạng thái thuận lợi, lớp ghép việc của máy chủ có thể đẩy frame
cmd_tun, và SDK sẽ thực thi nó thành các yêu cầu HTTP tới website bên thứ ba với IP dân dụng của người dùng làm nguồn phát
- Sau khi handshake hoàn tất, nếu thiết bị báo trạng thái thuận lợi, lớp ghép việc của máy chủ có thể đẩy frame
- Mọi frame của WebSocket đều là JSON thuần với envelope cố định
{"type": "ipc_call"|"ipc_post"|"ipc_result"|"ipc_error","cmd": <command>, "cookie": <correlation-id>,"err_code": 0, "msg": { ...payload... }}- Các lệnh được trích xuất từ binary và xác nhận trong giao tiếp thực tế
- | Hướng | cmd | Mục đích |
- |---|---|---|
- | Server → Client |
tunnel_init| Mở phiên, echo IP công khai | - | Server → Client |
cid_set| Gán định danh phiên | - | Server → Client |
status_get| Polling trạng thái nhàn rỗi, pin và băng thông của thiết bị | - | Server → Client |
cmd_tun/tun| Chuyển tác vụ scraping | - | Server → Client |
dns| Yêu cầu phân giải DNS đích | - | Server → Client |
consent| Yêu cầu trạng thái đồng ý | - | Client → Server |
status_send| Heartbeat định kỳ về trạng thái thiết bị | - | Client → Server |
tun_report/tun_ack/tun_fin| Phản hồi vòng đời tác vụ relay | - | Client → Server |
tunnel_init_decline| Từ chối phiên | - | Client → Server |
logs| Gửi log chẩn đoán lên máy chủ | - Không có chữ ký thông điệp, HMAC, chứng chỉ client hay attestation thiết bị; yếu tố phân biệt peer nào nhận được tác vụ thật chỉ là lớp TLS và bộ lọc uy tín IP của máy chủ
- Với độc giả quen thiết kế giao thức malware thương mại, mức bảo mật thực tế này còn thấp hơn một C2 điển hình
-
Điều kiện SDK coi là “nhàn rỗi”
- Cấu hình nêu rõ các quy tắc trạng thái thiết bị cho phép relay lưu lượng của người khác
"idle_metrics": { "ignore_screen_on": true, "ignore_on_call": true, "max_bw_ratio": 1, "min_battery": 0.2, "wifi_on_battery": true, "min_battery_wifi": 0.2, "max_cpu_usage": 70, "max_mem_usage": 90, "mem_screen_off": true, "idle_timeout": 30, "not_idle_timeout": 10 }- Do có các cờ
ignore_screen_onvàignore_on_call, “nhàn rỗi” không có nghĩa là người dùng rời xa thiết bị, mà chỉ có nghĩa CPU, bộ nhớ và pin đang nằm trong các ngưỡng của SDK - Ngay cả khi người dùng đang gọi điện hoặc chủ động đọc màn hình, trạng thái đó vẫn được xem là nhàn rỗi cho mục đích relay
-
Liên kết danh tính đa nền tảng
- Trong cấu hình có map
dual_pairingsau
"dual_pairing": { "ios_com.brd.earnapp": ["win_earnapp.com", "mac_com.earnapp"] }- Map này là cấu trúc liên kết phía máy chủ để gộp các bản cài iOS, Windows và macOS của cùng một thương hiệu thành một thực thể
- Trường
http3_enabled: truelà cờ cho truyền tải peer dựa trên QUIC; các phiên bản tương lai có thể chuyển peer tunnel từ TCP/443 sang UDP/443 - Các biện pháp phòng thủ phát hiện WebSocket bằng cách theo dõi kết nối TCP có thể sẽ mất hiệu lực nếu chuyển sang UDP/443
- Trong cấu hình có map
-
Né tránh kiểm tra
- Cờ
use_netifs: truetrong cấu hình SDK là điều kiện khiến mã nhị phân của SDK tạoNWConnectionbằng một interface bắt buộc cụ thể thay vì tuyến mặc định của hệ thống - Interface bắt buộc là
en0của Wi‑Fi hoặcpdp_ip0của cellular - Trên iOS, cách này bỏ qua hoàn toàn interface
tun0của VPN đã cấu hình; ngay cả khi lưu lượng HTTPS khác của ứng dụng đi qua VPN, peer tunnel vẫn không đi qua VPN do người dùng cấu hình
- Cờ
-
Môi trường nghiên cứu chặn bắt TLS minh bạch đã thu thập mọi lệnh gọi HTTPS của SDK, nhưng kết quả là vẫn không thể thu được đường hầm ngang hàng
proxyjs.brdtnet.com:443, dù cổng 443 đã được chuyển hướng rõ ràng tới bộ kiểm tra- Cách vượt qua sử dụng API
NWParameters.requiredInterfaceđã được Apple tài liệu hóa - SDK sử dụng hai cơ chế vượt qua kiểm tra độc lập
- Control plane: việc lấy cấu hình và ping telemetry dựa trên các primitive
CFHTTPMessagecủa CFNetwork thay vìURLSession·NSURLConnection, vô hiệu hóa cơ chế đo đạc ở mứcURLSession, swizzling, network extension và subclassURLProtocolvốn phổ biến trong các công cụ bảo mật ứng dụng di động, đồng thời vẫn tôn trọng proxy hệ thống nên các nhà nghiên cứu chặn bắt TLS vẫn giữ được khả năng quan sát - Data plane: đường hầm ngang hàng dựa trên
NWConnectionvới giao diện vật lý được đặt làm giao diện bắt buộc, vô hiệu hóa VPN và bảo đảm việc scraping được thực hiện từ IP dân dụng - Kênh nhạy cảm nhất đối với các nhóm bảo mật sử dụng MDM, kiểm tra lưu lượng dựa trên VPN doanh nghiệp và kiểm soát phụ huynh trên router gia đình đã được thiết kế để vượt qua lớp khả năng quan sát
- Cách vượt qua sử dụng API
Phân tầng theo quốc gia
- Trong phần cài đặt có các ngưỡng băng thông theo từng quốc gia
| Quốc gia | Mức pin tối thiểu để relay | Giới hạn hằng ngày | Giới hạn hằng tháng |
|---|---|---|---|
| Uzbekistan | 1% | 1GB | 30GB |
| Oman | 1% | 1GB | 30GB |
| Qatar | 20% | 40MB | 250MB |
| UAE | 20% | 40MB | 250MB |
| default, worldwide | 20% | 50MB | 500MB |
- Thiết bị ở Uzbekistan và Oman được phép relay đến khi pin còn 1%, với giới hạn hằng ngày gấp 20 lần mặc định và giới hạn hằng tháng gấp 60 lần mặc định
- Thiết bị ở Qatar và UAE bị giới hạn ở mức thấp hơn giá trị mặc định
- Không thể xác định chắc chắn lý do cấu hình phân tầng theo quốc gia như vậy, chỉ có thể suy đoán
- Ngay cả mức cho phép mặc định toàn cầu cũng cho phép 500MB lưu lượng của người khác mỗi tháng đi qua kết nối Internet gia đình của người dùng
Thiết lập thử nghiệm và phương pháp luận
- Trong 30 ngày, đã thực hiện bắt gói bằng proxy chặn TLS trên thiết bị iOS chạy ứng dụng đối tác đã cài đặt với sự đồng ý, ví dụ ứng dụng bao gồm XYO COIN có tích hợp Bright SDK
- Đã thực hiện phân tích tĩnh đối với
brdsdk.frameworkversion1.532.120, trên nhị phân iOS arm64 - Tên host cụ thể, dấu vân tay chứng chỉ và hạ tầng TLS của Bright Data đều có thể được bất kỳ ai thực hiện cùng yêu cầu quan sát công khai
- Tài liệu không chứa dữ liệu nhận dạng theo phiên của fleet nghiên cứu hoặc client nghiên cứu
Dòng thời gian
- Ngày 11 tháng 5 năm 2026 đã gửi email thông báo trước công bố đến
privacy@brightdata.com - Tính đến thời điểm công bố, chưa có phản hồi nào cho thông báo đó
Cách tiếp cận phòng vệ
- Lưu lượng để lại fingerprint rõ ràng tại ranh giới mạng, còn SDK được thiết kế để để lại các symbol có thể nhận diện trong nhị phân ứng dụng
- Cách 1, chặn DNS, là biện pháp đơn giản và hiệu quả đối với các thiết bị định tuyến qua mạng
proxyjs.brdtnet.comproxyjs.luminatinet.comproxyjs.bright-sdk.comclientsdk.bright-sdk.comclientsdk.brdtnet.com
- Việc chặn
proxyjs.*sẽ làm gián đoạn đường hầm peer, nhưng không ảnh hưởng đến khách hàng đang sử dụng hợp pháp dịch vụ proxy dành cho khách hàng Bright Data hoạt động trên các domain khác - Cách 2, lọc TLS SNI, là chặn hoặc cảnh báo các bắt tay TLS có
server_namekhớp với*.brdtnet.com,*.luminatinet.com,*.luminati.io - Lọc SNI hoạt động tại ranh giới mạng mà không cần kiểm tra TLS
- Cách 3, phát hiện dấu vân tay chứng chỉ TLS, là chặn hoặc cảnh báo dựa trên các dấu vân tay sau
.brdtnet.com→ SHA256313ce4ec7d5a51e5….luminatinet.com→ SHA2565028612e625befea…
- Dấu vân tay chứng chỉ ổn định cho đến khi chứng chỉ Sectigo được thay thế, và chứng chỉ hiện tại có hiệu lực đến giữa năm 2026
- Do các ràng buộc liên quan đến
use_netifs, cả ba lớp này chỉ hoạt động khi lưu lượng đi qua ranh giới mạng - Khi thiết bị iOS dùng mạng di động, ràng buộc
use_netifscủa SDK tạo ra điều kiện khiến lưu lượng peer bỏ qua hoàn toàn Wi-Fi doanh nghiệp - Biện pháp kiểm soát bổ sung cho fleet thiết bị được quản lý là quét nhị phân ứng dụng dựa trên MDM, bằng cách tìm các Swift symbol
BrdWebSocketFacadevàBrdNetwork.DNSResolvertrong các ứng dụng đã cài, rồi cấm các ứng dụng có những symbol đó trên thiết bị do công ty cấp - Người dùng gia đình lo ngại về một số Smart TV hoặc ứng dụng di động cụ thể có thể chặn các tên host trên trong phần cài đặt DNS của router
- Ví dụ công cụ chặn: Pi-hole, NextDNS, Cloudflare Gateway, hoặc tính năng tương đương của ISP
1 bình luận
Ý kiến trên Lobste.rs
Nếu nói đến giao thức này, thì việc tự nguyện trả về dữ liệu rác được tạo ngẫu nhiên cho mọi yêu cầu dưới dạng một honeypot ngược có thể trở thành một dự án vibe coding thú vị cho ai đó đang dư token
Cũng không cần vibe coding, và đã có sẵn hàng chục công cụ có thể làm việc này. Khá nhiều trong số đó đã cung cấp dữ liệu rác vô tận cho các proxy như vậy suốt hơn một năm rồi
Tôi hoàn toàn không hiểu vì sao phải kết nối TV hay bất kỳ thiết bị gia dụng nào khác với Internet. Chẳng có lý do chính đáng nào để làm vậy cả