- Mục tiêu là nắm bắt thị trường tuyển dụng và các xu hướng hiện tại thông qua chuỗi thảo luận "Ask HN: Who Is Hiring" trên Hacker News
- Dùng Selenium để tìm kiếm Google hàng tháng với truy vấn "ask hn who is hiring {month} {year}" nhằm thu thập ID của các thread
- Dùng HN-API để thu thập ID của các bình luận cấp cao nhất và lưu vào cơ sở dữ liệu sqlite3
- Dùng GPT-4o để phân loại các bình luận
- Dùng phương thức
llm.batch(array) của LangChain để xử lý song song, giúp xử lý dữ liệu nhanh hơn
Kết quả
Có bao nhiêu công việc cho phép làm việc từ xa?
- Trong thời kỳ đại dịch, chỉ khoảng 1/5 số công việc không hỗ trợ làm việc từ xa
- Tỷ lệ hỗ trợ làm việc từ xa không giảm mạnh như dự đoán
Có bao nhiêu công việc tài trợ visa?
- Tỷ lệ công việc có tài trợ visa tương đối ổn định trong 2 năm qua
- Việc tìm được công việc có tài trợ visa vẫn rất khó
Phân bố theo mức kinh nghiệm thay đổi ra sao?
- Trong 6~12 tháng tới, việc đạt mốc hơn 8 năm kinh nghiệm sẽ rất quan trọng
Số lượng công việc theo từng bang ở Mỹ là bao nhiêu?
- Số công việc tại Bay Area và NYC nhiều vượt trội so với các khu vực khác
Những cơ sở dữ liệu nào đang được sử dụng?
- PostgreSQL được sử dụng áp đảo so với các cơ sở dữ liệu khác
Framework JavaScript nào có nhu cầu cao?
- Nhu cầu đối với React rất cao
- Đã tạo biểu đồ bong bóng tương tác bằng
three.js mà không dùng thang log
Phân bố lương ra sao?
- Không có nội dung cụ thể nào được cung cấp về phân bố lương
Điều rút ra
- Cần mô tả các trường của mô hình chính xác nhất có thể
- Khi phân loại, nên nêu rõ các lớp trong phần mô tả
- Khi trích xuất tập hợp, nên chỉ rõ dấu phân cách trong phần mô tả
Công việc tiếp theo
- Dựa trên công việc ban đầu này, có thể xây dựng một mini SaaS: người dùng mô tả công việc họ đang tìm trong thread "Ask HN: Who is hiring?", hệ thống sẽ phân loại và ghép nối theo từng tháng
Ý kiến của GN⁺
- Bài viết này cho thấy rõ cách dùng khoa học dữ liệu và kỹ thuật xử lý ngôn ngữ tự nhiên để phân tích thị trường việc làm
- Xử lý song song bằng GPT-4o và LangChain rất hữu ích để xử lý nhanh dữ liệu quy mô lớn
- Nội dung phản ánh thực tế rằng rất khó tìm công việc có tài trợ visa, nên sẽ hữu ích cho những ai đang tìm thông tin liên quan
- Nhu cầu cao đối với React và PostgreSQL là tài liệu tham khảo tốt cho những người muốn học các công nghệ này
- Ý tưởng mini SaaS này, nếu được triển khai thực tế, có thể giúp ích rất nhiều cho người tìm việc
1 bình luận
Ý kiến Hacker News
Phân tích bằng GPT-4o khá thú vị
Hơi tiếc vì không tìm thấy mã nguồn của dự án trên GitHub
Cảm ơn vì đã đầu tư thời gian và tiền bạc cho dự án
Đây là sự kết hợp tuyệt vời giữa LLM và phân tích truyền thống
Xếp chồng các thanh trong biểu đồ là không tốt
Nên dùng thang log để biểu đồ trông không kỳ lạ
Sẽ rất thú vị nếu làm cùng một phân tích bằng Claude 3 Haiku
Sẽ thú vị nếu so sánh với một mẫu ngẫu nhiên từ Indeed hoặc LinkedIn
Trong biểu đồ framework JS có cả bong bóng "React Native" và "React-Native"
Muốn xem một phân tích tương tự về "Who Wants to be Hired"