8 điểm bởi GN⁺ 2024-07-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mục tiêu là nắm bắt thị trường tuyển dụng và các xu hướng hiện tại thông qua chuỗi thảo luận "Ask HN: Who Is Hiring" trên Hacker News
  • Dùng Selenium để tìm kiếm Google hàng tháng với truy vấn "ask hn who is hiring {month} {year}" nhằm thu thập ID của các thread
  • Dùng HN-API để thu thập ID của các bình luận cấp cao nhất và lưu vào cơ sở dữ liệu sqlite3
  • Dùng GPT-4o để phân loại các bình luận
  • Dùng phương thức llm.batch(array) của LangChain để xử lý song song, giúp xử lý dữ liệu nhanh hơn

Kết quả

Có bao nhiêu công việc cho phép làm việc từ xa?
  • Trong thời kỳ đại dịch, chỉ khoảng 1/5 số công việc không hỗ trợ làm việc từ xa
  • Tỷ lệ hỗ trợ làm việc từ xa không giảm mạnh như dự đoán
Có bao nhiêu công việc tài trợ visa?
  • Tỷ lệ công việc có tài trợ visa tương đối ổn định trong 2 năm qua
  • Việc tìm được công việc có tài trợ visa vẫn rất khó
Phân bố theo mức kinh nghiệm thay đổi ra sao?
  • Trong 6~12 tháng tới, việc đạt mốc hơn 8 năm kinh nghiệm sẽ rất quan trọng
Số lượng công việc theo từng bang ở Mỹ là bao nhiêu?
  • Số công việc tại Bay Area và NYC nhiều vượt trội so với các khu vực khác
Những cơ sở dữ liệu nào đang được sử dụng?
  • PostgreSQL được sử dụng áp đảo so với các cơ sở dữ liệu khác
Framework JavaScript nào có nhu cầu cao?
  • Nhu cầu đối với React rất cao
  • Đã tạo biểu đồ bong bóng tương tác bằng three.js mà không dùng thang log
Phân bố lương ra sao?
  • Không có nội dung cụ thể nào được cung cấp về phân bố lương

Điều rút ra

  • Cần mô tả các trường của mô hình chính xác nhất có thể
  • Khi phân loại, nên nêu rõ các lớp trong phần mô tả
  • Khi trích xuất tập hợp, nên chỉ rõ dấu phân cách trong phần mô tả

Công việc tiếp theo

  • Dựa trên công việc ban đầu này, có thể xây dựng một mini SaaS: người dùng mô tả công việc họ đang tìm trong thread "Ask HN: Who is hiring?", hệ thống sẽ phân loại và ghép nối theo từng tháng

Ý kiến của GN⁺

  • Bài viết này cho thấy rõ cách dùng khoa học dữ liệu và kỹ thuật xử lý ngôn ngữ tự nhiên để phân tích thị trường việc làm
  • Xử lý song song bằng GPT-4o và LangChain rất hữu ích để xử lý nhanh dữ liệu quy mô lớn
  • Nội dung phản ánh thực tế rằng rất khó tìm công việc có tài trợ visa, nên sẽ hữu ích cho những ai đang tìm thông tin liên quan
  • Nhu cầu cao đối với React và PostgreSQL là tài liệu tham khảo tốt cho những người muốn học các công nghệ này
  • Ý tưởng mini SaaS này, nếu được triển khai thực tế, có thể giúp ích rất nhiều cho người tìm việc

1 bình luận

 
GN⁺ 2024-07-05
Ý kiến Hacker News
  • Phân tích bằng GPT-4o khá thú vị

    • Gần đây đã phân tích các bộ dữ liệu "Who is Hiring" và "Who wants to be hired" bằng pandas và spacy
    • Có vẻ việc LLM phân biệt được 'go' và 'rust' sẽ hữu ích
    • Hơi tiếc vì không gộp node.js và nodejs, react-native và react native
    • Thắc mắc vì sao lại dùng script selenium để lặp lại việc tìm kiếm trên Google
    • Chia sẻ một script dùng trực tiếp API và dùng regex để khớp tiêu đề
  • Hơi tiếc vì không tìm thấy mã nguồn của dự án trên GitHub

    • Đây là lần đầu tiếp xúc với langchain, và API kém nhất quán hơn mong đợi
    • Tò mò không biết có thể làm việc này bằng Ollama hay không
    • Nhiều wrapper đan xen phức tạp khiến mọi thứ trở nên khó hiểu
    • Cần một hướng dẫn cho người mới bắt đầu
  • Cảm ơn vì đã đầu tư thời gian và tiền bạc cho dự án

    • Các thống kê bổ sung về "remote" và "in-person" khá thú vị
    • Lý do các công ty in-person tuyển dụng lặp đi lặp lại có thể là do tăng trưởng, hoặc cũng có thể vì khó tìm được ứng viên
    • Lý do các công ty remote biến mất có thể là vì đã tìm được nhân sự cần thiết, hoặc đã đóng cửa kinh doanh
  • Đây là sự kết hợp tuyệt vời giữa LLM và phân tích truyền thống

    • LLM rất giỏi trong việc hiểu sắc thái của con người, châm biếm và thành ngữ
    • ML xuất sắc trong việc trích xuất thông tin từ ngữ cảnh
    • Không thể tin cậy LLM trong việc tính toán số liệu thực tế
  • Xếp chồng các thanh trong biểu đồ là không tốt

    • Vì không thể đánh giá chính xác lớp thứ hai
    • Tốt hơn là đặt remote và non-remote cạnh nhau ở mỗi mốc thời gian
  • Nên dùng thang log để biểu đồ trông không kỳ lạ

    • Thay vào đó lại dùng three.js với 300 dòng code để tạo biểu đồ bong bóng
    • Hacker hành xử đúng kiểu hacker
  • Sẽ rất thú vị nếu làm cùng một phân tích bằng Claude 3 Haiku

    • Giá chỉ bằng 1/40 của GPT-4o
    • Có linh cảm rằng kết quả sẽ tương tự
  • Sẽ thú vị nếu so sánh với một mẫu ngẫu nhiên từ Indeed hoặc LinkedIn

    • Hacker News là một nhóm có độ thiên lệch so với ngành nói chung
  • Trong biểu đồ framework JS có cả bong bóng "React Native" và "React-Native"

  • Muốn xem một phân tích tương tự về "Who Wants to be Hired"

    • Có thể nắm được các xu hướng của những người đang gặp khó khăn trong tìm việc
    • Điều này có thể giúp ích cho những người đang hướng đến phát triển sự nghiệp