📋项目概述

项目名称: Jobfair Scraper (2026 届春季双选会企业岗位爬虫)

项目地址:JobfairScrape: 2026 届重庆高校毕业生春季双选会 企业岗位爬虫脚本使用指南 这是一款专为重庆高校毕业生 2026 届春季双选会开发的企业与岗位信息抓取爬虫脚本。 本指南将手把手教你:依托双选会企业名单 Excel 中的真实企业 / 岗位数据,搭配主流大模型(ChatGPT、豆包、讯飞星火等),零代码、零基础快速完成「简历 - 岗位 - 企业」精准匹配,彻底解决求职迷茫、不知投递方向、岗位适配度低的核心痛点。

这是一个专为重庆高校毕业生 2026 届春季双选会开发的企业与岗位信息抓取爬虫脚本。脚本通过网络爬虫技术从双选会官方网站抓取企业名单和岗位信息,并将其结构化存储为 Excel 文件,便于后续数据分析和求职匹配。

核心价值:

  • 精准匹配 依托双选会企业名单 Excel 中的真实企业/岗位数据,搭配主流大模型(ChatGPT、豆包、讯飞星火等),零代码、零基础快速完成「简历 - 岗位 - 企业」精准匹配。**
  • 智能分析 通过大模型对比企业招聘需求与个人核心优势,自动推荐最适配岗位。**
  • 高效求职 在春季双选会中精准发力、靶向投递,显著增加面试邀约机会。**

适用场景

  • 毕业生求职:精准匹配岗位,避免盲目海投。
  • 高校就业指导:分析企业行业分布、岗位需求趋势。
  • 企业招聘:了解高校毕业生就业偏好,优化招聘策略。

🎯 功能特性

核心功能

  1. 网页抓取: 使用 **<span class="ne-text">requests</span> 库通过带重试机制的会话获取目标页面 HTML。
  2. 数据解析: 利用 **<span class="ne-text">BeautifulSoup</span> 解析 HTML,按表格结构提取企业及岗位信息。
  3. 数据结构化: 将多行岗位信息展开为单条记录,写入 Excel 文件。**
  4. 数据清洗: 自动处理缺失值、标准化字段格式。

提取信息字段

  • 展位号**: 企业在双选会中的展位位置。
  • 企业名称**: 招聘企业的全称。
  • 岗位名称**: 具体招聘岗位。
  • 招聘人数**: 岗位需求人数(缺失时填 “N/A”)。
  • 岗位要求**: 招聘条件和要求(缺失时为空)。

扩展功能

  • 支持多场次/年份双选会抓取(修改 URL)。
  • 可扩展抓取企业简介、联系方式等额外字段。
  • 数据输出支持 CSV/数据库格式。

📁 项目文件结构

件说明

  • jobfair_scraper.py: 核心脚本,负责网页抓取、数据解析和 Excel 输出。
  • README.md: 简要使用指南。
  • 数据说明.md详细数据来源、预处理和分析说明。
  • requirements.txt: 项目依赖包列表。
  • 2026 年重庆各大高校春招信息/: 存储各高校双选会企业名单 Excel 文件,用于数据分析。

🛠️ 安装与运行

系统要求

  • 操作系统**: Windows 10/11, macOS, Linux
  • Python 版本**: Python 3.8 或以上
  • 网络环境: 需要访问互联网(抓取目标网站)

安装步骤

  1. 克隆或下载项目**:
1
2
git clone https://gitee.com/cqiemushuo/jobfair-scrape.git
cd JobfairScraper
  1. 安装依赖:
1
pip install -r requirements.txt

依赖包包括:

  • <span class="ne-text">requests</span>: HTTP 请求库
  • <span class="ne-text">beautifulsoup4</span>: HTML 解析库
  • <span class="ne-text">pandas</span>: 数据处理库
  • <span class="ne-text">openpyxl</span>: Excel 文件读写库
  1. 运行脚本:
1
python jobfair_scraper.py
  1. 查看输出:
  • <span class="ne-text">jobfair_details.html</span>: 抓取的原始 HTML 页面(用于调试)
  • <span class="ne-text">2026届春季双选会企业名单.xlsx</span>: 结构化招聘信息 Excel 文件

运行示例

1
2
3
4
5
$ python jobfair_scraper.py
抓取开始...
页面抓取成功!
数据解析完成,共提取 150 条岗位记录。
Excel 文件写入完成:2026届春季双选会企业名单.xlsx

📊** 数据说明**

数据来源与范围

本项目分析涵盖 12 个 Excel 文件:11 所高校的双选会企业名单(包含企业基本信息与行业/岗位分类等)、以及重庆工程学院重工 3.18 专场的”岗位统计表”(包含企业-职位-需求人数-专业要求)。

核心数据表(按来源排序)

序号 数据类型 来源高校 核心字段 数据完整性 备注
1 企业名单 四川外国语大学(川外) 企业名称、行业、地址、联系方式 98%(3 条地址缺失) 186 行
2 企业名单 重庆交通大学 企业名称、行业、规模、招聘岗位 99%(1 条行业缺失) 243 行
3 企业名单 重庆理工大学(主场) 企业名称、行业、地址、岗位类型 97%(5 条规模缺失) 215 行(重复文件已去重)
4 企业名单 重庆理工大学(汽车专场) 企业名称、汽车细分领域、岗位需求 100% 158 行
5 企业名单 重庆三峡学院 企业名称、行业、本地/外地属性 95%(6 条地址、3 条行业缺失) 126 行
6 企业名单 重庆文理学院 企业名称、行业、地址、招聘人数 96%(5 条地址缺失) 138 行
7 企业名单 西南大学 企业名称、行业、规模、岗位类别 99%(2 条规模缺失) 287 行
8 企业名单 重庆市长寿师范学校(长师) 企业名称、教育领域、岗位类型 94%(7 条行业缺失) 95 行
9 企业名单 重庆大学 企业名称、行业、地址、规模、岗位 100% 312 行
10 企业名单 重庆师范大学(重师) 企业名称、教育细分领域、地址 98%(3 条地址、1 条规模缺失) 179 行
11 企业名单 重庆工程学院(重工) 企业名称、行业、地址、岗位方向 97%(4 条岗位方向缺失) 162 行
12 职位统计 重庆工程学院(重工 3.18 专场) 企业名称、职位名称、需求人数、专业要求 100% 162 行

数据预处理(清洗与融合)

  • 去重与合并: 删除重复文件,保留唯一有效数据。
  • 字段标准化: 统一行业分类、企业规模、岗位类型等字段值。
  • 关联匹配: 通过企业名称关联企业名单与职位统计,形成完整链路。
  • 缺失补全: 根据关键词推断行业、地址等缺失信息。

数据结构说明

  • 企业名单汇总表: 包含企业名称、所属高校、行业类别、地址、规模等。
  • 重工专场职位统计表: 包含企业名称、职位名称、需求人数、专业要求等。

核心指标

  • 企业数量(按高校/行业/地域)
  • 岗位需求总量
  • 行业分布占比
  • 重复参与企业统计

💡** 使用示例**

基本使用

运行脚本后,查看生成的 Excel 文件:

1
2
3
4
5
展位号 | 企业名称     | 岗位名称       | 招聘人数 | 岗位要求
-------------------------------------------------------------
1 | XX科技有限公司 | Java开发工程师 | 5 | 本科及以上,熟悉Spring Boot
| | 测试工程师 | 2 | 熟悉自动化测试、Python优先
2 | YY互联网 | 算法工程师 | 3 | 熟悉机器学习、C++/Python