2026重庆校园春招-AI大模型简历岗位匹配
📋项目概述
项目名称: Jobfair Scraper (2026 届春季双选会企业岗位爬虫)
这是一个专为重庆高校毕业生 2026 届春季双选会开发的企业与岗位信息抓取爬虫脚本。脚本通过网络爬虫技术从双选会官方网站抓取企业名单和岗位信息,并将其结构化存储为 Excel 文件,便于后续数据分析和求职匹配。
核心价值:
- 精准匹配 依托双选会企业名单 Excel 中的真实企业/岗位数据,搭配主流大模型(ChatGPT、豆包、讯飞星火等),零代码、零基础快速完成「简历 - 岗位 - 企业」精准匹配。**
- 智能分析 通过大模型对比企业招聘需求与个人核心优势,自动推荐最适配岗位。**
- 高效求职 在春季双选会中精准发力、靶向投递,显著增加面试邀约机会。**
适用场景
- 毕业生求职:精准匹配岗位,避免盲目海投。
- 高校就业指导:分析企业行业分布、岗位需求趋势。
- 企业招聘:了解高校毕业生就业偏好,优化招聘策略。
🎯 功能特性
核心功能
- 网页抓取: 使用 **
<span class="ne-text">requests</span>库通过带重试机制的会话获取目标页面 HTML。 - 数据解析: 利用 **
<span class="ne-text">BeautifulSoup</span>解析 HTML,按表格结构提取企业及岗位信息。 - 数据结构化: 将多行岗位信息展开为单条记录,写入 Excel 文件。**
- 数据清洗: 自动处理缺失值、标准化字段格式。
提取信息字段
- 展位号**: 企业在双选会中的展位位置。
- 企业名称**: 招聘企业的全称。
- 岗位名称**: 具体招聘岗位。
- 招聘人数**: 岗位需求人数(缺失时填 “N/A”)。
- 岗位要求**: 招聘条件和要求(缺失时为空)。
扩展功能
- 支持多场次/年份双选会抓取(修改 URL)。
- 可扩展抓取企业简介、联系方式等额外字段。
- 数据输出支持 CSV/数据库格式。
📁 项目文件结构
件说明
- jobfair_scraper.py: 核心脚本,负责网页抓取、数据解析和 Excel 输出。
- README.md: 简要使用指南。
- 数据说明.md详细数据来源、预处理和分析说明。
- requirements.txt: 项目依赖包列表。
- 2026 年重庆各大高校春招信息/: 存储各高校双选会企业名单 Excel 文件,用于数据分析。
🛠️ 安装与运行
系统要求
- 操作系统**: Windows 10/11, macOS, Linux
- Python 版本**: Python 3.8 或以上
- 网络环境: 需要访问互联网(抓取目标网站)
安装步骤
- 克隆或下载项目**:
1 | git clone https://gitee.com/cqiemushuo/jobfair-scrape.git |
- 安装依赖:
1 | pip install -r requirements.txt |
依赖包包括:
<span class="ne-text">requests</span>: HTTP 请求库<span class="ne-text">beautifulsoup4</span>: HTML 解析库<span class="ne-text">pandas</span>: 数据处理库<span class="ne-text">openpyxl</span>: Excel 文件读写库
- 运行脚本:
1 | python jobfair_scraper.py |
- 查看输出:
<span class="ne-text">jobfair_details.html</span>: 抓取的原始 HTML 页面(用于调试)<span class="ne-text">2026届春季双选会企业名单.xlsx</span>: 结构化招聘信息 Excel 文件
运行示例
1 | $ python jobfair_scraper.py |
📊** 数据说明**
数据来源与范围
本项目分析涵盖 12 个 Excel 文件:11 所高校的双选会企业名单(包含企业基本信息与行业/岗位分类等)、以及重庆工程学院重工 3.18 专场的”岗位统计表”(包含企业-职位-需求人数-专业要求)。
核心数据表(按来源排序)
| 序号 | 数据类型 | 来源高校 | 核心字段 | 数据完整性 | 备注 |
|---|---|---|---|---|---|
| 1 | 企业名单 | 四川外国语大学(川外) | 企业名称、行业、地址、联系方式 | 98%(3 条地址缺失) | 186 行 |
| 2 | 企业名单 | 重庆交通大学 | 企业名称、行业、规模、招聘岗位 | 99%(1 条行业缺失) | 243 行 |
| 3 | 企业名单 | 重庆理工大学(主场) | 企业名称、行业、地址、岗位类型 | 97%(5 条规模缺失) | 215 行(重复文件已去重) |
| 4 | 企业名单 | 重庆理工大学(汽车专场) | 企业名称、汽车细分领域、岗位需求 | 100% | 158 行 |
| 5 | 企业名单 | 重庆三峡学院 | 企业名称、行业、本地/外地属性 | 95%(6 条地址、3 条行业缺失) | 126 行 |
| 6 | 企业名单 | 重庆文理学院 | 企业名称、行业、地址、招聘人数 | 96%(5 条地址缺失) | 138 行 |
| 7 | 企业名单 | 西南大学 | 企业名称、行业、规模、岗位类别 | 99%(2 条规模缺失) | 287 行 |
| 8 | 企业名单 | 重庆市长寿师范学校(长师) | 企业名称、教育领域、岗位类型 | 94%(7 条行业缺失) | 95 行 |
| 9 | 企业名单 | 重庆大学 | 企业名称、行业、地址、规模、岗位 | 100% | 312 行 |
| 10 | 企业名单 | 重庆师范大学(重师) | 企业名称、教育细分领域、地址 | 98%(3 条地址、1 条规模缺失) | 179 行 |
| 11 | 企业名单 | 重庆工程学院(重工) | 企业名称、行业、地址、岗位方向 | 97%(4 条岗位方向缺失) | 162 行 |
| 12 | 职位统计 | 重庆工程学院(重工 3.18 专场) | 企业名称、职位名称、需求人数、专业要求 | 100% | 162 行 |
数据预处理(清洗与融合)
- 去重与合并: 删除重复文件,保留唯一有效数据。
- 字段标准化: 统一行业分类、企业规模、岗位类型等字段值。
- 关联匹配: 通过企业名称关联企业名单与职位统计,形成完整链路。
- 缺失补全: 根据关键词推断行业、地址等缺失信息。
数据结构说明
- 企业名单汇总表: 包含企业名称、所属高校、行业类别、地址、规模等。
- 重工专场职位统计表: 包含企业名称、职位名称、需求人数、专业要求等。
核心指标
- 企业数量(按高校/行业/地域)
- 岗位需求总量
- 行业分布占比
- 重复参与企业统计
💡** 使用示例**
基本使用
运行脚本后,查看生成的 Excel 文件:
1 | 展位号 | 企业名称 | 岗位名称 | 招聘人数 | 岗位要求 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 沐硕!





