一句话:这后台管 933 所大学的 32 个字段。三件事 — 看数据状态(概览)、改具体值(数据管理)、处理多源冲突(字段冲突)。
🎯 4 个核心 tab
📊 数据概览
看整体状态
学校数、字段数、冲突数、低置信度数。还有按层次(985/211)分布、缺分数线警告。
🗃️ 数据管理
改字段值
选某所学校 → 看该校所有字段 → 直接改/删;下方支持 CSV 上传/下载。
📋 列字典
看字段定义
32 个字段的中文名、定义、单位、采集源、覆盖率。可改 definition。
⚠️ 字段冲突
解多源不一致
同字段多源给了不同值时进列表。每条三选一:选某源、自定义值、全部拒绝。
📌 数据从哪来
| 源 | 角色 | 覆盖 |
| 学校官网 official | 主源(最权威) | ~84% 校 |
| 百度百科 baike | 主源 | 稳定 |
| 高考100 gk100 | 主源 | ~97% 校 |
| thepaper.cn | 河北一分一档表(OCR 入库) | 140-693 分全覆盖 |
| 管理员手动 / CSV 上传 | 人工修正 | 按需 |
🔁 冲突怎么处理
- 同字段被多个源给了不同值 → 系统自动入"字段冲突"列表
- 简单形式差异(如"教育部直属"vs"教育部")系统已归一化判同,不会进列表
- 真正进列表的是数字差异(如院士数 16 vs 12)— AI 先仲裁一遍,不确定的才推到你这
- 每条 3 个动作:「选用某源」「自定义值」「全拒(删该字段所有源)」
📥 CSV 上传 / 下载
- 下载:数据管理 tab → 顶部「下载多源 CSV」或「下载宽表 CSV」按钮
- 上传:数据管理 tab → 「CSV 批量上传」卡片,粘贴 CSV 文本上传
- 表头要求:
school_id(或 school_name)、field_key、field_value,可选 source_name
- 多源 CSV 适合分析(每条字段一行含 source);宽表 CSV 适合给业务方(每校一行 32 字段对齐)
❓ 常见问题
看到一个字段值明显错了,怎么改?
数据管理 tab → 选该学校 → 找到字段 → 直接编辑。改后写一条 source=管理员手动 的记录,优先级最高,前台立刻生效。
采集出来的字段数太少?
3 个主源不一定每个都跑通(学校官网常被反爬)。让冲突列表先空着,等次日 cron 自动补;或在数据管理里手动加。
删错了怎么办?
系统自动每周备份 SQLite 库到 data/college-YYYYMMDD.db.bak,30 天保留。需要回滚问技术。
为什么有些校官网 URL 是空的?
主要是独立学院 / 职业大学 / 警察学院 — 没有独立官网或已撤销。可手动补到字段。
密码 fangyuan2025。改数据前先确认;批量改前最好先下载 CSV 留底。