“智慧医疗 数造未来”——南京中医药大学医疗数据标注比赛

发布者:周璐发布时间:2026-04-09浏览次数:75

一、活动背景与意义

随着人工智能迈入大模型时代,医疗大模型展现出巨大的应用潜力。“数据是AI的燃料”,高质量的专业数据直接决定了大模型在垂直领域(尤其是严谨的医疗领域)的可用性、准确性和安全性。然而当前医院HIS(医院信息系统)的标准化程度仍有待提升。日常导出的电子病历、随访记录等数据往往存在格式杂乱、文本非结构化、关键信息缺失等问题,导致原始数据质量较低,无法直接用于大模型的训练与微调。

为应对上述挑战,在校团委关心支持下,特举办本次医疗数据标注比赛。本次比赛旨在:

培养动手能力:通过实战编程,提升参赛者处理复杂医疗数据的能力。

深化领域认知:在处理真实病历数据的过程中,加深对医疗信息的理解。

掌握前沿工具:鼓励并引导大家正确、高效地使用大模型(LLM)及智能化编程工具,提升人机协同效率。

二、活动组织概况

主办单位:南京中医药大学团委

人工智能与信息技术学院

承办单位:人工智能与信息技术学院团委

参赛对象:在籍在校本科生、研究生

比赛形式:线下现场编程马拉松(Hackathon)

比赛时长:3小时

比赛时间:2026年4月12日(周日)下午

比赛地点:仙林校区机房(具体地点赛事通知群内告知)

三、比赛规则与技术要求

1.开放的工具与语言

编程语言不限:Python,Java,JavaScript,R等均可。

开发工具不限:鼓励使用智能化编程IDE(如Trae,Cursor,GitHubCopilot等)进行辅助代码编写。

大模型不限:鼓励使用各类大模型(如ChatGPT,Claude,文心一言,智谱清言,DeepSeek等)辅助生成数据提取与标注的逻辑。

2.参赛者自备要求

自带设备:参赛者需携带个人笔记本电脑参赛。

提前配置:参赛者必须在进入赛场前,自行完成本地开发环境的搭建、IDE的安装以及大模型API的配置。

费用自理:本次比赛不提供任何大模型API接口,亦不资助API的购买费用。参赛者可使用免费额度、开源本地模型或自行购买API。

3.赛题与物料提供(主办方提供)

专家组命题并提供赛事指导。

原始数据:提供一份脱敏后的《电子病历原始数据.xls》表格,包含门诊记录、处方、检验、检查、入院记录、出院记录等文本。

规范化示例:提供标注指南与标准输出示例(如:原文本:“青霉素过敏,皮疹。”→标注:过敏【有】,过敏原[青霉素],反应[皮疹])。

任务目标:编写程序/脚本,结合大模型API,实现对XLS表格中原始批量数据的自动化清洗、信息抽取与结构化标注。

四、比赛流程安排

·13:30-14:00【签到与设备调试】

参赛者入场,连接网络/赛场Wi-Fi,检查电源及API网络连通性。

·14:00-14:15【赛题发布】

裁判长通过U盘或局域网下发《电子病历原始数据.xls》及《规范化示例》,宣布倒计时开始。

·14:15-17:15【极限编程时间(3小时)】

参赛者现场编程。其间允许查阅任何网络资料,允许与大模型对话,但禁止场外人员代写。

·17:15-17:30【成果提交】

比赛结束,停止编写。参赛者将最终输出的标注结果文件(result.csv)及核心代码脚本打包,提交至指定的局域网服务器或工作人员U盘。

五、赛后评审阶段

1.评审评分:专家评委组对参赛者提交的标注结果进行审核比对,计算准确率(Precision)、召回率(Recall)和F1Score。

2.代码抽查:结合成绩查阅代码,评估选手所提交的代码,杜绝人工手动复制粘贴作弊。

3.成绩公示与颁奖:赛后3个工作日内公布成绩并颁发荣誉证书及奖品。

六、评审标准

总分100分,包含以下维度:

1.标注准确度(70分):比对结果,提取的实体与关系是否与标准示例一致,无遗漏、无幻觉(大模型常犯错误)。

2.格式规范性(10分):提交的数据格式是否完全符合赛题要求(直接影响数据入库质量)。

3.技术创新与工具应用(20分):重点考查提示词工程(PromptEngineering)的设计质量、代码逻辑的健壮性。

七、奖项设置(将根据参赛人数等因素适当调整)

特等奖(1名):荣誉证书+1000元(税前)

一等奖(3名):荣誉证书+800元(税前)

二等奖(10名):荣誉证书+500元(税前)

三等奖(若干):荣誉证书+纪念奖品

八、数据安全提示

虽然比赛采用脱敏XLS数据,但仍需在开场前签署《数据保密承诺书》,强调医疗数据仅用于本次比赛,严禁外传。

九、参赛者赛前准备Checklist:

1.笔记本电脑已充满电并携带适配器。

2.已安装自己熟悉的编程语言环境(如Python3.10+)。

3.已安装并熟悉智能IDE(强烈推荐下载尝试Trae或Cursor,体验AI自动写代码)。

4.已注册至少一家大模型平台(如智谱、百川、DeepSeek等),获取了APIKey。

5.已在本地写过一个简单的测试脚本,成功调用API并返回结果。

十、报名方式

请于2026年4月11日12点前扫码入群(1002159025),填写在线报名表格完成报名。进群审核请留言学号+姓名。