人工智能时代,数据质量决定模型性能上限。传统模式存在数据来源单一、标注专业性不足、效率低下等痛点。
大模型公司、创新药企需要与多家医院对接获取病例,数据来源单一、治理成本高,难以快速获得高质量真实世界诊疗数据。
传统模式往往只能找医学生进行标注,缺乏医学专业性,标注质量不足,显著影响模型训练效果与科研进展。
依托健康大脑数据采集治理,数据源覆盖全国 3070+ 医疗机构,5500 万患者+ 真实世界全病程数据。通过统一平台实现标注需求承接、任务分发、结果审核、数据产品封装,有效破解双重痛点。
平台主要包含"数据广场"、"工作台"、"众包空间"三大核心功能版块,覆盖数据获取、智能标注、任务分发全流程。
统一展示已上架的数据集资源,支持数据需求方自由检索、预览、探查并申请使用。按"一项目一治理"原则快速构建所需数据集。
为医学专家提供"AI预标注+人工校验"服务,内嵌文本、影像、图片等各类AI预标注插件,让医学专家从"标注员"升级为"审核员"。
对所有标注任务进行统一管理,实现标注任务的统一派发、医学专家灵活接单、标注进度与质量监管,提供完善的操作培训与劳务费用发放服务。
覆盖文本、影像、图片等多种数据模态,满足不同场景的数据标注需求。
从病历、检查报告等文本中抽取医学实体,如疾病、症状、药品、检验指标等。
对文本进行分类标注,如按时间、科室、正常/异常、风险等级等维度分类。
在病理全玻片图像等单张图片上用边界框标出病灶、器官或特定区域位置。
在CT/MR原始DICOM数据中对器官、肿瘤、血管等目标进行三维分割标注。
构建问答对、思维链等高质量训练数据,满足大模型SFT和多模态训练需求。
对问卷结果进行预处理和统计分析,对文本实体进行提取和关联标注。
从需求发布到劳务支付,全流程标准化管理,确保数据标注服务的高质量交付。
数据需求方完成内部立项,明确标注类型、字段要求、专家资质及验收标准,将需求发布至众包空间。
按“一项目一治理”原则,在健康大脑域内完成数据去标识化、转换、特征创建、清洗聚合,形成事件链数据集。
医学专家实名注册认证,平台根据专科、职称、年资自动匹配合适任务,平台审核后推送任务包。
内置多模态 AI 预标注插件,自动提取医学实体、分割影像病灶、分类文本属性,生成初步标注结果。
医学专家对 AI 预标注结果进行审核校验,无误直接保存,有误通过工作台手动修正并批量提交。
配置多级审核流程(一审互审→二审专家审核→终审金标准仲裁),从准确性、一致性、完整性多维度验收。
按预设费用标准并依据质量报告合理扣减,平台定期打款至专家绑定银行卡,定期与需求方结算。
严格遵循公共数据授权运营要求,确保"原始数据不出域,数据可用不可见",全流程符合法律法规要求。
所有标注工作均在政务内网或卫生专网环境内完成,标注数据原材料已完成脱敏去标识化。
遵循 GB/T 39725-2020 等标准,对姓名、身份证号、手机号等敏感字段实施脱敏与匿名化处理。
记录用户登录、数据访问、标注操作、成果提交等全量行为日志,支持溯源查询与异常告警。
最终成果为标注后的字段特征、问答对、思维链、脱敏影像,不含任何个人敏感信息。
《数据安全法》《个人信息保护法》《浙江省公共数据条例》