元鹏 BitFlow 总体需求文档
执行摘要
愿景:BitFlow 是一个联邦学习驱动的 AI 病理数据平台,确保原始数据不离开医院的前提下,为制药公司和 AI 企业提供大规模病理数据的训练和分析能力。
核心价值主张:
- 数据不出院:通过联邦学习技术,原始病理数据始终保留在医院本地
- 规模化协作:连接多家医院的海量病理数据,打破数据孤岛
- 合规性保障:满足 21 CFR Part 11、HIPAA、GDPR 等监管要求
三大核心组件:
- BitFlow(中心平台):任务调度、工作流编排、结果聚合
- Bitedge(边缘节点):本地安全存储、分布式计算执行
- Bitlab(数据工具):病理数据采集、格式转换、专业标注
目标客户与场景:
- 制药公司:临床试验病理分析、药物疗效评估($10-50/切片)
- AI 企业:联邦学习训练病理大模型(订阅模式)
- 医疗机构:数据资产变现、获得 AI 诊断能力
关键里程碑:
- Year 1:MVP 产品,3-5 家试点医院,2-3 个付费客户
- Year 2:20+ 医院节点,10+ 企业客户,ARR ¥3000 万
- Year 3:50+ 医院节点,30+ 企业客户,ARR ¥1 亿
一、产品定位
BitFlow 是一个支持多种计算任务的 AI 病理数据平台,通过分布式架构确保原始数据不出医院的前提下,为医疗机构和制药企业提供高效、安全的数据协作与计算服务。平台支持两大核心场景:
- 联邦模型训练:基于联邦学习的多中心协同病理大模型训练,保护数据隐私
- 制药计算任务:药企的病理分析、药物研发和临床试验支持
BitFlow 平台包含三个核心组件:
- Bitlab:数据准备组件,负责病理数据的采集、转换、标注和质控
- Bitedge:边缘计算组件,负责本地存储、安全计算和任务执行
- BitFlow:中心协调组件,作为任务调度中心,协调和触发边缘节点的计算任务
这三个组件共同构成完整的 BitFlow 平台生态系统。我们专注于提供高质量的模型训练和分析服务,并提供 Bitpath 开源参考实现,供客户开发适合自己部署需求的应用。
二、目标用户
| 用户角色 | 描述 |
|---|---|
| 数据生产方(医院) | 通过 Bitlab 工具采集、转换、标注病理数据并供应到 Bitedge 边缘平台;管理标签和病理标注流程;通过 BitFlow 查看收入和数据使用情况(仅病理科主任) |
| 数据使用方(企业、研究机构) | 创建数据使用任务(如模型训练或分析任务),申请使用特定医院的数据集;上传任务包;查看任务执行进度、结果和账单 |
| 制药公司 | 提交病理分析任务,进行药物研发相关的定量分析;获取符合监管要求的分析报告;管理多站点临床试验数据 |
| 平台运营方(BitFlow 管理员) | 管理所有边缘节点、数据集和任务调度;分发资源与算力;计费与结算管理;合规性监管 |
2.1 关键用户场景
场景一:制药公司新药研发场景
用户背景:全球制药公司在新药研发过程中需要大量病理数据支持,从早期靶点验证到临床试验的疗效评估。
药物研发全生命周期支持:
-
早期发现阶段
- 靶点验证:分析组织病理模式确认药物靶点对疾病的实际影响
- 机制研究:追踪化合物如何在细胞层面改变组织结构
- 毒性筛查:跨剂量范围早期检测器官损伤
-
临床试验阶段
- 患者分层:使用 AI 识别生物标志物,区分应答者与非应答者
- 疗效监测:量化肿瘤缩小、炎症减少、纤维化逆转等指标
- 安全性评估:监测所有器官的意外副作用
关键应用领域:
- 免疫肿瘤学
- 肿瘤浸润淋巴细胞(TILs)计数与分类
- PD-L1 表达水平定量分析
- 肿瘤微环境变化评估
- NASH/肝病
- 纤维化进展量化(F0-F4 分期)
- 脂肪变性和气球样变测量
- 治疗响应时序追踪
- CNS 药物开发
- 神经退行性标志物分析
- 蛋白质聚集体定量(阿尔茨海默症、帕金森病)
- 血脑屏障渗透性评估
平台功能需求:
- 监管合规:21 CFR Part 11 基础设施、完整审计追踪、FDA 提交就绪报告
- 多站点协调:全球试验集中病理审查、标准化评分算法、实时协作
- 定量分析:细胞计数分类、生物标志物表达量化、形态测量、统计对比工具
- 数据集成:病理与临床结果关联、多组学数据整合、现有药企 IT 系统对接
商业价值:
- 单张切片分析:$10-50(根据复杂度)
- 完整试验支持:$100K-1M
- 自定义 AI 模型开发:$500K-2M
场景二:病理大模型训练场景
用户背景:AI 公司、研究机构需要训练高质量的病理诊断大模型,但面临数据获取困难、隐私保护严格等挑战。
核心需求:
- 数据多样性:需要来自不同医院、不同设备、不同病种的海量病理图像
- 标注质量:需要专业病理医生的高质量标注
- 联邦学习:数据不能离开医院,需要通过联邦学习技术进行模型训练
- 模型迭代:支持持续的模型优化和版本管理
使用流程:
- 通过 BitFlow 平台浏览和筛选所需的病理数据集(如特定癌种、特定染色方法)
- 使用 Training Flow 创建联邦学习任务
- 配置训练参数(如 FedAvg 算法、训练轮次、本地 epoch 数)
- 上传基础模型或选择平台提供的预训练模型
- BitFlow 自动协调多个 Bitedge 节点进行分布式训练
- 实时监控训练进度和模型性能指标
- 训练完成后下载模型或通过 API 进行推理测试
价值体现:
- 突破数据孤岛,获得大规模多中心训练数据
- 保护医院数据主权和患者隐私
- 降低模型训练的合规风险
- 提升模型的泛化能力和诊断准确性
三、核心概念定义
3.1 Flow(数据流)
Flow 是 BitFlow 平台的核心抽象概念,代表一个端到端的数据处理和价值创造流程。每个 Flow 定义了数据如何从源头流经各个处理步骤,最终产生业务价值。
- 定义:Flow 是一个有向无环图(DAG),包含多个有序的处理步骤
- 类型:
- Training Flow:模型训练流程(联邦学习或分布式训练)
- Discovery Flow:模式发现流程(药物靶点发现、生物标志物识别)
- Analysis Flow:数据分析流程(定量分析、统计分析、队列研究)
- Validation Flow:模型验证流程(临床验证、性能评估)
- 状态:Draft(草稿)、Running(运行中)、Paused(暂停)、Completed(完成)、Failed(失败)
3.2 Task 与 TaskRun(任务模板与任务执行)
Task(任务)是可复用的任务模板,定义了执行特定计算所需的算法、代码和配置规范。
- 组成:
- 算法代码(Python/R/Julia 等)
- 运行环境定义(Docker 镜像)
- 参数配置模板
- 资源需求声明
- 来源:
- 平台内置任务(常用算法)
- 第三方认证任务(制药公司专有算法)
- 用户自定义任务
- 类型:
- 数据预处理任务
- 模型训练任务(联邦学习本地训练)
- 制药分析任务(细胞计数、标志物定量)
- 数据分析任务
- 模型推理任务
TaskRun(任务运行)是 Task 的具体执行实例,是 Flow 中每个步骤的具体执行单元,由 BitFlow 调度并在 Bitedge 节点上运行。
- 包含信息:
- 使用的 Task 模板
- 运行参数配置
- 执行状态和进度
- 资源分配
- 执行日志
- 输出结果
3.3 Runs(运行实例)
Run 是 Flow 的一次具体执行实例,记录了从开始到结束的完整执行过程。
- 包含信息:
- 执行时间戳
- 使用的数据集
- 参与的边缘节点
- 任务执行日志
- 中间结果和最终输出
- 资源消耗统计
- 费用计算
- 合规性审计记录
3.4 Flow Hubs(流程库)
Flow Hubs 是预构建的 Flow 模板市场,提供经过验证的、可直接使用或定制的流程模板。
- 特点:
- 行业最佳实践模板(FDA 认证流程、GxP 合规流程)
- 社区贡献和评分机制
- 参数化配置支持
- 版本管理
- 使用统计和推荐
四、数据流转架构
4.1 数据生命周期
4.2 任务协调机制
BitFlow 作为中心协调器:
- 任务调度:接收用户请求,分解为具体任务并分发到合适的 Bitedge 节点
- 执行触发:主动触发边缘节点执行计算任务,而非被动等待
- 进度监控:实时监控各节点任务执行状态和进度
- 结果聚合:收集各节点计算结果,执行必要的聚合操作
- 质量控制:验证结果的完整性和正确性
4.3 数据安全保障
-
数据不出院原则
- 原始病理图像始终保存在医院 Bitedge 节点
- 仅传输模型参数、梯度或统计信息
- 支持差分隐私和同态加密
-
访问控制P
- 基于任务的细粒度权限管理
- 数据使用审计追踪
- 合规性自动检查
-
计算可信
- 支持 TEE(可信执行环境)
- 任务包签名验证
- 计算过程可审计
4.4 数据价值流转
-
Bitlab 阶段:原始数据转化为高质量标注数据
- 替代传统扫描阶段,提供完整的数据准备工具链
- 支持多种病理切片格式(KFB、SVS、NDPI 等)
- 医生通过专业工具完成数据采集和标注
- 数据质量通过多重验证确保准确性
-
Bitedge 阶段:本地数据转化为可计算资源
- 安全存储确保数据主权
- 元数据提取支持数据发现
- 本地计算能力支持隐私保护的协同训练和分析
-
BitFlow Core 阶段:分布式数据转化为集中价值
- 作为任务调度中心,主动协调各节点工作
- Flow 编排实现端到端价值创造
- 结果聚合产生可交付成果(模型、报告)
五、平台系统架构图
架构概览补充
-
BitFlow 中心平台
- BitFlow 管理平台:Web 用户界面,提供统一的管理控制台
- API 网关:统一 API 入口,处理认证、路由、限流等
- Flow 编排与任务调度器:核心组件,管理 Flow 工作流,编排多步骤任务,调度边缘节点执行,协调任务间依赖关系
- Artifacts 存储服务:统一存储任务执行结果、模型文件、分析报告等
- 中心计算执行器:执行模型聚合(FedAvg 等)、统计分析、报告生成等中心化计算
- 计费与结算模块:记录资源使用、生成账单、收益分配
- Flow Hub:任务模板管理,提供预构建的 Flow 模板库
- 可观测性模块:收集边缘节点监控数据,提供统一的监控、日志、追踪和可视化服务
- 模型部署服务:提供云端推理 API 和模型导出服务
- 数据集管理:管理跨机构数据集目录、元数据和访问权限
-
Bitlab(数据准备工具)
- 病理数据采集:从医院信息系统、扫描仪等获取原始数据
- 格式转换:支持 KFB、SVS、NDPI、DICOM 等多种格式互转
- WSI 浏览标注工具:提供专业的病理图像浏览和标注功能
- 质量控制:数据质量验证和标注一致性检查
-
Bitedge(边缘存储与计算节点)
- 本地安全存储:加密存储来自 Bitlab 的处理数据,提供数据访问接口
- 边缘任务执行引擎:
- 边缘任务调度器:接收 BitFlow 中心调度指令,管理本地任务队列和执行
- 模型训练任务:支持联邦学习、本地模型训练、梯度计算
- 数据探索任务:数据分析、模式识别、统计计算
- 可观测性收集器:收集任务执行指标、资源使用、日志和追踪数据,上报至 BitFlow
- 结果输出:将 Artifacts(模型参数、分析结果、报告)上传至中心存储
-
模型推理部署(虚线框表示)
- 说明:客户基于训练模型的应用场景示例
- Bitpath:开源参考实现,降低客户应用门槛
六、核心功能模块
6.1 BitFlow - 任务协调中心
-
任务调度与协调
- 主动调度:BitFlow 作为中心大脑,主动分配和触发任务到边缘节点
- 智能路由:根据数据位置、节点能力、网络状况智能选择执行节点
- 负载均衡:动态调整任务分配,优化整体资源利用率
- 故障转移:节点故障时自动重新调度任务
-
Flow 管理与 Flow Hub
- Flow 定义:创建和管理端到端的工作流程
- Flow 类型支持:
- Training Flow:联邦学习模型训练
- Discovery Flow:药物靶点发现、生物标志物识别
- Analysis Flow:临床试验数据分析、队列研究
- Validation Flow:模型临床验证、性能评估
- Flow Hub(任务模板管理):
- 预构建的行业标准流程模板(FDA 合规、GxP 认证)
- 社区贡献的模板库
- 版本管理和更新
- 模板评分和推荐系统
- 可视化监控:实时展示 Flow 执行状态和数据流动
-
数据集管理
- 跨机构数据目录:统一管理多医院数据集元信息
- 访问权限控制:基于角色和任务的细粒度权限
- 数据使用追踪:记录数据访问和使用历史
- 合规性审查:自动检查数据使用合规性
- 数据价值评估:基于使用频率和贡献度的价值计算
-
任务类型协调
- Training Flow 协调
- 管理训练轮次和节点选择
- 分发模型和训练参数
- 收集和聚合更新(支持 FedAvg、FedProx 等算法)
- 模型版本管理
- Discovery Flow 协调
- 调度多站点分析任务
- 协调数据探索流程
- 结果聚合和模式识别
- Analysis Flow 协调
- 管理定量分析任务
- 协调统计计算
- 生成分析报告
- Validation Flow 协调
- 组织验证测试
- 收集性能指标
- 生成合规报告
- Training Flow 协调
6.2 Bitlab - 数据准备平台
-
数据采集与转换
- 支持多种扫描仪格式(Hamamatsu、Leica、Philips、3DHistech、江丰 KFB)
- 批量格式转换(KFB→SVS、NDPI→DICOM 等)
- 图像质量评估和优化
- 元数据提取和管理
-
标注工具
- WSI 全切片浏览器
- 多级缩放和导航
- 专业标注工具(ROI、点标注、轮廓标注)
- 标注版本管理
- 多人协作标注
-
质量控制
- 标注一致性检查
- 专家复核流程
- 数据完整性验证
- 合规性检查
6.3 Bitedge - 边缘执行节点
-
任务执行引擎
-
核心功能
- 接收 BitFlow 调度指令的唯一入口
- 任务生命周期管理(创建、执行、暂停、恢复、终止)
- Task 动态加载和验证
- 执行环境初始化和隔离
- 资源分配和管理
-
Task 执行流程
- 接收任务调度指令和 Task 配置
- 验证 Task 签名和依赖
- 分配资源(GPU/CPU/内存)
- 创建隔离执行环境(容器)
- 加载 Task 并初始化
- 执行任务逻辑
- 收集可观测性数据
- 生成并上传 Artifacts
- 清理资源和环境
-
支持的运行时环境
- Python 环境:支持 PyTorch、TensorFlow、scikit-learn、Pandas 等
- R 环境:统计分析和生物信息学工具
- Julia 环境:高性能科学计算
- 容器化环境:自定义 Docker 镜像
-
资源管理
- GPU 调度:支持多 GPU 分配和共享
- CPU 亲和性设置
- 内存限制和监控
- 存储 I/O 优化
- 网络带宽管理
-
可观测性与监控
- 数据收集器:支持 TensorBoardX、MLflow 集成,收集训练指标和模型版本信息
- 分析任务监控:细胞计数统计、标志物表达量化、形态学测量等
- 可视化方案:Grafana 集成的实时监控仪表板,支持自定义告警
- 性能目标:系统可用性 > 99.9%,任务完成率 > 95%,联邦学习通信开销 < 5%
-
-
数据安全
- 本地加密存储
- 访问控制
- 审计日志
- 数据生命周期管理
6.4 任务(Task)生态
-
内置任务
- 常用深度学习模型(ResNet、EfficientNet、ViT)
- 病理分析算法(细胞检测、组织分类)
- 统计分析工具
-
领域特定任务示例
- 医学研究:肿瘤浸润淋巴细胞(TIL)分析、PD-L1 表达水平评估
- 药物研发:毒性评估、疗效分析、生物标志物识别
- 病理诊断:组织分类、病变检测、分级评分
- 临床试验:患者分层、治疗响应评估、安全性监测
-
自定义任务
- SDK 和开发工具
- 测试和验证框架
- 市场发布流程
- 版本管理
七、关键业务流程
7.1 联邦学习训练流程(BitFlow 主动调度)
7.2 制药公司分析流程(BitFlow 协调执行)
7.3 数据准备流程(Bitlab 工具链)
八、API 架构设计
8.1 API 响应格式
平台采用统一的 ListResponse 泛型模式,确保 API 响应的一致性和可扩展性:
type ListResponse[T any] struct {
Items []T `json:"items"`
Pagination *Pagination `json:"pagination,omitempty"`
}
type Pagination struct {
Page int `json:"page"`
PerPage int `json:"per_page"`
Total int `json:"total"`
TotalPages int `json:"total_pages"`
NextPage *int `json:"next_page,omitempty"`
PrevPage *int `json:"prev_page,omitempty"`
}8.2 核心数据模型
Dataset 结构:
type Dataset struct {
ID string `json:"id"`
Name string `json:"name"`
FullName string `json:"full_name"`
Description string `json:"description"`
Category string `json:"category"`
Status string `json:"status"`
// 嵌套对象设计
Stats *DatasetStats `json:"stats,omitempty"`
Permissions *DatasetPermissions `json:"permissions,omitempty"`
Preview *DatasetPreview `json:"preview,omitempty"`
Metadata map[string]interface{} `json:"metadata,omitempty"`
// 关联信息
Owner *User `json:"owner,omitempty"`
Workspace *Workspace `json:"workspace,omitempty"`
// 时间戳
CreatedAt time.Time `json:"created_at"`
UpdatedAt time.Time `json:"updated_at"`
}Workflow 与 Run 关系:
- Workflow:定义任务模板和配置
- Run:Workflow 的执行实例,包含实际运行状态和结果
- Task:可复用的算法模板
- TaskRun:Task 在特定 Run 中的执行实例
8.3 API 端点设计
遵循 RESTful 设计原则,使用资源为中心的 URL 结构:
# 数据集 API
GET /api/datasets # 列表(返回 ListResponse[Dataset])
GET /api/datasets/:id # 详情
POST /api/datasets # 创建
PUT /api/datasets/:id # 更新
DELETE /api/datasets/:id # 删除
# 工作流 API
GET /api/workflows # 列表(返回 ListResponse[Workflow])
GET /api/workflows/:id # 详情
POST /api/workflows # 创建
PUT /api/workflows/:id # 更新
DELETE /api/workflows/:id # 删除
# 运行实例 API
GET /api/runs # 列表(返回 ListResponse[Run])
GET /api/runs/:id # 详情
POST /api/workflows/:id/runs # 创建新运行
PUT /api/runs/:id # 更新运行状态
GET /api/runs/:id/logs # 获取运行日志
# 任务 API
GET /api/tasks # 列表(返回 ListResponse[Task])
GET /api/tasks/:id # 详情
POST /api/tasks # 创建
PUT /api/tasks/:id # 更新
DELETE /api/tasks/:id # 删除
# 数据中心 API
GET /api/datacenters # 列表(返回 ListResponse[Datacenter])
GET /api/datacenters/:id # 详情
PUT /api/datacenters/:id # 更新状态九、发展路线图
Phase 1:MVP 验证(0-6 个月)
目标:验证核心技术可行性和产品市场契合度
核心交付物:
- 联邦学习基础架构(支持 2-3 个节点)
- 基础工作流编排引擎
- 简单的病理数据标注工具
- 端到端 POC 演示
成功标准:
- 2-3 家试点医院部署
- 1 个付费 POC 客户(制药公司或 AI 企业)
- 验证数据不出院的技术可行性
- ARR ¥1000 万
Phase 2:产品成熟(6-18 个月)
目标:打磨产品功能,建立标杆客户
核心交付物:
- 生产级联邦学习平台(支持 10+ 节点)
- 完整的 Flow Hub 任务模板库
- 企业级安全与合规功能
- 自动化部署和运维工具
成功标准:
- 20+ 医院节点
- 10+ 企业客户(含 2-3 家知名药企)
- 系统可用性 > 99.5%
- ARR ¥3000 万
Phase 3:规模扩张(18-36 个月)
目标:实现商业化规模增长
核心交付物:
- 多云架构支持
- AI 辅助标注和 AutoML
- 完整的合作伙伴生态
- 国际化支持
成功标准:
- 50+ 医院节点
- 30-40 企业客户
- 获得关键合规认证(21 CFR Part 11)
- ARR ¥1 亿
十、关键风险与应对
三大核心风险
1. 监管政策风险 🔴 极高
- 风险:医疗数据监管政策不明确或突然收紧,影响业务模式合法性
- 应对:
- 主动与卫健委、药监局等监管部门沟通
- 参与行业标准制定,影响政策方向
- 建立合规法务团队,实时跟踪政策变化
- 设计灵活架构,可快速适应监管要求
- 优先在政策友好地区试点(如海南、上海)
2. 数据结果上传信任风险 🟡 高
- 风险:医院担心任务结果(模型梯度、统计分析)可能泄露敏感信息,拒绝上传到中心平台
- 应对:
- 明确定义可上传内容白名单(仅聚合统计、模型参数,无患者信息)
- 提供结果审计功能,让医院可检查和批准上传内容
- 实施差分隐私,确保结果无法反推原始数据
- 建立数据使用协议模板,明确责任边界
- 支持医院自主选择结果保留策略(本地存储 vs 中心上传)
- 获取第三方安全认证增强信任
3. 部署成本风险 🟡 高
- 风险:每家医院需独立部署基础设施,无法复用现有资源,成本高、周期长
- 应对:
- 开发轻量级边缘节点(最小化硬件要求)
- 提供一体机解决方案(预装软件、即插即用)
- 支持虚拟化部署,利用医院现有服务器
- 建立远程部署和运维能力,减少现场支持
- 探索与医院 IT 系统集成,复用现有存储和计算资源
其他需关注风险
资金风险
- 保持 12-18 个月现金储备
- 控制烧钱速度,尽早实现正向现金流
人才风险
- 股权激励留住核心团队
- 建立技术梯队,避免单点依赖
竞争风险
- 快速建立数据网络效应
- 专注差异化(数据不出院)
十一、商业模式与定价策略
计费模式
- 联邦学习服务:按训练轮次、数据量、GPU 时间计费
- 制药分析服务:按切片数量、分析复杂度计费($10-50/切片)
- 订阅服务:月度/年度 SaaS 订阅模式
- 数据使用收益分配:医院数据使用收益、医生标注报酬自动结算
现实收入模型(3 年达到 1 亿 ARR)
| 发展阶段 | 客户数量 | 平均客户价值 | ARR | 关键指标 |
|---|---|---|---|---|
| Year 1 | 2-3 | ¥300-500 万 | ¥1000 万 | MVP 验证,标杆客户 |
| Year 2 | 10-15 | ¥200-300 万 | ¥3000 万 | 产品成熟,扩展销售 |
| Year 3 | 30-40 | ¥250-350 万 | ¥1 亿 | 规模化增长 |
客户构成(Year 3):
- 制药巨头 (3-5 家): ¥1000-2000 万/年(临床试验全流程支持)
- 中型药企 (10-15 家): ¥300-500 万/年(特定项目支持)
- AI 公司 (10-15 家): ¥100-300 万/年(联邦学习平台订阅)
- 研究机构 (5-10 家): ¥50-100 万/年(研究项目合作)
关键成功因素:
- 聚焦高价值客户:专注制药公司临床试验需求,单个项目价值高
- 产品差异化:联邦学习确保数据不出院,解决合规痛点
- 逐步扩展:从单点突破(如肿瘤病理)到全病种覆盖
- 生态建设:与 CRO、医院集团建立战略合作