元鹏 BitFlow 总体需求文档

执行摘要

愿景：BitFlow 是一个联邦学习驱动的 AI 病理数据平台，确保原始数据不离开医院的前提下，为制药公司和 AI 企业提供大规模病理数据的训练和分析能力。

核心价值主张：

数据不出院：通过联邦学习技术，原始病理数据始终保留在医院本地
规模化协作：连接多家医院的海量病理数据，打破数据孤岛
合规性保障：满足 21 CFR Part 11、HIPAA、GDPR 等监管要求

三大核心组件：

BitFlow（中心平台）：任务调度、工作流编排、结果聚合
Bitedge（边缘节点）：本地安全存储、分布式计算执行
Bitlab（数据工具）：病理数据采集、格式转换、专业标注

目标客户与场景：

制药公司：临床试验病理分析、药物疗效评估（$10-50/切片）
AI 企业：联邦学习训练病理大模型（订阅模式）
医疗机构：数据资产变现、获得 AI 诊断能力

关键里程碑：

Year 1：MVP 产品，3-5 家试点医院，2-3 个付费客户
Year 2：20+ 医院节点，10+ 企业客户，ARR ¥3000 万
Year 3：50+ 医院节点，30+ 企业客户，ARR ¥1 亿

一、产品定位

BitFlow 是一个支持多种计算任务的 AI 病理数据平台，通过分布式架构确保原始数据不出医院的前提下，为医疗机构和制药企业提供高效、安全的数据协作与计算服务。平台支持两大核心场景：

联邦模型训练：基于联邦学习的多中心协同病理大模型训练，保护数据隐私
制药计算任务：药企的病理分析、药物研发和临床试验支持

BitFlow 平台包含三个核心组件：

Bitlab：数据准备组件，负责病理数据的采集、转换、标注和质控
Bitedge：边缘计算组件，负责本地存储、安全计算和任务执行
BitFlow：中心协调组件，作为任务调度中心，协调和触发边缘节点的计算任务

这三个组件共同构成完整的 BitFlow 平台生态系统。我们专注于提供高质量的模型训练和分析服务，并提供 Bitpath 开源参考实现，供客户开发适合自己部署需求的应用。

二、目标用户

用户角色	描述
数据生产方（医院）	通过 Bitlab 工具采集、转换、标注病理数据并供应到 Bitedge 边缘平台；管理标签和病理标注流程；通过 BitFlow 查看收入和数据使用情况（仅病理科主任）
数据使用方（企业、研究机构）	创建数据使用任务（如模型训练或分析任务），申请使用特定医院的数据集；上传任务包；查看任务执行进度、结果和账单
制药公司	提交病理分析任务，进行药物研发相关的定量分析；获取符合监管要求的分析报告；管理多站点临床试验数据
平台运营方（BitFlow 管理员）	管理所有边缘节点、数据集和任务调度；分发资源与算力；计费与结算管理；合规性监管

2.1 关键用户场景

场景一：制药公司新药研发场景

用户背景：全球制药公司在新药研发过程中需要大量病理数据支持，从早期靶点验证到临床试验的疗效评估。

药物研发全生命周期支持：

早期发现阶段
- 靶点验证：分析组织病理模式确认药物靶点对疾病的实际影响
- 机制研究：追踪化合物如何在细胞层面改变组织结构
- 毒性筛查：跨剂量范围早期检测器官损伤
临床试验阶段
- 患者分层：使用 AI 识别生物标志物，区分应答者与非应答者
- 疗效监测：量化肿瘤缩小、炎症减少、纤维化逆转等指标
- 安全性评估：监测所有器官的意外副作用

关键应用领域：

免疫肿瘤学
- 肿瘤浸润淋巴细胞（TILs）计数与分类
- PD-L1 表达水平定量分析
- 肿瘤微环境变化评估
NASH/肝病
- 纤维化进展量化（F0-F4 分期）
- 脂肪变性和气球样变测量
- 治疗响应时序追踪
CNS 药物开发
- 神经退行性标志物分析
- 蛋白质聚集体定量（阿尔茨海默症、帕金森病）
- 血脑屏障渗透性评估

平台功能需求：

监管合规：21 CFR Part 11 基础设施、完整审计追踪、FDA 提交就绪报告
多站点协调：全球试验集中病理审查、标准化评分算法、实时协作
定量分析：细胞计数分类、生物标志物表达量化、形态测量、统计对比工具
数据集成：病理与临床结果关联、多组学数据整合、现有药企 IT 系统对接

商业价值：

单张切片分析：$10-50（根据复杂度）
完整试验支持：$100K-1M
自定义 AI 模型开发：$500K-2M

场景二：病理大模型训练场景

用户背景：AI 公司、研究机构需要训练高质量的病理诊断大模型，但面临数据获取困难、隐私保护严格等挑战。

核心需求：

数据多样性：需要来自不同医院、不同设备、不同病种的海量病理图像
标注质量：需要专业病理医生的高质量标注
联邦学习：数据不能离开医院，需要通过联邦学习技术进行模型训练
模型迭代：支持持续的模型优化和版本管理

使用流程：

通过 BitFlow 平台浏览和筛选所需的病理数据集（如特定癌种、特定染色方法）
使用 Training Flow 创建联邦学习任务
配置训练参数（如 FedAvg 算法、训练轮次、本地 epoch 数）
上传基础模型或选择平台提供的预训练模型
BitFlow 自动协调多个 Bitedge 节点进行分布式训练
实时监控训练进度和模型性能指标
训练完成后下载模型或通过 API 进行推理测试

价值体现：

突破数据孤岛，获得大规模多中心训练数据
保护医院数据主权和患者隐私
降低模型训练的合规风险
提升模型的泛化能力和诊断准确性

三、核心概念定义

3.1 Flow（数据流）

Flow 是 BitFlow 平台的核心抽象概念，代表一个端到端的数据处理和价值创造流程。每个 Flow 定义了数据如何从源头流经各个处理步骤，最终产生业务价值。

定义：Flow 是一个有向无环图（DAG），包含多个有序的处理步骤
类型：
- Training Flow：模型训练流程（联邦学习或分布式训练）
- Discovery Flow：模式发现流程（药物靶点发现、生物标志物识别）
- Analysis Flow：数据分析流程（定量分析、统计分析、队列研究）
- Validation Flow：模型验证流程（临床验证、性能评估）
状态：Draft（草稿）、Running（运行中）、Paused（暂停）、Completed（完成）、Failed（失败）

3.2 Task 与 TaskRun（任务模板与任务执行）

Task（任务）是可复用的任务模板，定义了执行特定计算所需的算法、代码和配置规范。

组成：
- 算法代码（Python/R/Julia 等）
- 运行环境定义（Docker 镜像）
- 参数配置模板
- 资源需求声明
来源：
- 平台内置任务（常用算法）
- 第三方认证任务（制药公司专有算法）
- 用户自定义任务
类型：
- 数据预处理任务
- 模型训练任务（联邦学习本地训练）
- 制药分析任务（细胞计数、标志物定量）
- 数据分析任务
- 模型推理任务

TaskRun（任务运行）是 Task 的具体执行实例，是 Flow 中每个步骤的具体执行单元，由 BitFlow 调度并在 Bitedge 节点上运行。

包含信息：
- 使用的 Task 模板
- 运行参数配置
- 执行状态和进度
- 资源分配
- 执行日志
- 输出结果

3.3 Runs（运行实例）

Run 是 Flow 的一次具体执行实例，记录了从开始到结束的完整执行过程。

包含信息：
- 执行时间戳
- 使用的数据集
- 参与的边缘节点
- 任务执行日志
- 中间结果和最终输出
- 资源消耗统计
- 费用计算
- 合规性审计记录

3.4 Flow Hubs（流程库）

Flow Hubs 是预构建的 Flow 模板市场，提供经过验证的、可直接使用或定制的流程模板。

特点：
- 行业最佳实践模板（FDA 认证流程、GxP 合规流程）
- 社区贡献和评分机制
- 参数化配置支持
- 版本管理
- 使用统计和推荐

四、数据流转架构

4.1 数据生命周期

4.2 任务协调机制

BitFlow 作为中心协调器：

任务调度：接收用户请求，分解为具体任务并分发到合适的 Bitedge 节点
执行触发：主动触发边缘节点执行计算任务，而非被动等待
进度监控：实时监控各节点任务执行状态和进度
结果聚合：收集各节点计算结果，执行必要的聚合操作
质量控制：验证结果的完整性和正确性

4.3 数据安全保障

数据不出院原则
- 原始病理图像始终保存在医院 Bitedge 节点
- 仅传输模型参数、梯度或统计信息
- 支持差分隐私和同态加密
访问控制P
- 基于任务的细粒度权限管理
- 数据使用审计追踪
- 合规性自动检查
计算可信
- 支持 TEE（可信执行环境）
- 任务包签名验证
- 计算过程可审计

4.4 数据价值流转

Bitlab 阶段：原始数据转化为高质量标注数据
- 替代传统扫描阶段，提供完整的数据准备工具链
- 支持多种病理切片格式（KFB、SVS、NDPI 等）
- 医生通过专业工具完成数据采集和标注
- 数据质量通过多重验证确保准确性
Bitedge 阶段：本地数据转化为可计算资源
- 安全存储确保数据主权
- 元数据提取支持数据发现
- 本地计算能力支持隐私保护的协同训练和分析
BitFlow Core 阶段：分布式数据转化为集中价值
- 作为任务调度中心，主动协调各节点工作
- Flow 编排实现端到端价值创造
- 结果聚合产生可交付成果（模型、报告）

五、平台系统架构图

架构概览补充

BitFlow 中心平台
- BitFlow 管理平台：Web 用户界面，提供统一的管理控制台
- API 网关：统一 API 入口，处理认证、路由、限流等
- Flow 编排与任务调度器：核心组件，管理 Flow 工作流，编排多步骤任务，调度边缘节点执行，协调任务间依赖关系
- Artifacts 存储服务：统一存储任务执行结果、模型文件、分析报告等
- 中心计算执行器：执行模型聚合（FedAvg 等）、统计分析、报告生成等中心化计算
- 计费与结算模块：记录资源使用、生成账单、收益分配
- Flow Hub：任务模板管理，提供预构建的 Flow 模板库
- 可观测性模块：收集边缘节点监控数据，提供统一的监控、日志、追踪和可视化服务
- 模型部署服务：提供云端推理 API 和模型导出服务
- 数据集管理：管理跨机构数据集目录、元数据和访问权限
Bitlab（数据准备工具）
- 病理数据采集：从医院信息系统、扫描仪等获取原始数据
- 格式转换：支持 KFB、SVS、NDPI、DICOM 等多种格式互转
- WSI 浏览标注工具：提供专业的病理图像浏览和标注功能
- 质量控制：数据质量验证和标注一致性检查
Bitedge（边缘存储与计算节点）
- 本地安全存储：加密存储来自 Bitlab 的处理数据，提供数据访问接口
- 边缘任务执行引擎：
  - 边缘任务调度器：接收 BitFlow 中心调度指令，管理本地任务队列和执行
  - 模型训练任务：支持联邦学习、本地模型训练、梯度计算
  - 数据探索任务：数据分析、模式识别、统计计算
- 可观测性收集器：收集任务执行指标、资源使用、日志和追踪数据，上报至 BitFlow
- 结果输出：将 Artifacts（模型参数、分析结果、报告）上传至中心存储
模型推理部署（虚线框表示）
- 说明：客户基于训练模型的应用场景示例
- Bitpath：开源参考实现，降低客户应用门槛

六、核心功能模块

6.1 BitFlow - 任务协调中心

任务调度与协调
- 主动调度：BitFlow 作为中心大脑，主动分配和触发任务到边缘节点
- 智能路由：根据数据位置、节点能力、网络状况智能选择执行节点
- 负载均衡：动态调整任务分配，优化整体资源利用率
- 故障转移：节点故障时自动重新调度任务
Flow 管理与 Flow Hub
- Flow 定义：创建和管理端到端的工作流程
- Flow 类型支持：
  - Training Flow：联邦学习模型训练
  - Discovery Flow：药物靶点发现、生物标志物识别
  - Analysis Flow：临床试验数据分析、队列研究
  - Validation Flow：模型临床验证、性能评估
- Flow Hub（任务模板管理）：
  - 预构建的行业标准流程模板（FDA 合规、GxP 认证）
  - 社区贡献的模板库
  - 版本管理和更新
  - 模板评分和推荐系统
- 可视化监控：实时展示 Flow 执行状态和数据流动
数据集管理
- 跨机构数据目录：统一管理多医院数据集元信息
- 访问权限控制：基于角色和任务的细粒度权限
- 数据使用追踪：记录数据访问和使用历史
- 合规性审查：自动检查数据使用合规性
- 数据价值评估：基于使用频率和贡献度的价值计算
任务类型协调
- Training Flow 协调
  - 管理训练轮次和节点选择
  - 分发模型和训练参数
  - 收集和聚合更新（支持 FedAvg、FedProx 等算法）
  - 模型版本管理
- Discovery Flow 协调
  - 调度多站点分析任务
  - 协调数据探索流程
  - 结果聚合和模式识别
- Analysis Flow 协调
  - 管理定量分析任务
  - 协调统计计算
  - 生成分析报告
- Validation Flow 协调
  - 组织验证测试
  - 收集性能指标
  - 生成合规报告

6.2 Bitlab - 数据准备平台

数据采集与转换
- 支持多种扫描仪格式（Hamamatsu、Leica、Philips、3DHistech、江丰 KFB）
- 批量格式转换（KFB→SVS、NDPI→DICOM 等）
- 图像质量评估和优化
- 元数据提取和管理
标注工具
- WSI 全切片浏览器
- 多级缩放和导航
- 专业标注工具（ROI、点标注、轮廓标注）
- 标注版本管理
- 多人协作标注
质量控制
- 标注一致性检查
- 专家复核流程
- 数据完整性验证
- 合规性检查

6.3 Bitedge - 边缘执行节点

任务执行引擎
- 核心功能
  - 接收 BitFlow 调度指令的唯一入口
  - 任务生命周期管理（创建、执行、暂停、恢复、终止）
  - Task 动态加载和验证
  - 执行环境初始化和隔离
  - 资源分配和管理
- Task 执行流程
  1. 接收任务调度指令和 Task 配置
  2. 验证 Task 签名和依赖
  3. 分配资源（GPU/CPU/内存）
  4. 创建隔离执行环境（容器）
  5. 加载 Task 并初始化
  6. 执行任务逻辑
  7. 收集可观测性数据
  8. 生成并上传 Artifacts
  9. 清理资源和环境
- 支持的运行时环境
  - Python 环境：支持 PyTorch、TensorFlow、scikit-learn、Pandas 等
  - R 环境：统计分析和生物信息学工具
  - Julia 环境：高性能科学计算
  - 容器化环境：自定义 Docker 镜像
- 资源管理
  - GPU 调度：支持多 GPU 分配和共享
  - CPU 亲和性设置
  - 内存限制和监控
  - 存储 I/O 优化
  - 网络带宽管理
- 可观测性与监控
  - 数据收集器：支持 TensorBoardX、MLflow 集成，收集训练指标和模型版本信息
  - 分析任务监控：细胞计数统计、标志物表达量化、形态学测量等
  - 可视化方案：Grafana 集成的实时监控仪表板，支持自定义告警
  - 性能目标：系统可用性 > 99.9%，任务完成率 > 95%，联邦学习通信开销 < 5%
数据安全
- 本地加密存储
- 访问控制
- 审计日志
- 数据生命周期管理

6.4 任务（Task）生态

内置任务
- 常用深度学习模型（ResNet、EfficientNet、ViT）
- 病理分析算法（细胞检测、组织分类）
- 统计分析工具
领域特定任务示例
- 医学研究：肿瘤浸润淋巴细胞（TIL）分析、PD-L1 表达水平评估
- 药物研发：毒性评估、疗效分析、生物标志物识别
- 病理诊断：组织分类、病变检测、分级评分
- 临床试验：患者分层、治疗响应评估、安全性监测
自定义任务
- SDK 和开发工具
- 测试和验证框架
- 市场发布流程
- 版本管理

七、关键业务流程

7.1 联邦学习训练流程（BitFlow 主动调度）

7.2 制药公司分析流程（BitFlow 协调执行）

7.3 数据准备流程（Bitlab 工具链）

八、API 架构设计

8.1 API 响应格式

平台采用统一的 ListResponse 泛型模式，确保 API 响应的一致性和可扩展性：


type ListResponse[T any] struct {
    Items      []T        `json:"items"`
    Pagination *Pagination `json:"pagination,omitempty"`
}
 
type Pagination struct {
    Page       int    `json:"page"`
    PerPage    int    `json:"per_page"`
    Total      int    `json:"total"`
    TotalPages int    `json:"total_pages"`
    NextPage   *int   `json:"next_page,omitempty"`
    PrevPage   *int   `json:"prev_page,omitempty"`
}

8.2 核心数据模型

Dataset 结构：


type Dataset struct {
    ID          string            `json:"id"`
    Name        string            `json:"name"`
    FullName    string            `json:"full_name"`
    Description string            `json:"description"`
    Category    string            `json:"category"`
    Status      string            `json:"status"`
 
    // 嵌套对象设计
    Stats       *DatasetStats     `json:"stats,omitempty"`
    Permissions *DatasetPermissions `json:"permissions,omitempty"`
    Preview     *DatasetPreview   `json:"preview,omitempty"`
    Metadata    map[string]interface{} `json:"metadata,omitempty"`
 
    // 关联信息
    Owner       *User             `json:"owner,omitempty"`
    Workspace   *Workspace        `json:"workspace,omitempty"`
 
    // 时间戳
    CreatedAt   time.Time         `json:"created_at"`
    UpdatedAt   time.Time         `json:"updated_at"`
}

Workflow 与 Run 关系：

Workflow：定义任务模板和配置
Run：Workflow 的执行实例，包含实际运行状态和结果
Task：可复用的算法模板
TaskRun：Task 在特定 Run 中的执行实例

8.3 API 端点设计

遵循 RESTful 设计原则，使用资源为中心的 URL 结构：


# 数据集 API
GET    /api/datasets                 # 列表（返回 ListResponse[Dataset]）
GET    /api/datasets/:id             # 详情
POST   /api/datasets                 # 创建
PUT    /api/datasets/:id             # 更新
DELETE /api/datasets/:id             # 删除

# 工作流 API
GET    /api/workflows                # 列表（返回 ListResponse[Workflow]）
GET    /api/workflows/:id            # 详情
POST   /api/workflows                # 创建
PUT    /api/workflows/:id            # 更新
DELETE /api/workflows/:id            # 删除

# 运行实例 API
GET    /api/runs                     # 列表（返回 ListResponse[Run]）
GET    /api/runs/:id                 # 详情
POST   /api/workflows/:id/runs       # 创建新运行
PUT    /api/runs/:id                 # 更新运行状态
GET    /api/runs/:id/logs            # 获取运行日志

# 任务 API
GET    /api/tasks                    # 列表（返回 ListResponse[Task]）
GET    /api/tasks/:id                # 详情
POST   /api/tasks                    # 创建
PUT    /api/tasks/:id                # 更新
DELETE /api/tasks/:id                # 删除

# 数据中心 API
GET    /api/datacenters              # 列表（返回 ListResponse[Datacenter]）
GET    /api/datacenters/:id          # 详情
PUT    /api/datacenters/:id          # 更新状态

九、发展路线图

Phase 1：MVP 验证（0-6 个月）

目标：验证核心技术可行性和产品市场契合度

核心交付物：

联邦学习基础架构（支持 2-3 个节点）
基础工作流编排引擎
简单的病理数据标注工具
端到端 POC 演示

成功标准：

2-3 家试点医院部署
1 个付费 POC 客户（制药公司或 AI 企业）
验证数据不出院的技术可行性
ARR ¥1000 万

Phase 2：产品成熟（6-18 个月）

目标：打磨产品功能，建立标杆客户

核心交付物：

生产级联邦学习平台（支持 10+ 节点）
完整的 Flow Hub 任务模板库
企业级安全与合规功能
自动化部署和运维工具

成功标准：

20+ 医院节点
10+ 企业客户（含 2-3 家知名药企）
系统可用性 > 99.5%
ARR ¥3000 万

Phase 3：规模扩张（18-36 个月）

目标：实现商业化规模增长

核心交付物：

多云架构支持
AI 辅助标注和 AutoML
完整的合作伙伴生态
国际化支持

成功标准：

50+ 医院节点
30-40 企业客户
获得关键合规认证（21 CFR Part 11）
ARR ¥1 亿

十、关键风险与应对

三大核心风险

1. 监管政策风险 🔴 极高

风险：医疗数据监管政策不明确或突然收紧，影响业务模式合法性
应对：
- 主动与卫健委、药监局等监管部门沟通
- 参与行业标准制定，影响政策方向
- 建立合规法务团队，实时跟踪政策变化
- 设计灵活架构，可快速适应监管要求
- 优先在政策友好地区试点（如海南、上海）

2. 数据结果上传信任风险 🟡 高

风险：医院担心任务结果（模型梯度、统计分析）可能泄露敏感信息，拒绝上传到中心平台
应对：
- 明确定义可上传内容白名单（仅聚合统计、模型参数，无患者信息）
- 提供结果审计功能，让医院可检查和批准上传内容
- 实施差分隐私，确保结果无法反推原始数据
- 建立数据使用协议模板，明确责任边界
- 支持医院自主选择结果保留策略（本地存储 vs 中心上传）
- 获取第三方安全认证增强信任

3. 部署成本风险 🟡 高

风险：每家医院需独立部署基础设施，无法复用现有资源，成本高、周期长
应对：
- 开发轻量级边缘节点（最小化硬件要求）
- 提供一体机解决方案（预装软件、即插即用）
- 支持虚拟化部署，利用医院现有服务器
- 建立远程部署和运维能力，减少现场支持
- 探索与医院 IT 系统集成，复用现有存储和计算资源

其他需关注风险

资金风险

保持 12-18 个月现金储备
控制烧钱速度，尽早实现正向现金流

人才风险

股权激励留住核心团队
建立技术梯队，避免单点依赖

竞争风险

快速建立数据网络效应
专注差异化（数据不出院）

十一、商业模式与定价策略

计费模式

联邦学习服务：按训练轮次、数据量、GPU 时间计费
制药分析服务：按切片数量、分析复杂度计费（$10-50/切片）
订阅服务：月度/年度 SaaS 订阅模式
数据使用收益分配：医院数据使用收益、医生标注报酬自动结算

现实收入模型（3 年达到 1 亿 ARR）

发展阶段	客户数量	平均客户价值	ARR	关键指标
Year 1	2-3	¥300-500 万	¥1000 万	MVP 验证，标杆客户
Year 2	10-15	¥200-300 万	¥3000 万	产品成熟，扩展销售
Year 3	30-40	¥250-350 万	¥1 亿	规模化增长

客户构成（Year 3）：

制药巨头 (3-5 家): ¥1000-2000 万/年（临床试验全流程支持）
中型药企 (10-15 家): ¥300-500 万/年（特定项目支持）
AI 公司 (10-15 家): ¥100-300 万/年（联邦学习平台订阅）
研究机构 (5-10 家): ¥50-100 万/年（研究项目合作）

关键成功因素：

聚焦高价值客户：专注制药公司临床试验需求，单个项目价值高
产品差异化：联邦学习确保数据不出院，解决合规痛点
逐步扩展：从单点突破（如肿瘤病理）到全病种覆盖
生态建设：与 CRO、医院集团建立战略合作