可下载或通过爬虫获取疾病相关数据的网站及平台,涵盖临床数据、基因关联、药品信息等方向,并附注数据特点与获取方式:(不公开)

发布于:2025-07-17 ⋅ 阅读:(19) ⋅ 点赞:(0)

一、综合性疾病数据库

  1. MalaCards

    • 数据内容:集成21,787种疾病的症状、基因、药物、临床试验等信息,支持罕见病和复杂疾病查询 。
    • 获取方式
      • 直接访问官网 https://www.malacards.org 手动下载;
      • 通过Python爬虫解析本地保存的HTML页面(需点击“Show All”获取完整数据) 。
    • 注意:需处理反爬机制,建议下载本地页面后解析。
  2. GeneCards Suite

    • 关联数据库:包含GeneCards(基因功能)、MalaCards(疾病)、PathCards(调控网络)等,提供疾病与基因的关联分析 。
    • 适用场景:研究疾病遗传机制或药物靶点。

二、医学影像与临床数据集

  1. 医学影像数据集集锦(GitHub)

    • 数据内容:收录80+个公开医学影像数据集,涵盖肝脏、肺部等器官的CT/MRI数据,标注类型包括分割、分类等。
    • 获取方式
      • 通过GitHub项目 linhandev/dataset 查看列表;
      • 部分数据集提供Aistudio不限速下载链接(如LiTS、Sliver07)。
  2. 国家人口健康科学数据中心

    • 数据内容:汇交人口健康领域的科学数据,包括疾病调查、临床记录等 。
    • 获取方式:需通过官网 https://www.ncmi.cn 提交数据汇交申请或查询公开数据集。

三、药品与疾病关联数据

  1. 丁香园医疗数据开放平台

    • 数据内容:提供药品说明书、疾病科普、医院信息等结构化数据,覆盖210万+医生用户画像 。
    • 适用场景:药品研发或医保核赔等商业分析。
    • 接口服务:支持通过API获取数据(需注册开发者账号) 。
  2. 无码科技药品数据库

    • 数据内容:收录17万+药品详细信息,包括适应症、禁忌、药理毒理等。
    • 获取方式:通过API查询(如“盐酸二甲双胍片”的完整说明书)。

四、健康医疗大数据平台

  1. 浪潮健康医疗大数据平台(HDSP 2.0)

    • 数据内容:整合区域医疗数据,支持疾病分布、资源分配等分析,适用于公共卫生研究。
    • 获取限制:需与平台合作(如政府或医疗机构)申请数据权限。
  2. 北京大学健康医疗大数据平台

    • 数据内容:包含多源异构临床数据(如NCIS医疗质量数据),支持高性能计算分析 。
    • 适用场景:学术研究需通过伦理审查并申请访问 。

五、其他工具与注意事项

  • 爬虫技术建议
    • 针对反爬网站(如GeneCards),可优先下载本地页面再解析 ;
    • 使用Python库(如BeautifulSoup)提取HTML中的表格数据 。
  • 合规性
    • 遵循《人类遗传资源管理条例》等法规,避免敏感数据滥用 ;
    • 商业用途需获得平台授权(如丁香园API) 。

 


网站公告

今日签到

点亮在社区的每一天
去签到