作为我国第二大死因的慢性非传染性疾病,癌症(恶性肿瘤)对国民健康造成了严重威胁。据世界卫生组织下属的国际癌症研究机构估计,2022年,我国癌症新发和死亡病例数分别为482万和257万,各占全球的24.2%和26.4%(1)。另据国家癌症中心估算,2019 – 2021年,我国癌症患者总体5年相对生存率为43.7%,多数常见瘤种生存率仍远低于西方国家(2)。
全面、精准、实时的“发病、死亡、现患、生存”多维度癌症负担监测,能够直观呈现区域内各瘤种的流行特征与发展趋势,为揭示癌症病因、评估癌症预防与诊疗成效、配置医疗卫生资源、制定癌症防控规划提供重要科学依据。同时,也有助于大众增强自身防癌意识,积极改善生活方式,进而从整体上降低人群癌症的发病与死亡风险,减轻人群癌症负担,提高癌症患者生存率与生活质量。
癌症负担监测工作主要依托肿瘤登记系统开展。肿瘤登记指的是对癌症发生及相关特征的数据进行持续、系统收集的过程,涵盖了针对癌症流行状况、流行趋势和影响因素的长期动态连续性监测。基于人群的肿瘤登记被国际公认为报告癌症负担数据的金标准方法(3)。
随着信息化进程的不断推进,我国癌症防控已进入从“扩大覆盖”向“精准高效”转型的新阶段。然而,现行以人工登记和报告为核心的癌症监测体系,在数据完整性、实时性、多维度监测能力等方面已逐渐难以满足癌症防控决策需求。基于多源大数据,采用信息化、智能化技术,实现癌症监测工作模式降本增效,从而为癌症防治决策提供高质量基础数据和循证医学证据已成为大势所趋。
一、我国癌症监测现状
我国的癌症监测工作起始于上世纪50年代。时至70年代,全国肿瘤防治研究办公室组织开展了全国首次死因调查,并发表了癌症死亡地图集,为后续在癌症高发区建立研究现场并开展一系列防治工作奠定了基础。
本世纪初,我国陆续启动了农村癌症早诊早治项目、淮河流域癌症早诊早治项目、农村妇女“两癌”检查项目以及城市癌症早诊早治项目等系统性的国家级癌症防治工作。这些项目的项目点与癌种选择,以及筛查方案的制定,均与肿瘤登记部门提供的监测数据紧密相关。
随着全国肿瘤登记中心的成立、肿瘤登记工作被列入中央补助地方转移支付项目,以及《中国癌症预防与控制规划纲要(2004—2010)》、《肿瘤登记管理办法》等相关文件的发布,我国肿瘤登记工作得以快速发展。
过去六十年来,肿瘤登记体系的建设与发展让我国癌症监测工作从无到有、从小到大,为了解癌症负担与趋势、评价癌症防控绩效、科学配置医疗卫生资源、开展癌症相关科学研究等工作作出了突出贡献。
二、我国现行肿瘤登记体系的瓶颈和挑战
随着我国癌症防控进入精细化、数字化和动态决策阶段,现行以定点医疗机构上报和人工登记上报为核心的传统监测模式,也逐渐暴露出结构性瓶颈。当前,我国癌症监测体系在数据质量、全国代表性、多维度监测能力、报告时效性以及跨部门数据协同等方面,已难以满足现代癌症防控需求。具体而言,
1、登记点地区差异大,数据质量参差不齐
我国肿瘤登记点的数据质量在不同地区间存在显著差异。目前,我国仅有157个登记点的数据达到国际标准(质量评估标准主要包括如下方面:①可比性:疾病编码与分类、新发病例定义是否遵循国际标准与指南;②完整性:是否纳入登记覆盖人群所有确诊病例;③有效性/准确性:被记录为具有某特征的病例中真正拥有该特征的比例),并被收录于国际癌症研究机构最新出版的《五大洲癌症发病率》中,覆盖我国总人口比例仅为13% (4)。
在我国西部地区及其他经济欠发达地区,由于资源相对匮乏、登记人员能力有限且流动性较大等因素,肿瘤登记工作的质量控制难度较大,登记数据的整体质量与国际要求相比仍存在明显差距。
2、高质量数据代表性与监测维度不足
近年来,我国肿瘤登记点的数量显著增加,在数据层面实现了较高的覆盖度(5)。然而,最新统计数据所纳入的登记点仍仅覆盖我国总人口的37% (5),基于肿瘤登记估算得出的我国癌症发病率与死亡率水平,在全国范围内的代表性仍有巨大的提升空间。
除常规报告的发病率、死亡率外,人群水平的癌症现患率与癌症患者的生存率也是癌症监测领域中的两个重要维度。现患率衡量的是在特定时点全体人群中癌症患者的现存情况,反映癌症的人群总体负担。生存率反映的是癌症患者诊疗后预后转归的平均水平,提示疾病本身致死能力的同时亦体现其防控与临床诊疗效果。常态化的癌症现患与生存监测能够为癌症防控相关政策的精准制定、医疗资源的科学配置以及肿瘤防治计划的实施效果评价提供重要依据。而现患率与生存率的准确估计需要针对特定人群开展长期的高质量纵向随访,这使得在现有模式下开展包含发病、死亡、现患、生存的多维度综合监测难度很大。因此,目前我国癌症现患与生存数据仍主要以专项科研项目的形式点状开展,全国范围内尚未形成癌症患病与生存的常规报告工作模式,这在很大程度上降低了相关数据为国家层面癌症疾病负担监控与防-诊-治效果评估提供科学依据的整体效能。
3、数据收集上报工作量大,报告时效性不足
我国肿瘤登记系统以“区域内定点医疗机构作为监测哨点,通过登记人员对癌症病例的病案数据进行人工采集、摘录数据并登记上报”的传统模式开展。相关工作人员需对其所在医疗机构新发癌症诊断数据进行识别、汇总,并按照相关要求录入系统并上报。数据获取、判读、治理、归档工作量大,工作链条长。更重要的是,对于监测定点医院网络未能充分覆盖常住居民的地区而言,在登记网络外医疗机构首诊的癌症病例则难以被现有登记系统获取。因此,部分肿瘤登记部门还会对接死因监测数据库,通过获取癌症死亡患者信息补充癌症发病登记的漏登病例。
总体上,这一肿瘤登记工作模式在病例数据收集与核实方面工作量大、环节多、操作难度高,各登记点医疗机构需设置专门岗位和人员,并投入大量资源以确保病例上报工作正常开展,使得我国目前的肿瘤登记报告有5年甚至更长时间的滞后。在癌症防治工作飞速发展,癌症防治和临床诊疗技术突飞猛进的今天,监测数据时效性不足直接限制了相关工作的高质、高效开展。
4、多部门协调与合作机制缺乏
尽管《肿瘤登记管理办法》已对医疗机构报告癌症病例作出明确要求,但仍存在不同程度的病例信息欠详实、新发病例漏登等问题。鉴于此,肿瘤登记系统往往需要其他数据来源进行补充,尤其是医疗保障部门的癌症患者医保报销数据。同时,如要开展高质量的癌症现患和生存等更多维度数据的监测报告,疾控系统所辖的死因监测系统数据可作为癌症患者结局事件的理想数据来源。
然而,当前肿瘤登记、医疗机构、医疗保障和疾控体系等相关部门之间缺乏有效的协调与合作机制,多来源数据的权益分配、共享对接与分析报告均面临挑战,阻碍了我国癌症负担监测工作的高质量发展。
三、国际癌症监测与医保等相关数据使用概况
目前,北美和西欧多数国家已建立较为成熟的肿瘤登记体系。根据国际癌症研究机构和国际肿瘤登记协会的报告,北美、西欧地区的大部分国家(如奥地利、比利时、芬兰、爱尔兰等(6))目前已实现肿瘤登记的全民覆盖。
以美国为例,其肿瘤登记工作在全球范围内颇具影响力(美国各州通过法律强制要求报告新发癌症病例)。美国癌症负担监测数据主要源自美国国家癌症研究所的“监测、流行病学和最终结果”(Surveillance, Epidemiology, and End Results Program,SEER)项目以及美国疾病控制与预防中心的“国家肿瘤登记”(National Program of Cancer Registries,NPCR)项目,近年来已覆盖全国近100%的人口。癌症病例信息的收集来源广泛,包括医院、诊所、放射科、实验室以及其他诊断或治疗癌症患者的服务提供方。肿瘤登记员在负责收集癌症病例数据的同时,还与医生及其他医疗专业人员保持密切联系与合作,以确保数据准确并符合报告标准。北美中央肿瘤登记中心协会按照统一标准对SEER与NPCR登记数据进行处理。基于多部门合作,美国癌症协会、美国疾病控制与预防中心、北美中央肿瘤登记中心协会和美国国家癌症研究所每年会联合发布全国癌症负担监测数据的年度报告,一般有2~4年滞后。
近二十年,多个国家陆续探索将医保系统的报销索赔数据应用于新发癌症病例的识别与统计,揭示该方法具备高效、低成本等关键优势(可大幅节省用于追踪、获取癌症发病信息的资源投入),联合运用医保系统报销数据能够有效提升肿瘤登记数据的准确性(7-13)。
在此基础上,部分研究者进一步探索将报销数据独立应用于癌症发病监测工作(14-18)。例如,Krensel (15)等基于覆盖德国参保人员8.3%的DAK – G医保索赔数据,通过40%随机抽样,估算了德国2012年皮肤黑色素瘤和非黑色素瘤皮肤癌总体及各分期的患病率与发病率,其结果与肿瘤登记处报告的统计数据相近。
Diop (16)等利用加拿大魁北克省公共医疗保险数据库对省内结直肠癌新发病例进行识别与统计。由于该系统对目标人群的覆盖度高(参保率高达96%),该研究估算的2001 – 2009年魁北克结直肠癌发病率时间趋势与肿瘤登记模式报告的时间趋势一致,且各亚型构成情况与肿瘤登记数据相近。不仅如此,该研究还发现该数据库能够有效补充肿瘤登记遗漏的病例(尤其是年轻群体和社会经济地位较高群体中的新发病例)。
四、我国基于医保、死因监测等多来源大数据开展癌症负担监测的探索与实践
近年来,随着我国医保行政和管理体系的不断整合、基本医疗保险覆盖率持续提升、医保信息化体系不断完善,基于医保大数据开展癌症动态监测,已具备现实基础。其中,医保报销数据以其“即时结算、自动生成、严格审核、全癌种覆盖”的特性,在癌症发病监测领域具有独特的应用潜力和价值。
与此同时,死因监测体系的持续完善,也为癌症患者生存结局与现患监测提供了重要支撑。我国死因监测工作始于20世纪50年代,先后建立了生命登记系统(卫生部管理)与疾病监测点系统(DSPs,国家疾病预防控制中心管理)。2013年,国家卫生健康委员会牵头对生命登记系统与DSPs进行整合,抽样建立了具有省级代表性的新死因监测系统,包含605个县(区),占全国总人口的24%(19)。近年来,我国死因监测制度日益健全,死因监测覆盖范围持续扩大,目前全国31个省(自治区、直辖市)已实现死因报告全覆盖(20)。
针对我国传统肿瘤登记模式的重大发展瓶颈,基于前期对医保数据识别癌症病例准确性的评估(21,22),我国有关研究团队已探索构建了基于医保、死因监测等多来源大数据的癌症“发病-现患-生存”监测新模式,为我国癌症负担全方位动态监测工作体系的建立和完善提供了高等级实证依据。
1、率先建立基于医保大数据的癌症发病监测新模式
研究团队利用我国南、北方两个未被国家肿瘤登记覆盖的地区(合计在籍人口约700万人)2012-2019年的医保报销全数据,针对“癌症新发病例识别”构建了一整套数据脱敏、清洗、质控、判定、分析、报告的流程标准,通过建立MIS-CASS(Medical-Insurance-System-based Cancer Surveillance System)模式首次对两地2014-2018年癌症发病专率、发病顺位及主要癌种时间变化趋势进行了报告,同时在圈定特定癌种高发区、探索癌症潜在病因、评价公共卫生服务干预效果等方面提供了数据支持(23)。经评估,MIS-CASS模式在癌症发病监测方面具有区域内全人群覆盖、数据质量高、报告延迟短(6个月)、运维成本低等优点。
进一步,该团队选取了我国高质量肿瘤登记点之一——北京市,开展MIS-CASS模式与传统肿瘤登记的“头对头”比较性研究。该研究首次证明MIS-CASS模式在“癌症诊断机构”与“目标人群”覆盖全面性等方面相较于当前依靠登记系统涵盖的部分医疗机构上报的传统模式明显更具优势。尤其对于人口异质性较强且户籍管控严格的区域而言(如北京等),MIS-CASS模式可更全面反映当地癌症相关医疗资源的实际消耗水平与疾病负担(24)。这为MIS-CASS模式在癌症发病监测方面的完整性、准确性与时效性提供了直接证据。
2、整合医保与死因监测大数据,建立癌症“现患-生存”多维度监测
研究团队进一步针对现患和生存监测难题,基于医保数据,对我国北方某癌症高发区(总人口约140万)2014 – 2018年的癌症新发病例进行识别,并在此基础上,依据唯一身份识别编码,与该区域“死因监测系统”进行个体化对接,获取全域人群全因死亡事件数据。
该团队针对医保数据、死因监测数据,建立涵盖数据清洗、对接、质控、分析和报告的标准化流程,首次公布了项目地区主要癌种最新的人群现患率以及癌症患者生存率。这为明确癌症患病负担和患者预后、评估临床诊疗效果、优化癌症防治策略、合理配置医疗卫生资源提供了重要依据。
综合前述工作,该团队整体提出了基于多来源大数据的癌症“发病 – 现患 – 生存”多维度监测的新模式(25)。
五、建立基于多源大数据的癌症综合负担监测新模式的建议
随着大数据与人工智能时代的到来,整合利用多来源健康相关大数据、深度应用人工智能等信息化技术是癌症监测工作体系改革和发展的重要方向(26)。
其中,医保数据在癌症监测方面优势尤为突出:第一,居民参保率高,且医保定点医院分布广泛,确保监测人群全覆盖;第二,疾病诊断、报销明细等核心信息均由经过培训的医疗机构专业人员填写并经严格事前、事后审核,对于癌症监测而言属无利益相关第三方数据,确保了数据质量;第三,医保报销实时结算,时间延迟短,有效确保监测数据时效性;第四,报销记录自动生成并存储,不依赖人工采集,数据生成近乎“零成本”。
国家医疗保障局于2025年9月发布《关于开展真实世界医保综合价值评价试点工作的通知》,并于2026年1月发布《药品真实世界医保综合价值评价系列指南(试行)》,在国家层面推动了医保数据向医学相关领域的开放与应用。
以此为契机,针对我国肿瘤登记的发展瓶颈,并基于相关工作的前沿探索与实证评估(21-25),本文提出“关于建立基于多源大数据的癌症综合负担监测新模式的建议”如下。
1、设立跨部门联合工作机制,建立数据共享规范与标准
建议由国家卫生健康委牵头,联合国家医疗保障局、国家疾病预防控制局、国家统计局、国家疾病预防控制中心等各层级有关部门组建“中国健康相关大数据共享联合工作机制”,建章立制,出台各归口所辖健康相关数据共享、对接和开发规范,包括但不限于各方数据确权、数据共享流程、数据隐私保护、数据接口格式、传输协议与成果分配原则等核心内容,为癌症动态监测体系建设提供制度基础。
2、引入人工智能与大数据处理算法,建立并优化癌症负担监测报告技术流程
基于自然语言处理、大语言模型等人工智能算法不断优化源数据质控、对接、漏报识别与补录机制流程,提高报告质量与效率,如:对源数据进行逻辑与内容质控,确保源数据准确度;对整合后的数据进行智能判读,包括自动识别医保报销记录中可疑但未报告的癌症新发病例(基于病理诊断关键字段、多次放化疗记录等信息)、自动识别可能因死因记录不准确而漏报的癌症死亡病例等。整体建立数据质控、漏报病例的补录与纠错、数据分析与报告等各环节规范技术流程,提升数据采集、治理、分析、报告的效率与准确性。
3、开展真实世界评价研究,试行基于多源大数据的癌症负担监测新模式
选取3-5个已被当前肿瘤登记体系覆盖的省、市、区/县区域,由卫健主管部门牵头,会同地方医保局、疾控中心等机构共同签署数据共享与合作协议,实现各试点地区的肿瘤登记、医保报销、死因监测等各来源数据的个体水平对接。基于已建立的规范技术流程,依托各大数据源,报告试点地区“癌症发病率-死亡率-现患率-生存率”四项癌症负担监测核心指标,并与现有传统肿瘤登记数据进行可行性、一致性、经济性等全面比较性评估,为后续国家层面推广提供依据。
4、深入整合更多来源健康相关数据,建设全国统一的癌症多维度动态监测平台
在试点基础上,全面整合国家体系医保数据、门诊诊疗数据、病案首页数据、死因监测数据、专病队列数据,形成国家层面的“癌症多源大数据池”。并以此为基础,建设全国统一的癌症多维度动态监测平台。平台应具备以下功能:实时更新新发癌症病例与死亡信息;自动计算全国、省、市三级癌症监测指标,生成可视化报告;支持按癌种、年龄、性别、地区等维度的动态查询与索引。
制定覆盖“准确性、完整性、时效性、经济性”的量化质评标准。定期对各省、市、地区基于多源健康相关大数据的癌症负担监测工作进行全面评估与反馈,形成新模式持续改进与优化闭环。
六、结语
在全民医保、高频医疗数据实时生成以及人工智能技术快速发展的背景下,传统依赖人工采集和定期汇总的肿瘤登记模式,已逐渐难以适应现代公共卫生治理对于实时性、精准性、全面性动态监测能力的要求。
构建基于多来源大数据的癌症负担多维度监测新模式,是对现有癌症监测体系的重大革新与赋能。其核心要点在于借助数据共享与技术创新,将医保、死因监测等多源信息进行有机整合,达成从人工主动采集上报到自动整合识别的根本性变革。
这一新模式能够有效增强监测数据的时效性与维度完整性,为及时把握癌症流行趋势、精准评估癌症防治效果、合理配置癌症防治及诊疗资源提供关键的科学依据。通过多方协作、分步推进,有望实现我国癌症监测体系的进一步完善以及监测模式的突破性创新,最终成为减轻癌症负担、建设健康中国的重要新质生产力。