1、 从农田到餐桌:食品安全大数据挖掘与分析背景场景展望C目录ontents背景场景展望C目录ontents生活方式医疗遗传环境食物安全与营养调控人体健康是世界各国共同选择依靠医疗解决不了公众健康问题,通过食物与营养方式调控人体健康是世界各国的共同选择。WTO结论60%17%15%8%食品安全与营养调控是实现健康中国的重要路径“要倡导健康文明的生活方式,树立大卫生、大健康的观念,把以治病为中心转变为以人民健康为中心,建立健全健康教育体系,提升全民健康素养,推动全民健身和全民健康深度融合。”“要贯彻食品安全法,完善食品安全体系,加强食品安全监管,严把从农田到餐桌的每一道防线。”习近平总书记食安事件频
2、发:严重的社会问题山西朔州假酒案山西朔州假酒案毒胶囊事件毒胶囊事件上海福喜事件上海福喜事件地沟油事件地沟油事件三鹿奶粉事件三鹿奶粉事件阜阳劣质奶粉阜阳劣质奶粉金华火腿敌敌畏金华火腿敌敌畏福建瘦肉精案福建瘦肉精案酒鬼酒塑化剂事件酒鬼酒塑化剂事件瘦肉精中毒瘦肉精中毒平均平均 62.3 起起/天天食源性疾病:食源性疾病:2 亿亿人次人次/年年 健健康康损损 害害 心理恐慌心理恐慌政府公信力政府公信力 秩序混乱秩序混乱 国家形象国家形象 产业损失产业损失 文文 化化 冲冲 突突 社会不稳社会不稳 国际关系国际关系 经济负担经济负担29.6 万婴幼儿患病70%公众失去信任66 家企业停产11 亿元赔付基
3、金7频发的食安事件:危及国计民生肥料肥料生产生产贮藏贮藏加工加工运输运输分配分配批发批发零售包装零售包装餐饮餐饮饲料饲料食品链的安全系数取决于其最薄弱的一环食用植物动物饲料运输加工包装烹饪零售消费储存杂环芳香胺多环芳香烃丙烯酰胺.农用化学物农药致敏原有毒金属生物毒素家禽家畜和水产动物兽药残留二噁英致敏原有毒金属掺假,生物毒素氯丙醇丙烯酰胺呋喃.迁移氨基脲双酚A交叉污染化学标志物结合污染物生物毒素“从农田到餐桌”各环节都面临化学污染物的威胁背景场景展望C目录ontents 生产加工食品链流通运输种殖/养殖 消费+健康全链条监测大数据增值增值信息服务信息服务生产者规范环境污染农兽药残留冷链管理以次
4、充好 从业场所管理人员卫生管理急性/慢性病健康监测食品链食品链违法添加全链条监测大数据实现食品安全事件的有效预防食品监测大数据发展思路建岛(基础设施、信息系统)搭桥(数据关联、数据模型、数据融合与共享平台)信息高铁(智慧决策)数据采集食源性疾病监测系统Intranet/Internet数据挖掘关系型数据仓库数数据据模模型型食品污染物/微生物监测系统食品安全国家标准管理系统食品安全风险评估信息系统实验室信息管理系统协同办公与科研管理系统惠民信息服务平台舆情监测管理系统预警评估舆情数据处理数据仓库元数据管理数据模型与分析数据安全与应用最终用户NO-SQL数据仓库复合查询统计报表综合分析食品中化学品
5、毒性数据库数 据 管 理数据获取数据获取数 据 分 析数 据 展 现 与 应 用数 据 获 取建立食品监测大数据平台机器学习决 策 树关 联 规 则聚类分析支持向量机朴 素 贝 叶 斯人 工 神 经 网 络协同过滤因子分析遗 传 算 法深 度 学 习判别分析马尔可夫链分类器随机森林空间统计概率统计回归分析聚类贝叶斯分析时间序列分析相关分析机器学习网络技术网络挖掘文本挖掘有效的搜索引擎有效的文本检索数据挖掘与分析关联规则决策树随机森林神经网络归纳学习遗传算法基于示例的学习空间自相关分析空间回归分析时空扫描统计空间插值分析地理探测器食品安全风险监测数据大数据的分析方法体系2 23 31 1食源性疾
6、病负担研究食品安全预警分析 食品安全风险评估4 4食品安全综合分析5 5食品安全态势分析6 6食品安全舆情分析解决的问题案例一深化了污染物的地理分布和空间格局及溯源分析对目前的问题分类进行进一步细化,从而形成关于食品污染问题的知识积累采用3S技术、插值分析、叠加分析关联分析、贝叶斯网络工具:SAS EM、ArcGis、Opengeoda如何实现种养殖地的风险评估如何通过监督抽检数据来回溯污染分布及来源污染企业分布、土壤污染来评估农作物污染业务问题 解决方案应用场景数字地球3S技术遥感影像获取农作物提取空间采样污染物空间插值评估农作物受污染程度叠置分析农产品风险评估钡钒镉锂铝锰铅铊锑铜硒总铬总汞
7、总砷-1.00-0.500.000.501.00钡钒镉锂铝锰铅铊小麦中重金属中重金属相关性分析钡-钒钡-铅铝-锑钒-锂钡-钒钡-铅铝-锑总汞-钡线性相关分析偏相关分析地图可视化探索粮食污染和肺癌之间的关系地图可视化探索粮食污染和肺癌之间的关系地图可视化探索河流和肺癌之间的关系土壤污染与肺癌患病率关系三维分析食品安全风险监测平台食品污染物风险分级场景毒理学数据库膳食消费量数据库化学污染物监测系统食品微生物监测系统监督抽检系统流处理污染物时空分布情况污染物所在环节及区域污染物风险等级大小 结合社会认知情况进行风险分级风险等级高的优先进行评估制定标准提出干预措施案例二加强食源性疾病与传染病的融合分析
8、加强对食源性疾病空间聚集性及早期暴发识别采用大数据平台技术、聚集性分析、叠加分析关联规则如何实现食源性疾病早期爆发识别如何实现跨部门数据:食源性疾病、食品污染物、食源性传染病之间的融合业务问题 解决方案应用场景食源性疾病暴发识别食品安全大数据平台大疫情网(食源性传染病)食源性病例监测网实时连接(整合食源性疾病数据库和食源性传染病数据库)比对识别暴发事件库比对(症状、可疑食品等)医院相关食源性疾病病例(HIS)食源性疾病病例或异常病例公众举报食源性疾病流处理 开展流行病学调查用R语言对食源性疾病进行实时的聚集性分析使用Satscan软件食源性疾病时空扫描Timeframe:2011/5/1 -9
9、/30 Relative risk:3.30 Time frame:2011/5/1-9/30 Relative risk:2.03Timeframe:2011/6/1 -11/30 Relative risk:2.40案例三识别糖尿病风险因子以及各因子的交互效应,可以辅助诊断治疗根据体检指标和问卷调查数据可以预测患病风险有助于及早采取干预措施模型:随机森林、决策树地理风险探测器工具:SAS EM、Geodetector如何有效识别糖尿病风险因素如何探测各患病因子之间的交互效应如何根据体检指标预测患糖尿病的风险业务问题 解决方案应用场景决策树与随机森林决策树随机森林集合投票最终分类结果性别、年
10、龄、民族是否喝酒、平均一天吃几两主食等一周有多少天会进行较大强度的体力活动是否曾经诊断过有血脂异常、亲人中是否有人患有糖尿病相关数据调查数据体检数据一般情况饮食情况体力活动病史及家族史常规心血管血常规尿常规生化指标身高、体重、年龄等血压、脉搏等血红蛋白、血小板计数等尿蛋白、尿酮体等血脂、肝功能、肾功能60多个指标20多个指标糖尿病风险筛查数据010203040吃水果的频度饮食结构腹部B超运动量亲人中是否有人患有糖尿病副食结构尿素氮运动量血脂异常史外出就餐频率血小板计数饮酒吸烟脉搏血压升高史主食量白细胞计数高密度脂蛋白胆固醇性别低密度脂蛋白胆固醇谷草转氨酶肌酐胆固醇血红蛋白臀围甘油三酯谷丙转氨酶
11、体重增速年龄身高腰围体重指数血糖升高史脂肪肝收缩压因素重要程度因素重要程度01020304050607080饮食结构口味偏重睡眠状态满意程度吃水果的频度睡眠时间副食结构饮酒外出就餐频率吸烟亲人中是否有人患有糖尿病食量运动量主食量血脂异常史性别血压升高史年龄血糖升高史因素重要程度(因素重要程度(调查调查数据)数据)糖尿病患病风险因子交互性探测胆固醇 甘油三酯WeakenEnhance,nonlinear-Interact Result:Enhance,bi-胆固醇 高密度脂蛋白胆固醇WeakenEnhance,nonlinear-Interact Result:Enhance,nonlinear
12、-胆固醇 低密度脂蛋白胆固醇WeakenEnhance,nonlinear-Interact Result:Enhance,nonlinear-甘油三酯 高密度脂蛋白胆固醇WeakenEnhance,nonlinear-Interact Result:Enhance,bi-甘油三酯 低密度脂蛋白胆固醇WeakenEnhance,nonlinear-Interact Result:Enhance,bi-高密度脂蛋白胆固醇 低密度脂蛋白胆固醇WeakenEnhance,nonlinear-Interact Result:Enhance,nonlinear-糖尿病风险规则归纳规则1如果 主食在饮食中
13、的占比 55%且 坚持锻炼的年数 28 且 有吸烟习惯则 糖尿病的发病风险为:高 发病概率:83%规则9如果 坚持锻炼的年数 2年 且 每周锻炼天数=3天 且 平均每次锻炼时间 1小时 且 BMI(身体质量指数)25则 糖尿病的发病风险为:低 发病概率:16%规则2如果 每周锻炼天数 2天 且 平均每次锻炼时间 半小时 且 BMI(身体质量指数)25则 糖尿病的发病风险为:较低 发病概率:23%规则序号 变量名称标签系数显著性水平影响1Years_of_exercise坚持锻炼的年数98.8208.0001正影响2exercise_days_per_week每周锻炼天数18.6359.0001
14、正影响3Sleep_time睡眠时间15.9808.0001正影响4 gender性别0.8887.5645影响不大5 BMI身体质量指数7.84080.0051负影响6Staple_food_ratio主食在饮食中的占比-46.231.0001负影响7smoker抽烟-34.5623.0001负影响8 age年龄-27.9239.0201负影响9Restaurant_freq外出就餐频率-15.9808.0001负影响通过调查样本测算各因素对糖尿病发病的影响。对个体的糖尿病风险进行评估。评估结果样本数量占比正确49870.94%误判20429.06%总数702100%模型情况健康重要影响变量
15、糖尿病影响因素分析低风险高风险较低风险对于低风险和高风险人群,BMI(身体质量指数)的差异非常明显,BMI偏高的人群具备较高的糖尿病潜在风险。在BMI指标相似时,坚持锻炼的年数能够降低糖尿病发病风险。糖尿病风险人群主要特征比较根据模型判定的糖尿病发病风险等级,进一步观测主要特征对风险的影响糖尿病风险自评根据模型对糖尿病风险的量化,生成风险评估表,评估发病风险。根据体检指标和问卷调查数据,预测糖尿病风险大小的准确率为71%,根据调查问卷数据进行糖尿病风险预测,开发APP,同时通过APP来收集更多的数据,来修正模型。互联网+健康管理应用利用糖尿病数据与地理位置以及膳食调查数据进行相关分析,了解糖尿病时空分布规律,探索膳食与糖尿病之间关系,为糖尿病公共卫生政策制定以及膳食科学干预提供依据。结合饮食与运动数据采集,形成队列数据,开展跟踪研究,不仅可以找出真正致病原因,而且可以进行个性化营养膳食指导,有助于开发营养计算器。基于体检调查和化验数据的糖尿病风险因素分析预测结合膳食背景场景展望C目录ontents大数据在食品安全领域应用展望交互效应进一步研究环境污染、食品安全、疾病之间关联技术研究跨界合作重视空间统计和经典统计、微观统计的有机结合,实现跨学科、跨领域的深度合作宏观考虑重视宏观层面上的食品安全地理格局与时空演变规律的分析以及人群健康、国民经济的影响谢 谢!