网站性能检测评分
注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。
胶片
宜远智能CEO吴博:医学影像的数据标注、算法方法与算力优化 - iDoNews 行业视频课程
原标题:宜远智能CEO吴博:医学影像的数据标注、算法方法与算力优化雷锋网AI掘金志《未来医疗大讲堂——医学影像专题》第四期总结文:一个只给医疗AI从业者、影像科医生、名校师生、CFDA工作人员看的系列课程。注:90分钟的视频信息量巨大,文章仅为冰山一角,强烈建议观看完整版视频(含57页PPT),请点击链接:http://www.mooc.ai/open/course/384一、数据篇(17页PPT)1.医学影像数据资产盘点2.标注工具——脱敏:大框架、小技巧3.标注工具第一类——PC+文件夹处理4.标注工具第二类——专用IT系统和工具:客户端系统与网站系统5.第三方标注工具LabelImg6.自建工具7.标注工具开发心得8.标注工具第三类——专用工具+AI辅助标注二、算法篇(31页PPT)1.关于数据分割比例2.迁移学习3.框架选型:Pytorch、Caffe、TensorFlow、MXnet4.目标检测用于面部皮肤疾病分析数据脱敏及预处理、皮肤疾病检测5.目标检测用于宫颈基液细胞分析基于深度学习+GBDT的TwoStage模型multiCPU+multiGPU宫颈病理三分类系统6.3D目标检测用于肺结节CT分析:数据处理、肺结节预测框架、FasterRCNN框架、OnlinehardExamplemining、Loss函数、框架选择、我们的模型框架、FROC效果提升、模型网络结构(150层+,Unet+Resnet)、分类器与融合三、算力篇(9页PPT)1.架构选型决策:品牌VSDIYIntelCPU+NvidiaGPUPowerCPU+NvidiaGPUIntelCPUIntel+ASICIntel+FPGA2、选型决策:云VS自建亚马逊云、美团云、阿里云3.算力优化:CPUGPU宽带优化、CUDA吴博从数据、算法和算力三个层面,详细介绍了自己在AI医学影像落地方面的实战经验和心得。他指出,医疗数据的价值评估与钻石类似,可以从数据质量、同分布来源的影像数据尺寸和数据标注程度这三大维度来考核。没有经过标注的数据就像未经加工的原石,无法体现其价值,因此数据标注是AI医学影像落地过程中至关重要的一环。吴博对数据标注工具进行了分类,并分享了自己在开发数据标注工具方面的心得。他指出,通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核,以及模型迭代标注调整等需求。数据层面,企业能做的决策不多,只能“看菜吃饭”,但在算力层面,企业有很多的选择,比如选择什么样的框架,选择品牌设备还是DIY设备,选择云服务还是自建机房等。在课程的最后部分,吴博详细介绍了许多选型决策和算力优化方面的技巧。嘉宾介绍:吴博,宜远智能CEO学术背景:吴博先后在清华大学、香港浸会大学求学,并在英国利兹大学完成博士后,师从计算机视觉专家唐远炎教授等人。与此同时,他也在ICML/ACL等顶级会议发表多篇人工智能论文。工业界经验:2017年创立医疗AI公司:宜远智能,该公司集结了20多名人工智能博士以及众多海内外医学顾问,为医疗健康领域提供AI增强解决方案,并与多家知名医院达成合作,并推出成型产品。创立宜远智能之前,吴博曾在爱立信大数据研究院任职。还主导过百亿级虚拟品电商、数字货币系统的业务及数据架构建设与运营。2017年成果:吴博领导的宜远智能团队在医学影像领域,取得以下成绩:1.阿里天池医疗AI大赛GPU环节国内最佳;开源系统荣获大赛人气奖。2.面部皮肤诊断分析API、SDK已经进入商业化,并在2017年世界互联网大会展出。3.宫颈基液细胞学诊断AI在权威评测中,超出医生水平。以下图文为雷锋网AI掘金志节选的吴博课程部分内容:一、数据篇如何评估数据价值?医疗人工智能建立在海量数据的基础之上,但优质的医疗数据十分稀缺,其价值随之凸显。如何准确评估数据的价值,是医生和投资人非常关心的话题,对此业内尚未形成共识。吴博认为,医疗数据可以类比为钻石。钻石的价值评估对应着颜色、净度、切工和克拉这四个维度,医疗数据也可如此类比。颜色越纯、净度越高的钻石,价值也就越高。对于医学影像数据来说,它的价值也取决于其干净、规范、清晰和标准化的程度。如果是从胶片、PACS系统和诊断报告中翻拍而来的数据,必然会包含一些杂质,其价值将大打折扣。吴博指出,高质量的数据需要是RawData,比如mhd格式的DICOM影像和openslide病理图像。钻石单颗克拉数越高,价值也就越大。吴博认为,钻石的克拉数可类比同分布来源的影像数据尺寸。所谓同分布来源的影像数据,对CT来说就是来自同一设备的,参数和曝光强度都相同的影像数据;对病理图像来说,则指采用同一染色方法和色度、同一扫描仪及倍数,以及相同存储格式的影像数据。虽然AI企业的最终目标是开发出一套通用性强的算法,能通吃各种数据;但作为数据资产方,同分布同来源的影像数据规模越大,其价值就越高。有些医院虽然拥有大量数据,但它们来自不同的科室,格式也不尽相同,这种数据的价值是要打一些折扣的。钻石成为商品前需要经过切割等加工,医疗数据同样要经过标注等处理才能释放其价值。钻石的切割工艺分为许多个层级,医疗影像数据的标注亦是如此。从基础的类别标注到类别+病灶方框标注,再到类别+像素级勾画,标注的精细度逐级提升,数据的价值亦水涨船高。如何选择数据标注工具?工欲善其事,必先利其器。要想对医疗影像数据进行精细化的标注,首先得有好的标注工具。吴博将标注工具划分成了三大类别,他将最基础的一类称作“pc+文件夹处理”,即让医生在pc和工作站上对数据进行分拣。对于医生来说,专业的数据标注软件有一定的学习成本,原始的分拣处理减少了学习成本,而且往往行之有效,还具有不受网络影响、安全性较高等优点。不足之处则在于,对后期的数据清洗要求更高,而且过程繁杂,十分消耗人工物力。更高阶的有专用IT系统和工具,包含第三方工具和自建工具。以MIT的PascalVOC标准标注工具labelImg为代表的第三方工具虽然功能强大,但在通用性和灵活性方面还有所欠缺,因此企业经常不得不开发一些自建工具。宜远智能在开发数据标注工具方面积累了许多心得。吴博指出,通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核,以及模型迭代标注调整等需求。尤其是在医学影像领域,标注的数据大多为图片,天然具备便于展示的优点,因此可以本着方便易用的原则采用H5的canvas来设计标注工具,同时结合css3的变换,满足图像缩放、标注的需求。标注人员只需打开浏览器即可标注,无需复杂软件部署。鉴于有些标注图片太大(比如一例CT数据多达几十甚至上百兆,一例病理数据有可能多达1G),网络传输效率低下,有时候需要对标注数据做本地处理。小的项目可以采用数据本地化的方式,使用fiddler等代理软件将网络图片请求代理到本地。大的项目则可以做内网的分布式部署,将标注系统部署在内网服务器上,由标注人员在内网进行标注。基于这些自建工具,标注人员可以根据需求选择本地标注或在线标注,操作集中于鼠标,交互非常友好。标注人员可根据不同标注需求绘制点/线/框,无需复杂设置,打开浏览器即可标注,也可以清楚看到哪些已标哪些未标。随着技术发展,数据标注本身也呈现出了AI化的趋势。比如基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。二、算法篇(算法篇共有31页信息量极大的PPT)三、算力篇吴博认为,算力优化本质上是跟预算做斗争,因为任何一家企业的预算和资源都是有限的,必须做很多的决策,要有所取舍。数据层面,企业能做的决策不多,只能“看菜吃饭”,有多少数据就做多大的事。但在算力层面,企业有很多的选择,比如选择什么样的框架,选择品牌设备还是DIY设备,选择云服务还是自建机房等。就框架而言,IntelCPU+NvidiaGPU的框架是目前为止的首选,特别是在需要做模型训练的情况下。但企业也可以根据自身需求选择其他框架,比如IBM体系的PowerCPU+NvidiaGPU框架,性能也很优异,在CPU与CPU、CPU与GPU、GPU与GPU之间都可以提供非常出色的带宽支持,构成比较高端解决方案。而且为了追赶IntelCPU+NvidiaGPU的框架,PowerCPU+NvidiaGPU提供了很多扶持计划。对于研发团队来说,加入它们的foundation获得算力上的支持是个不错的选择。而且Power和浪潮的合作非常紧密,这意味着它的国产化将不成问题。此外,还有IntelCPU、Intel+ASIC、FPGA等多种框架,它们各有优缺点,企业可以视自身情况作出选择。……学员部分提问雷锋网AI掘金志线上直播结束后,学员从不同维度提出了18个问题,吴博对多数问题进行了耐心解答。问题:1.多疾病分类的时候,针对严重不均衡的数据,除了过采样以外,还有没有算法层面的突破?严重不均衡的数据集合会不会造成分类时baseline不稳定?2.如何对多模态数据进行有效利用?3.针对组织器官数据有哪些标注工具?4.模型迭代标注调整是什么意思?5.今天讲的细胞学、病理、肺结节等,有做成产品用到医院的吗?6.病理图片的颜色千差万别,如何做预处理?7.液基细胞学用语义分割做的分割效果如何?……本文仅展示了部分内容和10页PPT,剩下的精彩内容和47页PPT,欢迎点击链接:http://www.mooc.ai/open/course/384