- ?
有货大数据系统的演进之路
尤焦
展开
2018 年 11 月 9 日下午 ,由七牛云主办的第 31 期架构师实践日——大数据技术实践与分享,在南京举行。有货架构师兼运维总监张春华为我们带来了题为《有货大数据系统的演进之路》的分享。
作者简介:
张春华,有货架构师兼运维总监,负责有货电商中台系统、大数据系统的架构设计。对微服务框架、电商大数据系统、运维系统等有一定的认识和丰富的实践。
本文是对分享内容的整理。
有些同学可能不是特别了解有货, 我先为大家介绍一下有货。有货总部位于南京。我们公司主要有三块业务,一块是媒体,包括线上 APP YOHO!NOW 和潮流杂志 YOHO!BOYS & YOHO!GIRL ; 另一块是零售,包括电商 APP YOHO!BUY 和线下店 YOHO!STORE,最后一块就是分享潮流生活方式的 mars。
我担任有货的架构师,同时也负责运维,加入有货之前我是华为的工程师。
有货是七牛很早的早期存储用户。早在 2014 年的时候,我们就是七牛云存储的一个用户,我们全网所有的图片、小文件、视频都存在七牛云上。到 2015 年、2016 年,我们开始变成七牛 CDN 的用户。
我先分享一下有货从 2013 年到 2015 年大数据的一个基本架构,这个是最原始大数据的一个系统。关于基础设施,我们在北京有自己租用的 IDC,在这个 IDC 的机器上我们部署了基于 Hadoop 的系统,主要提供 hive 的计算。我们做一些简单的业务报表,提供给老板看一些日活月活,包括店铺的销售数据、商品的销售数据等等,是一个很简单的系统。
这个系统主要的问题有两点:
一是存储能力不足,因为你需要自己去买磁阵,而且这个费用是非常高的,而且容易坏掉。另外存储分为冷热存储,自己在 IDC 很难做这个冷热分离。
二是计算能力不足,因为 hive,大家都知道它很难去支撑一些实时或者近实时的业务。我相信大部分公司,第一个大数据平台都是类似这样的,基于 hive 的一个简单的东西。
在 2015 年的时候,我们也做了一个最大的变化,就是从 IDC 迁移到公有云上,迁移到公有云上以后,我们的大数据也一并迁移到公有云上。原来的物理计算机变成了云的虚拟机,在这个虚拟机上我们也搭建了自己的 Hadoop 集群。同时为了支撑一些实时或者近实时的业务,我们也搭建了 Spark 的集群。
有了这个 Sprak 之后我们就能支撑一些实时的业务,比如说老板看一个小时内哪个商品卖得好或者哪个商品点击率高等等,它可以支持实时的查询。从 2015 年到 2017 年,这个系统运行了将近一年多到两年的时间。
这个系统也有一些问题,第一个问题就是计算和存储是耦合的,因为我们是公有云虚拟机搭建的一个 Hadoop 集群,计算能力不足时,你需要加节点,存储也顺带必须要加上,可能存储是够的,加的存储就是浪费。这是一个问题。同时自己搭建集群维护成本很高。
另一方面,Spark 在毫秒级延迟下的 Streaming 计算能力是不足的。基于 hive 的数据仓库也是比较慢的,一般快的需要二三十秒,慢的可能要几百秒。
现在的架构大概是这个样子,最下面是系统的数据源,还有来自外部广告投放的一些点击数据。我们现在存储都是用的云的对象存储,简称 OSS。计算包括流计算、OLAP 和批处理计算。流处理我们使用 Spark streaming + Flink 的架构;OLAP 主要使用了 Druid 和 Spark ;数据仓库方面,我们在 hive 的基础上添加 GreenPlum 来支撑一些更快的查询。
为什么引入 Greenplum 呢?因为这个数据库是 MPP 界开源里面一个比较好的选择。能够支持 PB 级的数据,而且在性能上、可靠性上经过了很多商业案例的检验。我们国内银行、证券等金融行业客户用这个用得比较多。我们做的一些 CRM 人群画像使用宽表存储在 Greenplum 中,业务系统取这些数据的时候就会非常快,如果用 hive 取这些数据就会很慢。
有了这套系统,我们可以支撑报表、运营、CRM、风控、推荐等等业务。
我们重点看一下 Flink 在我们这边的一些应用。以恶意请求检测的场景来介绍,我们电商系统或者其他系统应该都会遇到一些恶意的攻击,比如说羊毛党、撞库等等。系统入口的请求日志通过 Filebeat 收集到管道-即 Kafka 集群中,一个 Flink Straming 任务是对原始日志做清理。清理完之后再把结构化的数据写到 Kafka 集群里面。然后再有另外一个任务读取这些清理过的事件,然后根据规则判断请求是否恶意。 我们通过 spring cloud config server 来提供规则配置服务。如果 IP 是恶意的,就会写入到 Redis 中,Openresty 会 subscribe 到恶意 IP,并且实时拦截请求。
这是一个简单的恶意 IP 识别的系统。这个识别是基于规则。我们也尝试过去做一些所谓的人工智能基于有标签的历史数据集就行训练。经过我们实践之后,发现基于特征和基于规则的结果都是差不多的,所以我们没有上线基于机器学习的恶意检测系统。
这个系统,我们现在能够支撑到 5 万每秒的请求,所以如果你用 Spark Streaming 这个来做,同样的延迟和吞吐量,可能会需要更大的 yarn 集群资源。
接着介绍一下 OLAP。我们做过 POC 后最终选了 Druid 来做 OLAP。
Druid 可以直接对接 Kafka 流数据,可以很方便地做一些数仓的切片、切块等等,可以支持汇聚,能够支持快速的 count-distinct。count-distinct 电商系统里面是非常常见的,你要计算 PV、UV 等等。我们用 Druid 主要做留存分析,包括热门店铺、热门商品、热门品类等等。运营系统里面很多数据、很多计算都是来自于 Druid。我们有一个简单的 APM 系统,我们也用 Druid 来分析 APP 上报的数据,能知道哪个地区可能网络质量不是很好,哪个版本可能崩溃率比较高等等。
下面是 Druid 的一个架构图,简单介绍一下,Druid 可主要包括历史节点、实时节点,Broker 节点和协调节点,它们各司其职。
Druid 的历史数据存储有很多选择,例如 Hadoop HDFS、OSS 等。大家知道 Druid 只存储汇聚后的数据,原始数据我们是存储在 Greenplum 中。
接下来分享一下我们在构建大数据一路演进下来的一些经验或者一些教训。
第一个是存储空间的优化,我们最初在公有云上用 EMR 的时候,我们的存储空间是非常非常大的,用了一个月之后我们发现这个存储账单爆掉了,光存储就是十几万的账单。为什么?我们发现我们犯了一个低级错误,没有清理一些 Trash 目录,这个释放掉之后空间就会省出很多。第二个是存储格式,一开始没有做压缩,存储空间就很大。后面我们切换了 orc+snappy 的方式,存储空间就很小。
下图展示了各种存储方式空间大小。切换存储方式应用也要有一些变化,所以这个工作最好在一开始就做好。
第二个是对象存储文件的一个前缀优化,如果大家做过 HDFS 应该都知道,这个会造成所谓的热点。要怎么做呢?可能说你把这个前缀做一些 random 的东西,例如对路径做 HASH,这样的话,这些文件就会分布到不同的节点上。但是做了这个之后也会变得很麻烦。 Hadoop 集群在 IDC 中,你会感受不到热点的问题。当你的数据量变得很大的时候,并且你的数据都是通过网络从 OSS 中获取的,你会发现这个问题很严重。我们当时几乎每天都会出现热点问题,会报超时,但是没有太好的办法,就需要做前缀的这些优化。
当然,各个公有云厂商也在不断对 OSS 产品做改进。我相信其他的公有云厂商,比如说阿里云、华为云或者七牛云,他们都在做优化,我相信再过一年两年这个优化就会成为历史,可能不需要自己做,OSS 厂商就会帮你做。
第二个就是 AutoScaling,这个是非常重要。 公有云 EMR 中 task 节点是无状态的,可以方便的伸缩。我们现在每天凌晨扩展一些 task 节点支持大批量的 ETL 计算。计算结束之后,到第二天早上大概到 9 点时,我们会把这些 task 节点全部都缩掉。这个能降低成本,这也是使用公有云的一个好处。
这就是我今天分享的主要内容 :有货大数据系统从基本的 Hadoop 集群进化到现在一个包括 Streaming、OLAP、Batch 的基于公有云的数据平台,也有从 IDC 迁移到公有云的经验。 谢谢大家。
Q
&
A
Q
我想请教一下,我刚才看到我们有图片存储,是放在哪儿的?
答:我们这些图片都是放在七牛云上的。图片我们这边没有什么特别的处理。如果你的 APP 或者客户端要请求图片的时候会做一个压缩裁剪,这是七牛云做的比较好的,提供了裁剪、压缩的接口。
Q
使用本地 Hadoop 集群 HDFS 与使用 OSS,会不会需要一些额外的比如关于压缩算法或者传输方面需要额外考虑的东西?
答:其实不需要的。你原来是本地的 Hadoop 的集群,怎么样建立 hive 表,你在公有云上使用 OSS,比如说不管你用的是七牛云,还是用的腾讯云或者阿里云或者 AWS,你不需要做任何变化,只需要把原来的 hdfs:// 改为 s3:// 或者 cosn://, qiniu:// 等等,其实对应用来说几乎是没有任何感知的。另外要注意一点就是 OSS 是通过网络来获取文件,需要考虑热点问题。
Q
你们应该尝试过多种分析引擎,有没有关于 hive 的几种分析引擎,我想问一下您有什么可以给我们的意见或者推荐?
答:我们其实尝试过很多引擎,最开始的我们是用裸 hive,后面是 hive on tez with LLAP。经过我们的实践发现还是用 Spark SQL 是最快的,如果你的 Yarn 集群有足够的内存资源。
marketing@qiniu
- ?
活字格案例 | 综合报表信息管理系统搭建
梦芩
展开
硕达电子(深圳)有限公司(以下简称“硕达电子”),位于深圳市宝安区松岗镇。硕达电子成立于2004年5月,是CyberPower System,Inc公司于深圳市宝安区松岗镇设立的一家子公司。
硕达电子主要生产不间断电源供应器(UPS)、USB-HUB、逆变器(Inverter)等计算机周边产品,设备先进,技术实力雄厚。
项目需求
企业希望用一套综合报表信息管理系统,解决常用性记录、窗体、报表项目系统化管理,实现在线多人同时记录、查询、报表分析与输出,数据长期保存,不会因人员因素和其它因素造成数据、记录遗失,数据涉及其它单位可实时查询。
因为活字格具有使用门槛低、没有软件开发能力、只要会Excel的操作、有一定逻辑能力,便可开发相应应用等特点,硕达电子选择使用活字格来搭建《综合报表信息管理系统》。
项目主要功能点
1.登录页面简洁实用
图一:登录页面
2.列表展示页面
实际部门费用年度对比与排名,用车类型、每月用车次数与产生费用,让主管对本部用车情况一目了然,为管理层提供非常有力数据。
图二:列表展示页面1
图三:列表展示页面2
3.数据添加页面
图四:数据添加页面
4.图表页面
可以全方位对数据进行分析,为管理层提供第一手数据。
图五:图表页面1
图六:图表页面2
图七:图表页面3
活字格的价值
使用活字格开发的相关应用(如水、电、通信等),为管理者提供管理依据,可以在第一时间快速查询部门费用、KPI数据来源等。
使用活字格,可以减少公司管理软件的购买与开发成本,一次购买,无限开发。
使用活字格的感受
硕达电子(深圳)有限公司的副经理陈先生介绍到:
“活字格使用门槛低,没有软件开发能力(会VB等代码软件)、只要会Excel的操作、有一定逻辑能力,便可开发相应应用,黑科技,非常灵活。
使用活字格开发的相关应用(如水、电、通信等),为管理者提供管理依据,可以在第一时间快速查询部门费用、KPI数据来源等。
使用活字格,可以减少公司管理软件的购买与开发成本,一次购买,无限开发。”
同时欢迎大家加入活字格基础教学扣扣群:377281648,群里会不定期举行活字格使用视频会议讲解,入群即可收到会议举行信息。
转载请注明出自:葡萄城控件
关于葡萄城
葡萄城是全球控件行业领导者,世界领先的企业应用定制工具、企业报表和商业智能解决方案提供商,为超过75%的全球财富500强企业提供服务。
- ?
惠哥云商系统化介绍
幻灵
展开
惠哥云商SaaS系统,为全国商贸批发从业者提供适用于酒水饮料、粮油副食、南北干货、水产冻品等商贸批发的配送管理系统。整套系统包括的功能模块有:微信商城、进销存管理、分拣系统、配送系统、售后客服、财务管理、数据分析、员工账号管理等。
帮助您实现线上营销、订单处理、物流排线、库存管理、交易结算的全流程信息化运作,为您提供软件+咨询整体解决方案。
省人
数万订单也只要一个人接单
自动打印客户订单
人力成本节省70%
省事
客户一键下单,智能分拣称
一键完成分拣、分货、验货、发车
效率提高40%
省心
财务数据一目了然
商品毛利、商户毛利、损耗状况
老板打开手机可随时查看
1、业务360°覆盖,助力企业成长
贯穿企业业务流程体系和组织体系,从订单管理到采购供应、仓储加工、物流配送、财务结算,大大提高企业运作效率。系统在订单管理、订单汇总、定价管理、计划采购、配送、对单、毛利统计分析等各个环节进行细化的控制和跟踪管理。
支持微信、手机、平板及后台下单,系统自动出单省去了大量的手工核算,简单快捷,系统可自动出客户订单,客户拣货单、客户送货单、财务结算单、自动销售报表。
2、平台优势
效率提升
省掉传统操作中人工抄单、对单等低效的工作;将传统中的所有规模而不经济的作业标准化,流程化。长期可为企业节省不少人力。
2、成本转移
一个开发团队月最少也要几万块的支出,而惠哥平台一年只需要几千元,而且是非常强大的功能合集。
3、方便灵活
系统支持产品多单位,建立客户独立产品库,结算定价管理。可灵活配置各种单据格式,满足客户不同需求。
4、数据安全
数据存放在腾讯云,有强大的技术团队做支撑。只要打开任意电脑的浏览器,登录后都可以查看历史数据,不怕数据丢失。
3、系统架构
3.1、管理平台
订单管理 配送调度
商品管理 进销存
销售工具 报表中心
分拣管理
采购管理
3.2、配送站仓内应用
拣货系统 单据打印系统
验货复核系统 司机送货系统
3.3、移动下单前端
商品系统 账务控制
支付体系 预存卡 /余额
3.4、中心仓管理中心
财务系统 售后管理
销售管理 CRM
报表体系
4一套系统解决管理问题
4.1 管订单
告别错单漏单,提升订货效率
支持手机在线下单,一键下单,用户体验便捷,订单格式统一,自动生成采购汇总,减少人工操作,提升订货效率。
传统模式
订货效率低,出错率高
订单五花八门,电话,email,传真,微信,qq报货,格式混乱,订单汇总非常困难,订单流程冗长,出错率高。
4.2 管货品
实时关注热销及滞销商品,及时库存盘点
采购单一键生成入库单,便捷的实现从采购到仓库到销售一体化的进销存管理。
传统模式
进销存管理难
商品清理不及时,对零库存商品、长期无销售商品情况一无所知。
4.3 管账目
对账便捷,统计明了
后台自动生成对账单,客户、供应商款项明细一一列出,轻松对账。自动生成毛利报表(按天、品类,客户,供应商等),老板心中有数。
传统模式
对账难,统计乱
订单多,客户补单、改单,易出错,需要频繁跟客户供应商确认,效率低。成本利润难以统计,经营数据不透明,老板心里没数。
4.4 管客户
实时渠道客情维系
实时获取经营数据,有的放矢的经营客户/供应商,用互联网连接客户/供应商,自动备注客户个性化需求。
粘性低
进销存管理难
客户/供应商信息沟通闭塞,业务员疲于应付客户个性化需求,基本没有协同和粘性。
惠哥云商订货系统,订货商城+进销存一 - ?
系统统计报表帮助企业实现用电精准管理
夏寒
展开
随着智能化、信息化、智慧型产业不断的发展,智能化设备在各行业的广泛应用,作为基础支撑的用电管理也越加重要。企业由原先的人工粗放型管理向精细科技型管理转变。
很多企业在日常管理中,会遇到人工抄表计算费时费力的问题。配用电监测与管理系统提供统计报表功能,帮助企业解决抄表难、管理难的问题。
通过新联电能云配用电监测与管理系统中的统计报表模块可查看12张统计报表,更加方便适用,实现自动抄表并汇总,减少大量的人力浪费。企业用电管理人员可通过PC端及app随时随地查看用电报表,提高工作效率!
可查询并导出所有监测点某个月每一天任意时刻的电量情况;可根据配置的用电结构/自定义单元导出报表可配置带有计算关系(加、减)的自定义单元报表 ;按照不同的抄表时间段来汇总每日的电量数据查询各个测量点任何时间段总电量累计值;可根据需求定制任意报表(自定义报表),定制企业内部所需的管理考核报表。
选取几张关注度较高的报表进行示例
企业使用报表功能案例
某公司各分厂每月都需核算电力耗用情况,原先是人工抄表计算,2017年补齐监测点后先试行双重(即平台报表和人工抄表)统计对比,然后逐步免除人工抄表,提高工作效率和降低人力浪费。
同时,该公司内有一条自动化生产线,历经组建、调试和试产后已进入正常生产状态,此条生产线同时增设监测点,利用抄报表功能对自动化生产线的耗用情况统计,可以随时提供可靠的数据支撑。
使用新联电能云配用电监测与管理系统,即可免费使用统计报表功能,除此之外,配用电监测与管理系统还可为企业提供多项用电管理功能,帮助企业实现精细化、自动化管理。在保证安全用电的基础上企业可根据经济运行、能效管理的要求设置管理目标,通过系统实现企业用电管理的高效运行。
新联能源综合服务云平台足于:数据第一的理念,致力为广大用户提供一站式电能管理服务。
- ?
数据分析必备的三大能力体系
梦难圆
展开
这篇文章从整体框架出发,介绍了数据分析的三大层次。包括对数据分析的整体理解和认识,做数据分析的科学方法,以及数据分析相关的工具介绍。
数据分析目前在国内互联网圈的受重视程度在逐步提升,但是问题也很突出:
大家对于数据分析的认知和理解支离破碎,缺乏一个整体的、系统的思维框架;
大家的视野更多局限在数据报表、BI 系统、广告监测等领域,对于数据以及数据分析其实是缺乏深层次洞察的。
这篇文章就从整体框架出发,介绍一下数据分析的三大层次。包括对数据分析的整体理解和认识,做数据分析的科学方法,以及数据分析相关的工具介绍。
一、数据分析价值观
如何让数据分析真正发挥价值?我认为必须在
价值认同、工作定位和商业模式
三点上取得突破。
(一)数据分析的价值认同
做好数据分析,首先要认同数据的意义和价值。一个不认同数据、对数据分析的意义缺乏理解的人是很难做好这个工作的。放到一个企业里面,企业的 CEO 及管理层必须高度重视和理解数据分析的价值。你想一下,如果老板都不认可数据分析的价值,那么数据相关的项目在企业里面还能推得动吗?然后,企业内部还需要有数据驱动的公司文化。
如果大家宁可拍脑袋做决定也不相信数据分析师的建议,那么数据分析往往是事倍功半、走一下形式而已,反之则是事半功倍。
(二)数据分析的工作定位
做好数据分析,要对数据分析的价值有清楚的定位。既不要神化数据分析,把它当做万能钥匙;也不要轻易否定数据分析的意义,弃之不用。数据分析应该对业务有实际的指导意义,而不应该流于形式,沦为单纯的 “取数”、“做表”、“写报告”。在 LinkedIn 那么多年的工作时间里面,我们对数据分析的工作早已有了清晰的定位:
利用(大)数据分析为所有职场人员作出迅捷、高质、高效的决策,提供具有指导意义的洞察和可规模化的解决方案
。
当时我们还采用了一套 EOI 的分析框架,对不同业务的数据分析价值有明确的定位。针对核心任务、战略任务和风险任务,我们认为数据分析应该分别起到
助力(Empower)、优化(Optimize)、创新(Innovate)
的三大作用。
(三)数据分析的商业模式
做好数据分析,要对企业的商业模式非常了解。数据分析的最终目的还是服务于企业的增长目标,所以务必要对行业背景、业务含义、产品和用户有着深刻的认知。
还是以 LinkedIn 为例,作为企业增长的重要环节,LinkedIn 在产品设计之初就优先考虑到了数据的价值模式。首先是用户的增长、使用和活跃,然后产生大量的数据,最后根据数据进行业务变现(企业广告、企业招聘、高级账号等)和用户增长,从而不断良性循环。
只有认可分析价值、明确工作定位、深谙商业模式,数据分析才能走在正确的轨道上。
二、数据分析方法论
(一)数据分析的框架
在整个数据分析框架中,用户是数据的来源,也是数据分析最终要服务的对象。整个分析框架可以分为四大层次,依次是:数据规划、数据采集、数据分析和数据决策。
从用户、业务系统,到数据采集平台、ETL、数据仓库, 再到分析、BI、DM、AI、洞察,再到决策、行为、价值,最终回到用户。
上面整个分析框架中,越底层的占用的时间和精力越多,而顶层的耗时较少。从产生的价值来看,越底层的产生的价值越低,越顶层的产生的价值越高。大家想一下就会理解,做数据分析的过程大多时间是耗费在数据采集、清理、转换等脏活累活上面,最有价值的分析和决策部分往往耗时很少。
因此,大家做数据分析应该把重心放在最有价值的分析和决策两个层面上,并且尽可能使用工具实现底层的自动化操作。
(二)数据分析的方法论
数据分析应该帮助我们不断优化营销、运营、产品、工程,驱动企业和用户的增长,而不是为了分析而分析。在这里我给大家介绍两个方法论,一个是业务上的 AARRR 模型,另一个是分析上的学习引擎。
AARRR 是著名的 Growth Hacker (增长黑客)海盗法则,依序分别是 Acquisition(获取用户)、Activation(激发活跃)、Retention(提高留存)、Revenue(增加收入)和 Referral(推荐传播)的首字母简称,覆盖用户整个生命周期。我们在进行数据分析的时候,应该考虑用户正处于 AARRR 模型的哪个部分、关键数据指标是什么、对应的分析方法又是什么?
“ 学习引擎 ” 是《精益创业》一书中提倡的精益化运营方式,在硅谷被大小企业广泛采纳。当我们有一个想法的时候,可以采用最简可行化产品(MVP)的方式将其构建(Build)出来。产品上线后,我们需要衡量(Measure)用户和市场的反应。通过分析收集到的数据,我们可以验证或者推翻我们之前的想法,从而不断学习(Learn)和优化。
(三)数据分析的具体方法
这篇文章的目的不是介绍具体的分析方法,而是为了让大家对整个数据分析能力体系有一个系统的认知,所以我就不对每一个方法进行具体的阐述。
懂得每一种方法的原理是一回事,在业务中灵活应用又是另外一回事。以产品经理为例,可以把“用户行为 – 数据分析 -产品设计 & 优化 ”三位归于一体,在不断的实践应用中掌握各种分析方法的精髓和要义。数据来源于用户,数据分析的最终目的也是服务于企业和用户。做数据分析之前,一定要清晰业务目的和数据指标,选择科学的分析方法,用数据来指导产品和用户增长。
三、数据分析工具篇
(一)为什么工具那么重要?
“ 工欲善其事,必先利其器 ” !
整个数据框架下面的部分可能花费了 80% 的时间和精力,但是产生了不到 20% 的价值。大家都在搭建数据采集平台、都在写代码埋点、都在做 ETL、都在建 BI 系统,哪里还有更多的时间和人力来做 Analytics 和 Insight 。
以前市面上没有好的数据分析工具,大家都只能自己去部署很多的系统、建立很多的机制,甚至雇佣三四个团队去做一件事。
今天市面上有很多好的工具来帮助我们进行数据分析,为了节省时间、资源(特别是成长型企业),大家完全没有必要内部建造一套分析系统,应该擅用好的工具来帮助自己做数据分析。
(二)选择合适的分析工具
选择什么样的分析工具,跟你的工作岗位、分析场景息息相关。每种场景都有若干种工具可以选择,有些工具也可以用于多种分析场景,关键在于你对工具的熟悉和理解。
Excel 绝对是最基本、最常见的数据分析工具了,对于数据量较小的情况,无论是数据处理、数据可视化还是一些统计分析都能支持。一旦数据量大了,这个时候就需要大型的数据库来支持。
市场营销人员需要对广告投放进行数据分析,网站流量监测是他们关注的重点。产品和运营重点关注用户行为和产品使用,用户行为数据分析工具是他们的首选。
以前大家只关注业务数据,然而这些结果型的数据并不能告诉他们中间发生了什么、为什么发生;现在大家越来越关注精细化运营、对用户行为数据的需求也越来越高,这也是我回国创立 GrowingIO 的原因。
如果你能懂一些 R 和 Python,在数据建模、统计分析、数据科学的方向上有所发展,那么你的数据分析水平就更上一层楼了。
上面说的这三点构成了数据分析的能力体系。只有认同数据分析的价值、掌握数据分析的方法并且灵活应用数据分析工具,才能真正做好数据分析。
本文根据张溪梦演讲内容整理编辑。
作者:张溪梦,GrowingIO 创始人 & CEO
本文节选自 GrowingIO 2017 年第 3 期电子书《产品经理数据分析手册》
本文由 @GrowingIO 原创发布于人人都是产品经理。未经许可,禁止转载。
- ?
大家好,给大家介绍一下,这是“FineReport+”
Flavia
展开
在说“FineReport+”之前,我们先聊聊“互联网+”。
“互联网+”是个老概念,通俗来讲是“互联网+各个传统行业”。很多人说,“互联网+”应该叫“+互联网”,因为互联网只是个工具而已。其实不然,“互联网+”并不是简单的“+”,而是依托互联网信息技术实现互联网与传统产业的深度融合。未来的互联网也会像文字、蒸汽机、电力、汽油发动机等那样,作为一种通用的生产力工具,给每个行业带来效率的大幅提升。
所以,“互联网+”不是口号,它的内涵是“通用工具”。
FineReport 是帆软公司的明星产品,据说可能是全球最好用的报表软件:
可以快速灵活地制作报表,搭建统一的数据决策和管理平台,让更多的数据用于业务经营和决策;
可以快速开发报表,能做到和各类系统的无缝集成,加快项目的开发,节约了开发的人力和成本。
FineReport,一款良心神器,简直无所不能。受到“互联网+”的启发,我们提出了“FineReport+”的概念。
FineReport+,是FineReport的价值主张
我们要连接并解决更多有关数据的应用场景,让数据成为生产力。“+”后面可以是业务系统如OA、ERP、CRM,可以是Qlikview、Cognos、Tableau等BI系统,可以是部分业务需求,如帆软自己就是使用FIneReport搭建的CRM系统,笔者还见到一些番薯开发了考勤系统,小型进销存系统等。
一、FineReport+业务系统
一般业务系统自带的报表能力很弱,难以满足企业数据化分析和管理的需求。以OA系统为例,随着企业应用的发展,OA软件越来越重视数据分析与利用,不仅仅数据分析可以形成对信息与流程的管理,更实现对企业数据的有效管理与利用,所以报表应用已经越来越成为企业办公自动化软件(协同办公软件)的一个重要组成部分。但是OA自身报表存在多种先天缺陷:
a.其数据全部来自于OA系统,而且报表也从属于OA的功能。比如,统计各部门收、发文的数量,统计员工的出勤日等等,无论是从格式还是统计的内容,都相对比较简单而且是固定的,无法从综合的角度体现各类数据的相关性分析。
b.厂商或服务商在实施时为用户做的报表。用户可能会提出要求,实施服务商负责完成报表的开发。虽然这种方式能比较好地满足用户的需求,但灵活性还远远不够,不能针对后续业务的发展做到随需而动。
所以产品型软件公司在遇到有报表需求的客户时,常会选择和帆软合作,比如用友、金蝶、泛微、致远、万户、蓝凌、神州数码、浪潮,而和FineReport集成的业务系统产品,有OA、ERP、MIS、CRM、TMS、WMS、BPM、EHR、考勤等。
对最终用户而言,使用FineReport可以快速灵活地制作报表,可以搭建统一的数据决策和管理平台,让更多的数据用于业务经营和决策,让业务系统发挥更大的价值。
一般而言,FIneReport 可解决如下问题:
· 市场环境和业务需求多变,无法快速满足变化的报表需求
· 传统SQL+Excel 的方式整合数据做报表,效率低准确性差
· 业务系统数据过于分散形成数据孤岛,难以有效利用
· 缺乏统一的报表管理门户,无法形成全局数据视野,辅助决策
二、FineReport+BI系统
看到“FineReport+数据分析系统”是不是有些困惑,这怎么能成立呢?那我从两个例子切入吧。
东北证券的数据平台建设完毕之后,结构化数据初步实现了统一归集,数据报表和图表可视化均可以通过Cognos工具实现。但是,由于Cognos使用繁琐、开发复杂,数据小组一直无法接手该工具,而新需求不断出现,亟需通过系统保存工作中产生的结构化数据,取代excel记录和上报数据的模式。所以,东北证券最后上了FineReport,较为完善的解决了当前数据填报和其他分析需求。
大华技术股份公司用Qlikview搭建了数据分析平台,但是当他们报表需求爆发时,QlikView根本解决不了问题。最后的解决方式是引入finereport,与QlikView并行使用。领导层几个人用QlikView,中间管理层都使用finereport制作的报表。FineReport是专门的报表软件,在易用性、快捷性和对复杂报表的响应要远胜于QlikView。
所以,FineReport+BI系统,赢在开发效率,赢在面向中层、面向固定式、面向复杂报表的定位。无论是传统BI如SAP BO、Cognos、 Oracle BIEE等,还是新型自助式BI如Tableau、FineBI、Qlikview、PowerBI等,都用可以FineReport“+”起来。
三、FineReport+场景需求
信息化系统的本质是录入和展示,恰巧FineReport天然支持这两块功能,本身就是一个可视化的系统DIY工具。所以很多番薯直接应用FineReport开发了一些业务系统,如简易出入库系统、项目周报管理系统、酒店客房收入数据系统、考试分析系统、会员管理系统、刷卡考勤系统、报餐系统、微信小秘书等。帆软当前用的CRM,也是用FineReport开发的,非常实用、好用。
现在大屏数据展示的需求越来越多,一般应用于行业博览中心、实时监控中心、集团会议中心、战略指挥中心等场景,视觉效果要求也越来越高。无须专门定制开发,使用FineReport就能轻松制作出酷炫的管理驾驶舱,支持发布到多场景的数据大屏上进行可视化集中管控。
FineReport+,是FineReport的发展理念
我们要用开放的思维,构建生态体系的方式,打造具有极强生命力的产品。“+”后面连接的是插件开发者、第三方软件公司,通过需求的指引,利益的共享,开发更多功能插件,集成更多第三方成熟的技术。当然,FineReport插件化开发模式由来已久,我们也积累了上百个插件,单月的插件下载量达到1.7万次,有不少开发者赚的瓢满钵满。
即将发布的FineReport 9.0有着三大特性——开放、共享、智能,是“FineReport+”理念的充分体现。
开放,马化腾在分享腾讯创业经验时提到一点,“关键领域砸下去,其他放手,我们聚焦在核心业务上,其他的让生态合作伙伴来做”,9.0我们将更关注核心业务,其他通过开放的姿态与其他厂商合作,迅速做到场景互补,让我们的用户享受更好的整体化方案。
共享,正如牛顿所说“如果我比别人看得远,那是因为我站在巨人的肩膀上”,其实引申到搭建数据平台同样适用,别人千辛万苦根据错误总结出的方案,可以直接拿来用;别人通宵达旦开发的插件,可以直接拿来用;别人绞尽脑汁做出的好看的报表组件,也可以直接拿来用。通过云中心问题库、应用中心的插件和共享组件,我们就能在不需要代码能力,不需要专业美工的基础上更好更快的搭建起数据平台了。
智能,用《人类简史》的作者尤瓦尔·赫拉利的一句话可以概括为“机器比你更了解自己”。因此我们希望通过引入人工智能,从信息部门、业务部门、系统管理人员三个角色出发,让机器更好的帮助用户去做报表、用报表和管理报表。
以上,这就是我要说的“FineReport+”。
也欢迎大家参与11月14日北京的帆软新品发布会,免费,报名请至帆软官网!
- ?
教学管理系统中有哪些常见报表?
Margaret
展开
教学管理系统是应用于学校等教育机构,以实现学院各部门以及各层次用户管理的多模块综合信息管理系统。报表作为教学管理系统的重要组成部分,对于教学管理系统数据的分析和决策具有重大意义。
下面让我们了解教学管理系统中的常见报表。
学生收入分摊汇总表
报表以【城际】+【学校】为单位进行数据分组显示,将每个学生的【基本信息】、【收款信息】、【退款信息】、【每月出勤天数】、【每月分摊标准】、以及【每月各项费用收入信息】进行统计输出。在报表的列中,最后对各项费用进行了汇总统计。
学校综合业绩表
该报表中展示了各城际和所属范围全部学校,年度总目标与每个月目标完成情况的统计分析。
学生成绩构成分析
该报表主要通过图表的方式,将各学校不同成绩段的学生比例进行汇总分析,这样不仅能够看到单个学校学生的成绩分布,还能看到多个学校之间成绩分布的对比情况。
学生成绩汇总情况
改模板主要进行学生成绩的统计。
财政教育经费投入情况表
该模板可以看到不同类型学校(普通、职业和小学),不同类型的经费投入情况,比如:教育事业费、村投入、社会捐款和信息化建设等投入的实际经费情况。
以上报表均包含在葡萄城报表模板库中。
了解报表模板库:http://grapecity/enterprise-solutions/activereports_server/library/
转载请注明出自:葡萄城报表
关于报表模板库
报表模板库是葡萄城面向广大报表用户推出的免费报表制作、学习及参考工具。通过该工具,降低用户制作报表难度,人人都可成为报表专家,业务数据分析不再遥不可及!
仅需一步!无需配置环境及参数,即可快速浏览百余套来自真实行业的案例及典型应用模板,在了解专业报表的布局及功能的同时,掌握报表从设计到呈现的全部技术细节,还可通过自带的设计器,所见即所得的修改报表模板,并查看效果。
- ?
WinCC报表控件介绍
解千雁
展开
1、背景WinCC实现报表历来是老大难,自带的报表功能不好使,主要在于配置麻烦,可视化又很差,而又没有好用的第三方控件。虽然网上也有很多实现报表的方法,但是毫无例外的要求使用者具有脚本编程功底。有鉴于此,这里向大家推荐一款无需一行脚本的WinCC报表控件--HwDataReport。HwDataReport的出现将终结这一现象,您无需一行脚本即可完成WINCC报表。
该控件不但可以嵌入到WinCC/TIA WinCC画面中,还提供有单独的可执行程序提供查询。除了可以在控件界面里操作查询,还支持使用脚本控制该控件,功能非常强大。经过长期的项目实践,目前产品已经非常稳定。
图一 HwDataReport在WinCChuamz2、控件授权控件授权:V4.0以下免费,V5.0及以上收费
3、HwDataReport简介HwDataReport是由HwLib(慧兰博)技术团队推出的报表控件,它的使用极其简单,你只需将它拖到画面上即可,在运行时通过选择起始时间、结束时间即可显示该时间段内的数据。通过查询时间间隔可以设置读到报表中的数据间隔时间,比如取一分钟的平均值、10分钟的平均值或是1小时的平均值等,可以很容易的形成日报表、班报表及月报表等等。所有功能无需一行脚本代码即可完成。
4、控件功能控件名称: HwDataReport 控件版本:V32.0
1) 不用写一行脚本; 2) 可以自定义查询时间,支持生成班、日、月和年报表; 3) 可以自定义报表标题、背景色和字体; 4) 可以自定义列标题,替换归档变量名称为自定义名称; 5) 自定义显示的小数位数; 6) 支持累积量、平均值、最大值、最小值和差值; 7) 支持多个不同格式的报表; 8) 支持数据预览和打印; 9) 支持导出为Excel; 10) 提供API接口,可以使用VBS控制它定时自动生成报表并打印; 11) 支持运行在客户机上,可以设置归档数据服务器名称
5、控件下载下载地址(这里有使用演示和说明书):https://pan.baidu/s/1dF3gpt3
6、控件支持平台下列平台已测试通过: Win7/8/8.1/Win10 32/64bit 经典WinCC V7.0及以上版本 TIA WinCC V11.0及以上版本 对于WinCC V7.3/7.4需要安装ConnectivityPack。
7、技术优势HwDataReport是第一款将报表控件嵌入WinCC画面的产品。目前市面上做WinCC报表的非常多,但是无外乎是基于MSFlexGrid及OWC,它们无一例外都属于ActiveX技术,这是微软一种过时的技术。MSFlexGrid表格样式太古老,非常难看,未来的操作系统未必会支持。OWC在Win10上会有问题,且它不是免费的,绑定了Office授权,也就是说如果你的Office不是正版,那么使用OWC是存在版权问题的。 HwDataReport基于微软最新的DotNet技术,界面清新且完美支持Win10及未来版本,可以放心使用。
- ?
从小会计跃升为CFO——如何设计内部报表系统(一)
牛以冬
展开
做过财务的都知道,财务部的整天忙忙碌碌,要向上级,兄弟部门等提交各种各样的报表,财务部的员工号称“表哥表姐”,为表格生,为分析死,受苦受累一辈子。
那么,这些报表,真的有必要吗?答案当然是有必要的,内部报表是CFO参与决策时,重要的参考依据,更是CFO解决具体运营问题的杀手锏。离开了内部控制报表,就是口水战式的管理。
我们在日常财务管理过程总,应该是管理制度化,制度流程化,流程表格化,表格信息化。
首先,我们将内部控制报表进行一个分类:
1、按控制对象,会计要素分类:横向---宽度,可以分为6大类
资产类控制报表负债类控制报表所有权权益类控制报表成本费用类控制报表收入类控制报表利润类控制报表外加现金流类控制报表,这个报表很重要,现金流断了,也就没有造血功能了,结果只有死亡。
2、按控制角度分类:纵向---深度
集团控制报表公司控制报表部门控制报表还有员工、项目、产品、时间、区域、客户、供应商、预算、其他要素控制报表等等。
3、按数值分析方法分类:结构分析报表、趋势分析报表、差异分析报表、因素分析报表
4、按时间分类:日报、周报、月报、季度、年报等等。
那么这么多分类,到底要做多少张控制报表?我们应该因需而做,因管理要求的精细度而设计,因KPI考核而设计各种不同分类的报表。比如营销部门考核到个人,考核到单个产品的消耗,那么就要设计到个人的内部控制报表。
总之,我们在设计内部报表时,要考虑报表的层次结构,内部控制报表就是我们做决策的最主要的依据。下篇继续介绍内部报表的设计步骤,内部报表的数据来源,内部报表的操作要点。
作者简介:一个做互联网运营的老财务人,从业12年,现创业公司合伙人兼CFO, 注册税务师,历经大型物流企业,500强实体制造企业,移动互联网上市公司,跨境电商领导企业担任合伙人、CFO、对企业战略、项目运作、顶层商业模式结合财务战略设计有较强的架构能力,创业项目融资B轮。
- ?
东北证券——“智能报表系统”的建设经验
映阳
展开
原工行董事长姜建清曾说:未来的好银行一定是数据银行。数据银行的两大核心能力就是数据采集和数据分析。近来,有不少银行在数据分析方面有所行动,有的是成立“统计信息部、数据分析部”,有的是将数据分析能力重新明确到信息中心等。
按百度百科的定义:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
这个定义比较精确,包含了几个要点:
统计分析方法:数据分析肯定需要分析方法及工具;大量数据:分析的原材料;形成结论:分析的结果;决策并采取适当行动:数据分析最终实现价值。质量管理体系:避免数据污染及模型误差。
数据分析的定义和工作流程都很清晰,同时,如何快速启动数据分析工作并尽快体现数据分析的作用,是很多数据分析类部门当前关注的重点。
数据分析的建设之路,可以从下面几个方面统筹考虑:
业务应用方向
银行的业务应用经过多年发展,已经有成熟的应用框架:客户管理、风险管理、财务管理、运营管理、及监管报送及信息披露。
数据分析部门应结合业务发展及规划,综合相关IT系统建设情况,选择数据分析的业务领域。
数据分析方法
在统计学中,统计分析方法可以简单划分为:描述性统计分析、探索性数据分析以及验证性数据分析。
在数据分析初期,分析部门更应该放在描述性及探索性方法上。在此过程中与科技、业务部门多交流沟通,以达到熟悉业务、了解数据的目的。
数据分析体系
数据分析体系包括数据分析平台的建设,分析平台包括三大模块:
数据脱敏采集平台:根据分析需要,从银行数据平台中脱敏、抽样相关数据;
数据建模平台:也可称为模型数据沙箱,用来进行数据分析;
数据服务平台:为业务应用提供数据分析结果服务。
以下就举例东北证券的数据平台建设经验。
报表系统的介绍
-
1、只需3秒快速实现求和
-
2、如何快速填充序号
-
3、如何自动填充序号(公式法)
-
4、数据条的神奇应用
-
5、多文本快速合并
-
6、查找与替换的不同玩法
-
7、快速定位到指定区域
-
8、数据排序、工资条制作
-
9、快速筛选(模糊、精确筛选)
-
10、快速插入空行
-
11、快速删除空行
-
12.快速跳转到天涯海角
-
13、.同时查看两个Excel文件
-
14、用条件格式扮靓报表
-
15、一键插入Excel图表
-
16、批量处理行高、列宽
-
17、利用拆分功能查看数据
-
18、批量录入相同内容
-
19、工作表快速跳转
-
20、批量录入表格模板(精品课程)
-
21、Excel函数与公式的应用、公式循环引用的查找
-
22、IF函数单条件判断同比增长
-
23、用sum函数 格式相同,连续多表数据汇总
-
24、excel快捷键
-
25、VLOOKUP函数——根据销售员匹配销售额
-
26、统计各部门销售总额
-
27、统计指定条件个数
-
28、怎样输入当前日期和时间、星期数
-
29、销售业绩排名
-
30、Sumproduct函数-万能函数(销售额汇总求和)
-
31、根据销售员,地区,商品名称汇总
-
32、批量替换PPT字体
-
33、给销售额数据批量添加万元单位
-
34、一秒快速核对两列数据
-
35、快速定位到指定单元格或区域
-
36、快速制作双行标题工资条
-
37、给你的表格做个瘦身
-
38、快速打开常用的Excel文件
-
39、快速打开多个Excel文件
-
40、利用创建组—快速隐藏/展开多列数据
-
41、快速制作下拉菜单
-
42、复制粘贴表格,如何保留数据源列宽格式一致?
-
43、两列数据位置互换
-
44、1秒钟扮靓报表——如何实现表格隔行换色
-
45、快速删除重复记录——保留唯一值
-
46、快速向下填充、向右填充,文本或公式
-
47、给Excel文件添加密码
-
48、插入带图片的批注
-
49、输入公式后不计算?
-
50、如何设置单元格缩进
-
51、快速解决Excel表格总显示货币格式
-
52、批量添加万元单位
-
53、你会四舍五入么?
-
54、用RAND函数机选彩票
-
55、冻结首行你会么?
-
56、超链接的高级应用
-
57、IFERROR函数-屏蔽错误值
-
58、批量填充颜色
-
59、录入数据
-
60、快速输入工号
-
61、快速行列转置
-
62、自定义缩放界面
-
63、多个单元格同时输入
-
64、如何计算立方米?
-
65、快速制作双行标题工资条
-
66、输入带方框的√和×
-
67、快速将姓名对齐
-
68、快速输入性别
-
69、按单位职务排序
-
70、自动计算合同到期日期
-
71、计算时间间隔
-
72、日期和时间的拆分
-
73、快速处理不规范的日期格式
-
74、快速填充合并单元格
-
75、效率加倍的快捷键
-
76、快速复制表格和对象
-
77、快速创建工作表副本
-
78、快速复制序列号
-
79、快速显示公式
-
80、多个单元格同时输入
-
81、快速调整显示比例
-
82、快速自动填充
-
83、快速填充(Ctrl+E)
-
84、Ctrl与数字键结合
-
85、快速将多列数据整理为1列
-
86、快速将1列数据拆分为多列
-
87、快速定位公式
-
88、快速录入数据
-
89、快速累计求和
-
90、身份证号码显示为0怎么办?
-
91、快速制作斜线表头
-
92、文本竖向显示
-
93、神奇的监视窗口
-
94、不一样的格式刷
-
95、快速美化图表
-
96、快速生成当前日期
-
97、快速找出循环引用
-
98、快速提取信息
-
99、二维表快速转换为一维表
-
100、快速多表合并