行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
2019/3/21 技术琐话 那些关于数据治理的不过时观点(附500页ppt下载) 顺风哥技术琐话1周前 Data hasa betteridea ·数据不是越多越好 ·不明白如何消费数据的数据集市建设就是耍流氓 ·大数据是AI的基础,在应用侧,AI场景更多的是呈点状分布 数据是有成本,此前坐馆老司机陈斌老师曾发表过《数据是黄金还是垃圾》的观点。数据是有 成本的。存储数据是需要成本的,数据的成本绝非只有物理存储空间成本那么简单,实际上它 包括了下述五种成本要素: ·物理存储器:各种专用或通用的数据存储设备或者分布式存储设备; ·人员和软件:为了有效地管理存储而必须配备的人员与软件所投入的资金和努力 ·电力和空间:为确保存储系统能正常运行所需要的电力和IDC机房空间的投入; ·遍历的时间:为了检索数据而不得不遍历存储空间所耗费的时间; ·灾备的成本 为了保证数据安全而进行数据备份所需要的各类资源,数据的成本=物理存储器+人员和软 件+电力和空间+遍历的时间+灾备的成本。 、数据的成本价值困局 https://mp.weixin.qq.com/s/ZUMYdW_Zra71MRXb6Kv6WA 1/15 2019/3/21 技术琐话 数据对企业的价值并非相同。在许多企业中,时间会减低我们可以从任何特定数据元素中所获 得的价值。例如,很多旧数据对建立交易模型用处不大。某个客户与电子商务平台交互的旧记 录可能有用,但其价值远不如最新的数据。电话公司几年前的详细通话记录没有最新的通话记 录对用户的价值大。三年前的银行交易记录不如最近几个星期的有用。人们可能会偶尔看一下 老照片和老视频,但是经常看的还是最近上传的新照片和新视频。虽然我们不能说所有的数 据都没有新数据价值大,但在大多数的情况下,新数据更有价值是一个事实。 一高价值 总读取 现在 高货币价值 近因! 永不 永不 频宰 总是 低货币价值 低价值 永不读取 上面的表达方法叫RFM图,R代表数据的产生时间(Recent),F代表数据的使用频率,M代表 以货币表达的数据价值(Monetary)。从上面的RFM图可以看出,越是最近产生,越是经常 使用的数据其货币价值越高(右后上方的顶点)。相反,产生很久,而且不常使用的数据几乎 没有什么货币价值。 如果数据的价值随着时间的推移而降低,那么为什么我们还要保存那么多的数据呢?我们把这 个问题叫作数据的成本价值困局。大多数公司并没有对数据价值随时间的推移逐渐降低和维持 高速增长的数据成本这些事实引起高度注重。 https://mp.weixin.qq.com/s/ZUMYdW_Zra71MRXb6Kv6WA 2/15 2019/3/21 技术琐话 8m FILTERDECAY 15 VELOCITY 1.51 447 12-Kit-909C Jun 通常情况下,更新、更快存储技术的出现使我们能够以更低的初始成本来存储相同数量的数 据,或者用相同的成本来存储更多的数据。随着单位存储成本的下降,我们要保存更多数据的 愿望也逐渐膨胀。在高速增长的公司,除了要考虑数据的价值很可能会随着时间的推移而降低 的事实之外,我们还要考虑虽然单位存储成本下降,但保存数据的总成本极有可能增加的事 实。如何对此做出合理的决策对大多数企业提出了独特的新挑战。 准确的价值则取决于最终所选择的方案能够带来的利益。数据选项的价值有限度,为了给这个 价值一个界限,我们应该开始回答下述五个问题: ·我们过去经常依靠数据做出有价值的决定吗? ·在那个决定中,我们使用多久以前的数据? ·该数据最终创造的价值是多少? ·维护这些旧数据的成本是多少? ·平衡成本,最终的结果我们赢利吗? 提出这些问题并不意味着要从系统中删除所有的数据。如果没有一些有意义的数据,平台可能 无法运作。确切地说是要指出应该评估和质疑保留数据的策略,以确保所有保存的数据都有价 https://mp.weixin.qq.com/s/ZUMYdW_Zra71MRXb6Kv6WA 3/15 2019/3/21 技术琐话 值。如果在过去你没有依靠数据做出更好的决定,那么从明天开始使用所有数据的机会也不会 太大。即使你开始使用数据,也不太可能使用所有的数据。因此,应该确定: ·哪些数据具有真正的价值? ·哪些数据有价值但应该存储在低成本的存储系统? ·哪些数据可以删除? 然而,在大多数情况下,数据的价值会随着时间的推移而降低,无限的数据不等同于无穷的价 值。两者会有一个平衡点,在该点之后,旧数据的价值开始明显地衰减。因此需要了解数据的 价值,把数据在某一年的价值与之前二年、五年的价值进行比较,以此类推,从而确定一个数 据不再带来赢利的时间点和额外数据的增加会对保留客户、做出更好决策等等带来的接近于零 价值的时间点。 二、大数据时代下的数据治理压力 大数据时代的业务支撑面临“运维、管理、增值”三大压力,通过数据治理,实现 数据管理的降本增效,提升能力与价值 随着信息化技术的不断深入,数据 数据胀给业务支撑带来量 存储将迈入EB级别。目前支撑系 变到质变的后果,全球服务 统的总数据量已达到PB级别,以 器数据已每年30%的速度递 每年50%的速度递增,随着数据量 增。整个开发、架构、运维 的不断增长,资源投入及管理成本 体系都难已承载巨量的数据 也不断上升,从干万级上升到数亿 运维压力 对平台支撑以及系统管理能 级,提升几十倍。 力带来巨大的挑战。 增值压力 数据是企业最核心的价值,面对越来越激烈竞 争,越来越多的企业开始重视对数据管理理及 运营,用以提升业务发展能力。面对巨量数据, 如何有效进行数据的保值和增值 DTCC2015年中国教据库技术大会 S中· https://mp.weixin.qq.com/s/ZUMYdW_Zra71MRXb6Kv6WA 4/15
那些关于数据治理的不过时观点
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 路人甲 于
2022-08-23 08:57:57
上传分享
举报
下载
原文档
(1.6 MB)
分享
友情链接
T-CASME 661—2023 绿色建筑节能设计技术文件编制规范.pdf
T-ZZB 2846—2022 车用轻型可变速电动绞盘.pdf
T-SDJSXH 02—2021 建筑施工安全生产责任保险事故预防服务导则.pdf
GB-T 31722-2015信息技术安全技术信息安全风险管理.pdf
GB-T 23050-2022 信息化和工业化融合管理体系 供应链数字化管理指南.pdf
GB-T 42829-2023 量子保密通信应用基本要求.pdf
GB-T 27926.4-2021 金融服务 金融业通用报文方案 第4部分:XML Schema生成.pdf
GB-T 31773-2015 中药方剂编码规则及编码.pdf
GM-T 0027-2014 智能密码钥匙技术规范.pdf
DB37-T 3521.2-2019 政务信息资源目录 第2部分:核心元数据 山东省.pdf
T-NAIA 0215—2023 煤基厨灶用液体燃料.pdf
GB-T 5106-2012 圆柱直齿渐开线花键 量规.pdf
GB-T 38673-2020 信息技术 大数据 大数据系统基本要求.pdf
GM-T 0077-2019 银行核心信息系统密码应用技术要求.pdf
GB-T 18386.2-2022 电动汽车能量消耗量和续驶里程试验方法 第2部分:重型商用车辆.pdf
DL-T 1066-2023 水电站设备检修管理导则.pdf
T-CES 175—2022 质子交换膜水电解制氢系统性能试验方法.pdf
奇安信 2020年Android平台恶意样本整体态势分析报告.pdf
T-CHES 45—2020 雷达水位计.pdf
T-SIA 031.2—2021 系统安全工程 网络弹性构建指南 第2部分 网络弹性工程框架.pdf
1
/
3
15
评价文档
赞助2元 点击下载(1.6 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。