将身份认同理论应用于数据管理
如果你更换了锤子的头部和手柄,它会是同一个锤子吗?这个古老的思想实验可以追溯到古希腊的哲学家,它揭示了身份与变化之间的矛盾关系。在保留其身份的同时,某些事情能够改变的程度和程度如何将身份认同理论应用于数据管理这种悖论的解决方案对于实体分析至关重要,实体分析是将信息链接起来以揭示人员,对象,事件和其他有价值的业务和治理内容的科学。这是许多人认为是“ 大数据 ” 愿景的体现- 通过统一来自许多来源的数据,可以从整体上探索事物的集体知识。
实体分析需要能够跟踪事物身份随时间的变化。否则,数据将面临过时或更糟的腐败风险。随着事情的变化,它们与历史记录的链接可能会中断,从而无法确定在不同时间记录的事物是否实际上是相同的。
这个问题的最初解决方案是关系建模 - 用任意固定标识符识别称为“键”的东西,然后通过键引用事物。但仅靠密钥无法满足实体分析。密钥必须属于托管密钥空间。合并来自两个或多个密钥空间的数据时会产生冲突。业务单位和第三方数据提供商(如经销商,分销商,公共记录聚合器或社交媒体服务)都对同一事物有不同的表示。此外,随着非规范化成为可扩展性的基本设计,密钥的使用已经减少。
在企业数据的世界中,身份分散,混乱并且总是在变化。锤子的悖论仍然是一个诅咒。
我为这个悖论提供了一个实用的解决方案:身份作为历史。身份是实体随时间变化的谱系,而不是实体在某个时间点的状态。实体的属性被真实地表示为不可变事件,而不是可变属性,表示实体的变化或缺乏。这些事件的集合揭示了整个实体的身份。让我们探讨这个理论,然后讨论它在数据管理和实体分析中的应用。
理论
一切都有一个能够改变的身份。一个人可以改变姓名,地址,关系或面部结构。一个移动设备可以更改电话号码,IP地址或SIM卡。但即使改变了它的每一个描述属性,所讨论的东西的自我认同也会持久。保持不变的是那件事的变化历史。身份作为实体随时间的变化谱系存在,而不是单个时间点的实体状态。
身份的人
那么什么是实体?什么东西的本质是什么呢?如果没有什么可以识别的话,那么身份是什么?这是无益的思考。它欢迎一堆乱七八糟的概念解构,在这种解构中,事物被分开,以至于没有任何东西可以描述,更不用说是有用的了。实体是一个具有实际目的的概念,我们可以在不进一步解构的情况下感知它。例如,人的概念很容易被察觉,并且在商业和治理中具有明确的用途。而一个人的身份是我们可以归因于我们认为是一个独特的人的事物的变化的历史。
所以,如果你更换了锤子的头部和手柄,它会是同一个锤子吗?根据这个解决方案,它取决于你是否可以追踪锤子的变化谱系。通过顺序更换头部和手柄,您可以将新部件与旧部件相关联,从而保留锤子的特性。通过丢弃头部和手柄并立即更换两者,您已经构建了一个具有自己特性的新锤子。
实践
锤子的身份似乎很容易跟踪。什么是追踪更复杂事物身份的最佳方式 - 比如一个人?
让我们看看如何将这种“身份作为历史”理论应用于数据管理。考虑这两种设计选择。第一个假定具有单个托管密钥空间的环境。第二个假设许多冲突的密钥空间。两者都可以在同一数据管理策略存。
1.将属性表示为状态更改。
模式通常一维地表示属性。没有时间的背景。更新记录时,新值会覆盖旧值。这种设计打破了身份的血统,消除了其宝贵的历史。引用旧身份细节的记录可能会失去参照完整性,使得无法将它们与现在存在的事物联系起来。
您想要的是指示实体状态更改的事件的时间轴。将属性视为在某个时间点确实存在的事实。今天我可以如实地写道,“戴夫住在研究三角。”但这个事实可能会过期。永远是真实的是写下来,“戴夫在2016年2月1日住在研究三角区。”这个事实永远铭刻在我的历史中 - 我的身份。它总会形容我。
将属性与实体分离,并将属性与其值分离。将属性与一对多关系中的值相关联。将值表示为在一个时间点描述实体属性的不可变事实事件,而不是仅在当前实体中作为实体的可变属性。让每个事实事件回答这些问题:
哪个实体改变了?
哪个属性改变了?
旧的价值是什么?
什么是新价值?
什么时候发生变化?
根据需要将此模型调整为您的数据架构。但要记住这个原则:属性是一个事实,表示某个时刻某个实体的状态变化。
2.通过实体解析推断状态变化。
前一种方法假设一个完美的数据治理世界。在这个世界上,部门领导者就如何定义和管理数据以及如何实施变革达成一致。数据管理员遵循明确的准入和管理政策。他们知道哪些更改适用于哪些记录。他们一贯行动,没有错误。这个完美的世界享有值得信赖的“单一版本的真相”,只需一个托管密钥空间。随着时间的推移,对组织至关重要的事物的身份将在数据中得到充分体现。
现实从未如此理想。政治,政策,错误和其他人为因素导致混乱数据的封闭孤岛。业务部门最终以不同方式表示相同的信息。从外部世界引入的数据引入了其他表示。对更广泛的组织至关重要的事物的身份变得越来越分散和不连贯。这是实体分析的最大障碍。没有完整的历史血统,你无法解决锤子的悖论。
从不同的数据重建身份需要一种称为实体解析的数据集成的专门方法 - 即使具有相同实体的不等表示,也链接表示同一实体的记录的过程。我们的想法是获取一对记录,确定它们是否类似于同一个实体,如果它们相同则链接它们,并重复每对记录。实体的身份,包括对实体的所有已知变化,在其记录的链接中变得明显。
有效的实体解决系统将迅速揭示对组织至关重要的事物的完整身份。当有关实体的信息分散在大型,多样和无人值守的数据集中时,这对于执行实体分析至关重要。它使您可以自由地分析整个组织中存在的实体的全部范围和历史,而不必违背权力下放和人为错误的现实。
如果您管理大型企业的数据并且可以看到实体分析的价值,那么我建议您认真考虑一下Novetta Entity Analytics。该软件解决了大型,多样化和无人值守数据的身份和变化问题 - 最初是针对安全问题,现在适用于Hadoop上的每个人。它是我发现的唯一一个提供通用实体解析框架的软件,它可以在几小时内匹配十亿条记录。
我会留下一些最后的想法。想想你是如何随着时间的推移而改变的。想想每个人和生活中一切的逐渐演变。现在想想拥有一切对你来说至关重要的完整历史是多么有用。这就是实体分析的力量,这就是为什么你应该关心锤子的悖论。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
作为A股市场中极具代表性的黄金珠宝行业龙头企业,作为中国历史最悠久的珠宝品牌之一,老凤祥(股票代码:600612)...浏览全文>>
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤