一、背景
对于数据产品来说,核心包括数据更新、数据质控、数据查看、数据查询、数据应用、数据导出等几个大的方面。而数据更新是其中重要一环。只有新数据源源不断的进入,整个数据库才会变成活库,才会更有意义。
以我熟悉的医疗科研数据库为例。某医院的专病科研数据库在建立之初,医院提供了50位患者的前10次就诊记录的原始病历数据,数据经过处理和用户确认以后进入数据库。
针对该疾病,患者在生存状态下会继续进行复诊。如果后续就诊数据不纳入到系统中来,医生将无法了解该患者的疾病进展,在做进一步的医学研究时可能恰好需要患者后续疾病进展情况。
例如,研究患者所服用新药对某个疾病的影响,由于缺乏进一步的就诊数据支撑,致使该患者的数据在该科研课题下无法被使用。该患者数据的价值将会缩减。
相反,如果患者记录数量和患者就诊次数不断增加,该数据库可以支撑的医疗科研方向将更广泛。
同时由于数据量的增加,得出的科研结论也更加具有说服力。同时还可以拓宽科研方向,不只是做回顾性研究,还支持前瞻性研究。
数据更新是针对已有数据而言的,指的是针对同一条数据记录,新数据项替换数据库中与之对应的已有数据项,或者在已有数据记录的基础上增加新的数据记录。
共有四种形式,新增数据记录,完善数据,修改数据,删除数据。
1. 新增数据记录
指的是,在数据表中新增一条全新的数据记录,新增数据记录必然带来ID的增长。
例如:患者表中有100位患者,新增一个患者,则会在患者表中插入一个新的数据记录,ID也会随之增长。
2. 完善数据
指的是,对于某条数据的某个字段,该字段原值为空,将该空值填入数据的过程。
例如:患者张三的“医保类型”字段为空,填入数据“商业保险”。
3. 修改数据
指的是,针对数据库中有值的字段,将该字段的值从A改为B的过程。
例如:将患者张三的“医保类型”,从“商业保险”改成“城镇职工医保”
4. 删除数据
指的是,针对数据库中有值的字段,将该字段的值改成空的过程。
例如:将患者张三的“医保类型”字段的内容从“城镇职工医保”改成空。
在新增数据记录、完善数据、修改数据、删除数据的过程中,如果所有数据操作均由程序做出决策,则程序采取同一种策略处理,要么全部接受插入,要么全部拒绝插入;要么全部使用新值,要么全部使用旧值。
因为每条数据的前后文语境不同,有的数据需要接受插入,有的数据需要拒绝插入。
统一的处理策略,必然会导致部分数据错误。而程序不具备识别上下语境的能力。所以只能将决策的工作交给用户,由用户根据每条数据的前后文来对每一条数据进行单独决策,从而确保数据的准确性。
例如:张三的“临床诊断”字段已有数据是“肺小细胞肺癌”,待入库数据是“肺鳞癌”。
此时两个数据出现了不一致,无论用新值还是旧值都有可能造成数据的错误。进一步造成科研结论的不准确。此时就需要人工去查看该患者的就诊信息,来决策该患者的临床诊断。而程序是无法完成该项工作的。
由于系统采取统一的策略来处理数据,从而带来的数据准确性的问题。该问题产生的原因是未能将决策权交给用户。所以需要在恰当的时机引入人工决策,以确保数据准确性。
二、解决方案
当批量数据入库时,触发数据更新机制。数据更新过程中,遇到数据冲突或者清空时,才引入人工决策机制。
1. 数据冲突
指的是,针对某数据项,已有数据中有值,待入库的数据也有值,但是两个值不一致。
当数据产生冲突时,如果系统强制使用新值或者原值,将有可能造成数据的错误。并且程序无法判断原值是正确的数据,还是现值是正确的数据,需要将该决策告知用户。
用户可以执行接受新值、拒绝新值的操作。接受新值后,新值将进入数据库。
拒绝新值后,则不对旧数据做任何操作。如果用户不作任何决策,在用户查看数据详情时,再次给予提示,否则该数据记录处于只读状态,不允许编辑。直到用户做出决策。
2. 数据清空
指的是,针对某数据项,已有数据中有值,待入库的数据中没有值。
当某项数据需要清空时,如果系统强制直接清空,将有可能造成正确的数据被误删。同时,也有可能原值是错误的。但是程序无法判断数据的正确与否,需要将该决策告知用户。
用户可以执行接受删除或拒绝删除的操作。接受删除后,该值将会被置空。
拒绝删除后,则不对旧数据做任何操作。如果用户不作任何决策,在用户查看数据详情时,该数据记录处于只读状态。并且再次予以提示,直到用户做出决策。
本文由 @申bobo 原创,未经许可,禁止转载