全球最资讯丨人工智能如何进行数据管理?

人工智能正在悄然改进数据管理,包括其质量、可访问性和安全性。

但是随着数据越来越多,数据管理变得至关重要。


(资料图片仅供参考)

数据管理的重要性

人工智能正在悄然改进数据管理,包括其质量、可访问性和安全性。

数据管理对于创建数据可以在整个组织中发挥作用的环境至关重要。有效的数据管理可以最大限度地减少不良数据引起的问题,例如增加摩擦、预测不佳,甚至是简单的不可访问性,最好是在它们发生之前。

然而,管理数据是一项劳动密集型活动:它涉及清理、提取、集成、编目、标记和组织数据,以及定义和执行许多与数据相关的任务,这些任务通常会让数据专家和员工感到沮丧他们标题中的“数据”。

人工智能已经以数千种方式成功应用,但其中一种不太明显和不太引人注目的应用是改进数据管理。我们认为人工智能在五个常见的数据管理领域发挥着重要作用:

• 分类:广义上包括从文档、照片、手写和其他媒体中获取、提取和构建数据。

• 编目:帮助定位数据。

• 质量:减少数据中的错误。

• 安全性:保护数据免受不良行为者的侵害,并确保根据相关法律、政策和习俗使用数据。

• 数据集成:帮助构建数据的“主列表”,包括通过合并列表。

下面,我们依次讨论这些领域中的每一个。我们还描述了供应商格局以及人类对数据管理必不可少的方式。

人工智能对数据管理的影响

单靠技术无法取代良好的数据管理流程,例如主动攻击数据质量、确保每个人都了解自己的角色和职责、构建数据供应链等组织结构以及建立关键术语的通用定义。但人工智能是一种宝贵的资源,可以显着提高生产力和公司从数据中获得的价值。以下是人工智能可以对组织中的有效数据管理产生最大影响的五个领域。

1、数据分类;

数据分类和提取是一个广阔的领域,随着越来越多的媒体被数字化以及社交媒体越来越以图像和视频为中心,它的规模还在不断扩大。在当今的在线环境中,如果没有人工智能,就不可能大规模地审核内容以识别不当帖子(尽管许多人仍在该领域工作)。我们在这个领域包括分类(这是仇恨言论吗?),身份/实体解析(这是人还是机器人,如果是人,是哪一个?),匹配(数据库 A 中的 Jane Doe 是否与数据库 B 中的 JE Doe?),数据提取(此司法备案中最重要的数据是什么?),等等。

多年来,人工智能的原始形式一直用于光学字符识别 (OCR),以从银行支票或写有地址的信封等物品中提取重要数据。OCR 变得如此普遍,以至于我们不再考虑 AI 等功能。较新的 AI 系统已通过深度学习模型扩展了 OCR,这些模型现在能够准确读取人类笔迹。

人工智能是一种宝贵的资源,可以显着提高生产力和公司从数据中获得的价值。

重要数据通常采用固定的文档格式,如传真、PDF 和冗长的文字处理文档,为了访问、分析甚至回答相关问题,必须先将其提取出来。例如,在医疗保健领域,信息仍然通过传真传递,访问它需要大量的人力。一家电子病历公司编写了一个人工智能程序,从传真中提取数据并将其直接输入到 EHR 系统中,从而节省了大量时间。人工智能程序还可以从合同中识别和提取重要条款,这对律师和审计员等很有用。

2、数据编目;

几十年来,公司一直缺乏关于关键数据在其系统和记录中的位置的准确指导。幸运的是,数据编目在过去几年中出现,作为跟踪该材料的重要帮助。然而,创建并保持此类目录最新是一项劳动密集型工作。

人工智能可以自动搜索各种数据存储库并自动创建目录。人工智能系统可以捕获系统文档中存在的任何元数据。人工智能还可以描述数据的沿袭——数据来源、创建者、修改方式以及当前所在位置。

但是,虽然使用 AI 可以更轻松地创建目录和数据沿袭信息,但公司仍必须努力解决现有数据环境的混乱问题。许多公司拒绝使用传统的劳动密集型方法创建目录,因为他们不想揭示架构混乱的程度,或者因为他们想等到数据组织得更好、质量更高后再投入大量工作. 然而,使用人工智能轻松创建和更新目录意味着公司可以将更轻松的信息访问与持续的数据改进流程结合起来。

3、数据质量;

数据质量工具本质上是实施控制,通常使用业务规则来定义允许数据值的域。考虑一个由一天和一个月组成的日期。允许值的组合只有 366 种。因此,“Jebruary”不是允许的月份,“35”不是允许的日期,“February 31”不是允许的组合。定义、编码和更新业务规则尤其繁重,而我们在基于机器学习的 AI 中看到了巨大的好处。

AI 工具可以扫描数据以识别不允许的值,一些错误的值会自动更正,而其他值则分配给某人或某个组进行更正。一些供应商已经吹嘘他们的工具将机器学习用于这些目的。

AI 还可以执行其他与数据质量相关的功能,包括使用来自其他内部或外部数据库的附加信息(在匹配过程之后)扩充数据,预测如何填补缺失的数据缺口,以及删除重复或很少使用的数据.

重要的是,如果供应商支持更主动的数据质量管理方法,他们可以改进他们的工具——一种专注于防止数据错误而不是发现和修复错误的方法。为此,应在尽可能靠近数据创建点的地方应用控件。此外,工具应使数据质量测量与业务影响密切相关,并支持统计过程控制和质量改进。

4、数据安全;

保护数据安全和隐私是当今任何组织的关键问题。自数据保护行业诞生以来,防止黑客攻击、数据泄露和拒绝服务在很大程度上一直是人类活动。

人工智能可以协助完成其中的许多功能。例如,它在威胁情报方面很有用——观察外部世界;合成威胁信号、参与者和语言;并预测谁可能对谁做什么。基于 AI 的威胁情报是对网络安全专业人员面临的众多挑战的回应,包括大量威胁行为者、大量看似毫无意义的信息以及熟练专业人员的短缺。

领先的解决方案采用机器学习来跨多个内部和外部系统自动收集安全数据,从非结构化格式创建结构化数据,并评估哪些威胁最可信。人工智能系统可以根据以前的攻击模式预测可能的攻击路径,并确定新威胁是来自以前已知的攻击者还是新威胁。考虑到跨多个未连接的安全系统的误报网络安全威胁的数量,决策规则和机器学习模型的组合可以对威胁进行优先排序或分类,以供人类调查。

无监督学习系统可以识别组织 IT 环境中的异常情况,例如异常访问模式或访问组织系统的罕见 IP 地址。这些方法的优点是不需要接受过去的网络安全方法的培训,这些方法总是会发生变化。

AI 还可用于识别欺诈或不遵守法规的内部威胁。这种能力对银行业和投资业等受到高度监管的行业特别感兴趣。人工智能软件监控组织内的数字通信并识别可疑语言或行为模式。当然,人工调查对于确认员工或客户的渎职行为是必要的。

5、数据集成。

也许人工智能对数据管理的最大改进之一是在数据集成领域——也称为掌握——这涉及创建一个主数据记录或“黄金”数据记录,这是组织内数据元素的最佳可能来源。公司可能出于多种原因需要数据集成:因为随着时间的推移,他们激增了不同版本的关键数据,因为他们想要将交易数据重新用于分析目的,或者因为他们收购或合并了拥有自己数据库的公司。从历史上看,在大型组织中合并和掌握数据一直是一项需要多年努力的艰巨任务。

过去,最常见的数据集成方法是主数据管理,它使用一组业务规则来决定,例如,是否应该合并一组特定的客户或供应商记录,因为它们本质上是相同的记录。然而,创建和修改大量规则非常困难且成本高昂,以至于许多数据集成项目在完成之前就被放弃了。

现在,来自 Tamr 等公司的基于机器学习的母带处理系统使用概率匹配技术来决定是否应该合并记录。很可能是同一实体的记录(比如 90% 或更高)会自动合并。这种方法无法解决的相对较少的记录可以由人类主题专家进行审查。

哪些数据管理需要人工来做?

尽管 AI 在改进数据管理方面取得了进展,但仍有许多事情无法做到。总的来说,好的数据还是需要好的管理者,他们关心数据,将其视为重要资产,并建立相应的管理体系。

AI 帮助不大的具体任务包括:

• 创建数据策略并确定哪些数据对企业最重要。

• 创建数据驱动的文化。

• 校准传感器或设备。

• 制定数据治理政策和结构。

• 定义关键业务术语或使用通用语言。

• 确定组织是使用正确的数据还是错误的数据来解决问题。

• 建议组织应在何处存储或处理其数据。

• 惩罚任何违反网络安全或数据相关欺诈行为的人。

那么,所有组织都将继续需要人来管理数据——包括创建和使用数据的普通员工,以及负责构建、保护和管理数据的数据管理专业人员。无论是现在还是在不久的将来,高度结构化和频繁执行的数据管理任务都不可避免地会在 AI 的帮助下实现自动化。这对数据管理及其用户和从业者来说总体上是个好消息,尽管一些低级别数据管理专业人员的工作可能会发生巨大变化甚至消失。在认为良好数据对其当前和未来运营很重要的组织中,重要的是要计划他们希望使用 AI 完成哪些任务,哪些活动仍属于人工去做,以及两者将如何协同工作。

关键词: 数据管理 人工智能 机器学习