对于所有关于数据的大肆宣传(你听过狗万平台多少次“数据是新的石油”?),数量惊人的商业领袖们错过了他们最大的数据资产。人们关注的焦点一直是结构化数据——定义的数字和值——而我们生成的很多数据实际上是非结构化的。
非结构化数据是构成我们日常生活的视频、音频和图像,随着数字经济的发展,这些数据正在爆炸式增长。Gartner估计,非结构化数据占所有新企业数据的80%到90%,其增长速度是结构化数据的3倍。
这听起来令人惊讶,但非结构化数据实际上是当今进步的基础。我们所依赖的创新,从开发COVID-19疫苗所需的基因组研究,到历史博物馆的档案,到你最喜欢的Netflix热播电影的特效,都来自非结构化数据。
然而,企业并没有看到显而易见的情况。在一个2019年德勤调查,只有18%的组织报告能够利用非结构化数据。因此,其他82%的组织仍然不利用他们最有价值的资源。非结构化数据仍然是一个秘密。但对于能够弄清楚的公司,非结构化数据是一个主要的竞争优势。
以下是为什么非结构化数据已经等了这么长时间,以及如何将其重新放在前面和中心。
非结构化数据是有价值的,但它被误解了。
如果我们有这么多的数据是非结构化的,为什么它的服务如此匮乏?你可能会认为非结构化数据会得到更多的关注,但由于非结构化数据并不适合进行分类,企业需要更长的时间来理解如何使用它。
我们直观地认为数据是行和列,而非结构化数据不是这样的。它是由摄像机、记录设备、卫星、传感器、基因组数据、航空图像和其他物联网连接技术生成的。这是一座洞察力的金矿,我们必须用不同于以往的方式来挖掘。
非结构化数据以其原生格式存储,这意味着它缺乏预定义的数据模型或模式,不能在传统的关系数据库中进行管理。这种无组织的数据不能简单地存储在一组使用列和行的表中,企业传统上一直在努力以一种有意义的方式管理、分析和利用它们的非结构化数据。
大多数技术都不是为了解决这个问题而构建的,这意味着公司必须重新构建他们的体系结构,重构应用程序,或者使用第三方数据移动包从他们的数据中生成价值。毫无疑问,非结构化数据受到了不好的评价:没有人想要处理它,因为遗留文件系统并没有使它变得容易。
但还有另一种方法。
组织可以利用其原生形式的非结构化数据。
只是因为非结构化数据不适合在Excel表格中,并不意味着它是不可能处理的。你只需要说它的语言。了解您的数据策略是否设计用于以原生形式处理数据和应用程序是至关重要的。
在云时代,对象存储往往是许多企业最关心的问题,但大多数数据是作为文件创建和消费的。文件存储是将数据存储和管理为文件层次结构的一种格式或程序,在这种结构中,文件可以在目录结构中标识(通常显示为层次树结构)。现代文件系统针对基于文件的数据的特殊需求进行了优化,实现了大规模的可伸缩性、优化的性能和数据保护。
成功的企业正在使用其原生形式的文件数据存储、管理和构建高性能计算(HPC)工作流和应用程序——利用与云对象存储(如Amazon S3和Microsoft Azure)原生集成的本地挂载文件系统和数据服务并利用分析、机器学习和商业智能将数据转化为价值。
是时候把非结构化数据放在聚光灯下了。
无论您从事的是哪种业务,拥有处理非结构化数据的能力都应该是您业务中不可或缺的一部分。组织可以以更有意义的方式利用非结构化数据,为世界带来有影响力的结果。
以下是由文件数据驱动的各个行业目前正在发生的一些日常结果:
- 主要娱乐工作室在云中创建下一个大片电影
- 医学研究人员利用DNA测序为下一次传染病做准备
- 汽车制造商使用物联网传感器开发自动驾驶汽车的安全功能
非结构化数据不应该被边缘化。通过适当的关注和技术解决方案,您的组织可以使其默默无闻的数据成为展示的明星,并使您的创新成为现实。