AI 推动着前所未有的数据增长。

随着模型的进步和 AI 的普及,数据创建将呈指数级增长。

创造和创新活动将因 AI 而爆发。

生成式 AI 正在开创一个新时代,富媒体将在日常生活的方方面面迅速增长,从个性化游戏到医疗成像再到内容制作等等。

助力用户进行创建、分析和开发的 AI 应用正变得越来越普及,由此释放 AI 驱动型的数据增长。而这仅仅是个开始。随着创新用例的扩展,人类和机器将以前所未有的速度生成数据。

AI 是数据增长的倍增器。

AI 一直是数据使用者,而现在,也是强大的数据创建者。

AI 仅用了 1.5 年就创建了 150 亿张图像¹。到 2028 年,使用 AI 模型创建的图像和视频将增长 167 倍²。最终,AI 时代将引发一个由三个关键因素驱动的主要数据增长转折点:更丰富的内容、更多的复制和更长的保留时间。

更丰富的内容。

AI 的变革潜力在于使用和产生富媒体的多模态模型。

更多的内容复制。

在训练模型并生成输出时,AI 数据被无数次复制。

更长的保留时间。

保存数据可以推动 AI 的发展并保证透明度。

更丰富的内容。

AI 的变革潜力在于使用和产生富媒体的多模态模型。

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

更丰富的输入(例如图像、音频、视频和 3D 动画)会产生更丰富的输出,支持更强大、更直观的体验。随着多模态 AI 应用范围和功能的扩展,个人和企业将能够以前所未有的速度进行创作。

未来富媒体 AI 将触及每个行业。
  • 适合游戏的高分辨率 3D 运动图形
  • 用于电影制作中虚拟场景的超高清视频,配有额外动画
  • 适用于建筑设计、工程设计、施工和制造的 3D CAD 生成器和物理模拟器
  • 放射科、肿瘤科、外科的 AI 医疗助手
  • 用于新药研发和测试的分子合成
  • 超个性化广告、游戏和在线体验
     
所有这些富媒体都将用于增强下一代 AI 模型。

如今,数小时内容、数千张图片及数 TB 数据顷刻间即可生成,有三件事情将会发生。更多的人将使用 AI 来创建越来越多的数据密集型内容;AI 将收集所有数据用于训练下一代模型;全球创建和存储的数据量将呈爆炸式增长。

更多的内容复制。

在训练模型并生成输出时,AI 数据被无数次复制。

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

生成和复制新内容只是整个 AI 数据生命周期中的一部分复制活动。在 AI 的开发和生产过程中,数据足迹会迅速扩大,而且在 AI 部署并开始生成内容后,数据足迹呈指数级扩展。在整个周期中,整个数据生态系统会被反复复制以确保严格的合规性。

复制在每一步都会成倍增加数据。
  • 在发现、整理和标注数据以用于训练时,数据也会得到复制。
  • 训练期间的定期检查点会备份进度,在典型的训练运行中创建数百个大型文件。
  • 部署模型和应用时,其数据会在众多节点和实例上复制。
  • 越来越多的人将使用 AI 来创建和迭代多个概念、实验和版本。
更长的保留时间。

保存数据可以推动 AI 的发展并保证透明度。

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

模型的训练从大量标记数据开始。在整个训练运行中,保存数据(包括检查点数据)可以提供对未来模型行为的洞察。模型部署并生成结果后,每个提示和响应都是评估模型性能、调整模型和准备下一次训练运行的宝贵来源。

数据应当在数据周期中的每个合理时间点得到保存。 
  • 改进和发展 AI 需要新的数据和洞察,而保存的数据就可以提供这种洞察。
  • 更加智能的 AI 将能够从存储的数据中获取洞察,从而创造新价值。 
  • 版权法要求必须获得使用许可,而保留数据就能提供可审核踪迹。
  • 法规要求安全存储要遵循隐私、法律和道德准则。
“可信赖 AI”取决于数据透明度。

长期保留数据对于建立 AI 模型的可信度至关重要。记录模型做出的每个决策并分析结果,可帮助开发人员发现模型偏差和错误。

将错误追溯至训练数据有助于解读给定模型的决策过程,并为重新训练和优化提供数据。这些数据点应当予以保留和共享,为模型的性能提供客观、透明的证据。