挪威2PB华为闪存及LLM培训

2026-05-25 1 阅读 rbanffy
FLASH 挪威的 2 PB 华为闪存存储和 LLM 培训 Chris Mellor Chris Mellor 块和文件编辑器于 2026 年 5 月 22 日星期五发布// 17:22 UTC 挪威国家图书馆正在开发一种能够理解挪威语的大型语言模型 (LLM),并在其 AI 训练数据管道中使用 2 PB 的华为 OceanStor Dorado 闪存存储。马吕斯·胡斯内斯。该图书馆 (Nasjonlbiblioteket) 的 IT 平台负责人 Marius Husnes 在巴黎举行的 2026 年华为 ID 论坛上讨论了该项目,并表示没有商业法学硕士提供商正在开发本地(挪威)语言法学硕士。他断言,任何拥有自己语言的国家,如果没有接受过该语言培训的主权法学硕士,就会处于不利地位,因为受过全球培训的英语法学硕士不会了解用当地语言描述的该国的历史、新闻和文化。挪威文化部责成国家图书馆建立一个主权人工智能(LLM),因为该图书馆拥有该国最大的挪威书籍、报纸、网页等数字馆藏。与许多州立图书馆一样,它有权接收每本出版的书籍和广播内容的副本。它在这一领域的法定缴存授权超出了书籍范围,因为它有义务收集和保存挪威的所有文化遗产。 BANDF AD 与挪威报纸达成的一项协议允许对受版权保护的内容进行法学硕士培训,Husnes 表示:“没有一家私营公司拥有这样的培训。”该图书馆也有能力做到这一点,因为它自 2005 年以来一直在对其馆藏进行数字化,并积累了以 3-2-1 形式存储的 20 PB 独特数据(3 个副本、2 种媒体类型、1 个异地),这意味着总共约 60 PB。原始文本、声音、动画、静态图像和网页内容的数字化过程涉及大量 OCR 扫描,并生成大量元数据以及用于在线访问的 API。大部分数据存储在数字磁盘加磁带存档(一种保存系统)中。 Husnes 的任务是将这些数据输入 LLM 培训系统。他说瓶颈不是计算,而是计算。是数据质量、清理和管道吞吐量。有两个主要的处理阶段。首先是内部计算,使用Nvidia DGX H200系统、384核CPU集群和多个华为OceanStor Dorado全闪存阵列,总计2PB闪存容量。这是用于数据管道和训练准备的低延迟存储。 BANDF AD Husnes - 培训国家法学硕士。该管道具有数据摄取、清理、重复数据删除、格式标准化、验证和准备步骤。数据通过管道后,将被发送到挪威国家超级计算机 Sigma2 Olivia 系统,用于实际训练运行。 Olivia 系统是 HPE Cray Supercomputing EX 系统,具有 448 个 GPU 和 64,512 个 CPU 内核。它使用 5.3 PB Cray ClusterStor E1000 存储系统。一个大的问题领域是克服两种不同的存储系统需求。 60 PB 保存系统针对耐用性和成本(而非快速 IO)进行了优化,并且具有较高的读取延迟,专为不频繁访问而设计。 AI Pipeline 存储专为高吞吐量、低延迟、并行数据 IO 而设计。 Husnes 表示,他了解到没有人谈论将 PB 级数据集从存档转移到并通过 AI 数据管道系统所涉及的问题。他的团队必须自己找出如何做到这一点。 Husnes - 保存和 AI 管道存储。法学硕士培训正在进行中,他在演讲结束时总结了他的团队仍在学习的内容: 评估 - 没有标准的评估工具来评估主权挪威法学硕士。该语言有两种书面形式、多种方言和历史变化。他们正在即时构建自己的评估工具。治理——谁控制对主权法学硕士的访问?谁决定它的用途?这些都是制度和政治问题,没有简单的答案。编排——制作三个系统;保存档案+本地AI环境+国家Sigma2超级计算机,顺利协同工作是一个正在进行的项目。 BANDF AD 我们的结论是,一是华为存储在欧洲市场中发挥着重要的作用,二是任何开发主权、本地语言法学硕士的国家都最好咨询 Husnes 并熟悉其中涉及的内容。正如胡斯内斯所​​说;挪威是一个小国,正在解决每个非英语国家都会面临的问题:如何构建反映您的语言、文化和历史的人工智能?人工智能需要管理者,而不仅仅是建设者。华为挪威llm flash