飞桨助力高校前沿科学研究,支撑OpenKS大规模分布式训练、图计算

更新日期:2022年04月21日

       4月24日, 浙江大学举行OpenKS(知目)常识核算引擎开源项目发布会, 宣告浙大与合作单位研制的OpenKS常识核算引擎获得重大进展。中国工程院院士、国家新一代人工智能战略咨询委员会组长、浙江大学核算机学院教授潘云鹤说, 本次发布的OpenKS, 作为常识核算引擎项目中的根底软件架构, 界说并丰厚了常识核算的内在, 是我国在大数据人工智能方向的又一次有利测验。“可泛化的范畴常识学习与核算引擎”是以庄越挺教授作为首席科学家的科技立异2030“新一代人工智能”第一批重大项目, 该项目由浙江大学牵头, 联合北京大学、北京航空航天大学、哈尔滨工业大学、西北工业大学、之江实验室等顶尖学术组织、百度等职业领军企业联合建造, 旨在树立一整套可服务于常识密集型职业共性需求的常识核算东西、算法与体系, 协助这些职业快速地构建职业常识图谱, 供给职业相关的智能规划与决议计划支撑。经过各课题组的深入研究和课题间的严密协作, 一起研制了可用于支撑各职业常识服务体系构建的OpenKS常识核算引擎算法库。OpenKS依据百度飞桨, 可完结模型的大规划分布式练习与图核算, 处理了从数据到常识, 从常识到决议计划中的三大问题。
       OpenKS集成很多算法和处理方案, 供给了一系列常识学习与核算的多层级接口标准, 可供各组织研制人员以一致的方式进行算法模型研究成果的封装、集成与服务, 并经过开源机制支撑企业和社区开发者依据不同的场景需求对接口服务进行调用和进一步开发。各行各业能够挑选引擎中的算法, 快速地树立职业体系运用, 以应对多变的决议计划需求。当职业与需求发生变化, 体系能够及时地供给算力、算法支撑, 以缩短职业智能化改造的时刻。
       以工程科技教育职业为例, 目前我国存在很大的工程人才缺口, 但是工程科技类别很多、常识体系繁复、常识点之间相关杂乱、教材层次各异导致自学门槛较高。不只如此, 学生布景各异、学习意图各异, 也导致一致练习注视较低。
       OpenKS常识核算引擎包含的常识抽取算法API、常识表征学习API、分布式常识核算API、常识图谱运用API等可为工程科教职业构建常识图谱,

并依据图谱为不同学生规划个性化教育道路, 满意差异化学习的需求。深度学习结构助力OpenKS智能化加快常识图谱络绎不绝的研制运用需求海量数据、巨大算力以及杂乱的模型算法, 而构建常识图谱底层渠道所需的络绎不绝要求高、周期长、投入大、收益慢。依据深度学习结构展开人工智能科学实验或产品研制, 则能够防止在常识图谱体系树立中重复造轮子。
       百度飞桨自2016年开源, 是我国首个自主研制、功用齐备、开源敞开的工业级深度学习渠道。依据百度飞桨渠道, OpenKS可完结模型的大规划分布式练习与图核算, 处理了从数据到常识, 从常识到决议计划中的三大问题。飞桨助力OpenKS完结模型大规划分布式练习面临超大规划常识图谱练习, 跟着图谱规划增大, 数据量增多, 对练习结构要求越来越高。针对分布式常识核算, OpenKS体系斑驳陆离飞桨超大规划深度学习模型练习络绎不绝, 支撑百亿图谱分布式存储和检索, 还支撑百节点数据并行练习万亿稀少参数, 从而学习大规划的常识图谱。针对常识图谱运用, 如常识问答, 模型比较杂乱, OpenKS斑驳陆离飞桨调集通讯多机多卡练习;常识引荐使命, 练习数据比较大, 稀少特征比较多, OpenKS除了斑驳陆离飞桨万亿稀少参数服务器外, 跟着模型越来越杂乱, 还引进纯GPU参数服务器来提高稀少模型的核算功用, 把100台CPU机器才干练习的模型只用1台多卡GPU设备即可完结练习, 不只节省了本钱, 还确保了集群的稳定性和扩展性。一起, 在常识图谱运用场景里, 如常识图谱问答和引荐,

飞桨不只供给了相应的算法, 还针对引荐场景供给了工业级数据处理和万亿稀少模型练习才能。考虑到在纯GPU的参数服务器下, 当模型网络层比较杂乱时, GPU使用率很难被打满, 飞桨结构2.0版又立异性地推出了业界首个通用异构参数服务器功用, 能够一起运用不同的硬件进行混合异构练习, 兼容了多款CPU、AI专用芯片(如百度昆仑XPU)、GPU(如V100、P40、K40), 让用户能够在硬件异构集群中布置分布式练习使命, 完结对不同算力芯片高效使用, 为用户供给更高吞吐、更低资源耗费的练习才能。关于大规划稠密参数模型, 飞桨分布式练习络绎不绝相同与事务严密结合, 经过模型并行战略、分组参数切片组合、流水线并行战略和数据并行战略的多层叠加, 发挥合力效果, 诞生了业界第一个4D混合并行战略。经过测验验证, 如此立异性提出的4D混合并行战略的练习速度确实高于3D混合并行战略, 进一步优化练习功用和显存占比, 再次走到了络绎不绝的前沿。飞桨PGL助力OpenKS完结图核算针对图学习算法通用性与功用统筹的应战, OpenKS以飞桨图学习PGL作为常识表明学习以及常识存储的重要模块之一。在常识图谱表征学习中, 需求在线高功用图引擎查询, 因而会面临大规划异构联系存储以及在线高功用查询问题, OpenKS斑驳陆离PGL的大规划分布式异构图引擎来进行常识表征学习的在线服务, 来支撑日益增长的常识联系。此外, 高效的图神经网络算法, 也是常识图谱先进性的确保, PGL是业界首个提出通用音讯并行传递机制的图神经网络结构, 原生支撑异构图音讯传递聚合等多种功用, 并内置多种高效图神经网络模型。因而, OpenKS项目中集成了PGL的GCN、TransE、TransR等多种图表征学习算法, 而且一起斑驳陆离了PGL的高效音讯传递接口作为图神经网络的编程接口之一。百度飞桨深度学习渠道于2019年开源的分布式图学习结构PGL, 是业界首个提出通用音讯并行传递机制, 支撑百亿规划巨图的工业级图学习结构。原生支撑图学习中较为一起的分布式图存储(DistributedGraphStorage)和分布式采样(DistributedSampling), 能够方便地经过上层Python接口, 将图的特征(如SideFeature等)存储在不同的Server上, 也支撑通用的分布式采样接口, 将不同子图的采样分布式处理,

并依据PaddlePaddleFleetAPI来完结分布式练习(DistributedTraining), 完结在大规划图学习分布式的上加快核算。PGL依据飞桨动态图全新晋级, 极大提高了易用性, 原生支撑异构图, 掩盖30+图学习模型, 包含图语义了解模型ERNIESage等, 历经很多实在工业运用验证, 可全流程服务工业运用项目, 为开发者供给充沛的实践事例投射进行络绎不绝选型。别的, 依据飞桨深度学习结构的分布式FleetAPI, 树立分布式图存储及分布式学习算法, 可完结灵敏、高效地树立前沿的大规划图学习算法。展望未来, 在充满了机会与应战的大时代布景中, 飞桨将继续在络绎不绝上不断立异前进, 探究分布式练习络绎不绝等的鸿沟, 扩展AI赋能的范畴, 与开发者一起生长前进,

为产学研智能化进程奉献着自己的力气。光亮链接OpenKS项目地址:ZJU-OpenKS/OpenKS假如您想具体了解更多飞桨的相关内容, 请参阅以下文档。飞桨官网地址:飞桨开源结构项目地址:GitHub:PaddlePaddle/PaddleGitee:paddlepaddle/Paddle

Copyright © 2006-2022 湖南省推广100项重点工业新品 强化技术创新 hunanshengtuiguangxiangzhongdiangongyexinpinqianghuajishuchuangxin (www.bjbxysc.com),All Rights Reserved