5月24日,云知声山海大模型正式发布,交出其在AGI领域的第一份答卷,并进入有序迭代阶段。时隔一个月,山海大模型迎来了又一次比较大的升级——各项性能持续优化,且在核心能力上实现三大升级:通过迭代实现了在特定领域内的专业知识积累,诗词创作能力、数学计算能力实现突破。
技术加码,性能持续优化
吞吐效率接近理论上限60%
UniScale通过引入全新的Attention高效计算方式和相关底层算子的优化来提高浮点运算效率,另外,也进一步优化了训练框架中的通信策略,进一步提升了多机多卡的吞吐效率。UniScale目前在多机多卡大模型训练计算效率接近理论上限的60%,而当前公开的主流框架训练效率约45%左右,因此所提方法能够吞吐量在原有基础上提升了15个点。在推理部分,通过解码策略优化、量化和高效算子适配,相对原始推理性能翻倍,并适配了不同性能的显卡推理部署。这意味着训推一体框架UniScale 具有出色的并行计算能力,能够同时处理多个任务,大大提高了模型的训练速度。也表明在相同的时间内,UniScale可以完成更加高效的计算任务,降低推理部署成本。
微调速度提升15倍
UniScale通过集成QLoRA微调技术,不仅极大地减少了微调所需的硬件资源,还提高了微调速度。QLoRA是在LoRA微调(Hu et al., 2021)基础上结合了4位量化、双量化和统一内存分页技术,是一种高效的模型参数微调方法,不仅可以在普通消费级GPU上完成大规模语言模型的微调,还能够在较少的迭代次数内快速收敛。与此同时,我们实现了一种多指令统一微调技术,能够进一步减少模型的计算和通信开销,加快微调的速度。我们经过实验验证,UniScale在使用QLoRA微调和统一微调技术之后,微调速度提升了约15倍。
这一改进对于微调任务非常重要,特别是当资源有限的情况下在大规模数据集上进行微调的场景。传统的微调方法需要耗费较长的时间来逐步调整模型参数,而QLoRA微调能够通过多种量化方法显著减少显存占用,大大减少了微调所需的内存,同时性能几乎与标准微调相当。与此同时,微调后的模型可以直接用于模型部署,符合UniScale训练与推理一体化的设计理念,这项改进使得UniScale成为一个非常有效的深度学习平台,提供了更快速、高效的微调实验方案。
能力突破,效果加速提升
医疗能力超越Med-PaLM2
山海大模型实现了在特定领域内专业知识的快速积累,通过语料的不断迭代升级,专业能力持续突破。以医疗领域为例,山海大模型学习了大量教材、百科等高质量医学文献,使其能够提供更加全面、专业的医疗信息支持。在扩展了医疗大模型的领域知识的同时,山海大模型仍旧保持原有的高性能、高准确率等特点。医疗大模型的改进为医生们提供更强大的支持和指导,以提高医疗效果。目前该模型在MedQA任务上提升到了87.1%,超越Med-PaLM 2,临床执业医师资格考试提升到了523,超过了99%的考生水平。
诗词创作能力升级
在诗词创作方面上,山海大模型不仅在预训练阶段增加了7万多首古诗词数据,补充诗词相关的知识,在指令学习阶段,也精心设计近40种不同的指令,基本覆盖日常对诗词数据相关知识考察的内容,充分发掘大模型的潜力,进一步提升创作能力。通过指令学习的方法,山海大模型学会了运用类似的修辞手法和表达方式,使其创作效果更富诗意、更具情感温度。不仅如此,山海大模型还能够根据主题和情感要求进行定制化创作——这一突破不仅得益于诗词相关的指令学习数据的引入,也归功于山海大模型自身强大的计算和学习能力。
数学能力提升
山海大模型的数学计算能力主要依赖预训练阶段扎实、系统的数学理论体系和指令学习阶段基于插件的具体题型的求解能力。为了进一步提升山海大模型的数学能力,我们主要针对以下两方面进行优化:
a)我们在预训练阶段提供人工和模型精心挑选的高质量预训练数据,其中包括从小学到大学所有数学学科的教材、练习册等,通过这些数据的学习,模型就具备了系统的数学理论体系和解决各种数学问题的基础。
b)基于 react 思想的指令学习是大模型数学能力的必要步骤。在此阶段,对每一种题型,我们给出具体的解题思路,包括 reasoning and acting,教会大模型解决各种问题的能力。解题过程中,为了解决大模型无法做精确数值计算的问题,将数值运算移交给插件完成,插件完成数值计算或者方程求解之后,将答案返回大模型,大模型继续问题求解,直到给出最终答案。
从5月24日正式发布以来,山海大模型始终在不断训练、调优,致力通过自身不断的迭代进化兑现AI应用价值;保持高速演进的同时,也在探索与具体场景深度融合的更多可能。
目前,云知声山海大模型已深入到智慧医疗、智慧教育、知识管理、智慧营销、智能客服等具体场景中,基于山海大模型打造的场景应用正不断丰富、不断拓展。
7月6日-7月8日,云知声将携山海大模型及其医疗、银行、车载、客服等最新场景应用亮相2023世界人工智能大会,欢迎大家届时莅临云知声展位参观交流。
从能力升级到场景应用,基于多年技术积累,云知声正加速推进山海大模型的迭代演变。未来山海会有怎样的惊喜和亮点,值得你的期待。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
三大航货运业务逆势增长,燃油附加费翻番 三大航去年亏损仍在加剧,航空业出路何在。3月30日晚间,国内三大航司相继发布2021年年报,三大航营收均录得增...
3999元起,小米11Ultra手机限时特惠150 日前,小米春季发布会上正式推出了小米11Ultra,该机拥有黑白两色,精密陶瓷工艺机身,黑色沉稳大气,白色优雅...
新北洋:累计回购605万股占比0.9088% 每经AI快讯,新北洋3月31日晚间发布公告称,截至2022年3月31日,公司累计通过回购专用证券账户以集中竞价...
中青旅:2021年营收同比增长两成持续布局“旅游+ 中青旅3月31日披露2021年报,公司全年实现营业收入86.35亿元,较上年增加20.76%,实现归属于上市公...
高值设计·重构未来——SK瓷砖x金堂奖战略合作云发 SKCERAMICS2022随着消费新升级,新生代消费群体对居住空间的诉求,越来越艺术化、多元化、个性化。SK...
605389长龄液压3月24日收盘小幅上涨0.57 2022年3月24日长龄液压(605389)收盘点评:长龄液压今日小幅上涨.57%,早盘低开-0.50%,报4...
600358国旅联合3月24日全天上涨2.48%, 2022年3月24日国旅联合(600358)收盘点评:国旅联合今日上涨2.48%,早盘低开-0.41%,报7....
600386北巴传媒3月24日收盘数据:较昨日下跌 2022年3月24日北巴传媒(600386)收盘点评:北巴传媒今日微跌-.25%,早盘高开0.25%,报4.0...
海能实业:2021年度独立董事述职报告王义华 安福县海能实业股份有限公司2021年度独立董事述职报告王义华各位股东及股东代表:本人作为安福县海能实业股份有限...
601598中国外运3月24日股价收盘3.88元与 2022年3月24日中国外运(601598)收盘点评:中国外运今日股价与昨日持平早盘高开0.77%,报3.91... 
601138工业富联3月24 2022年3月24日工业富联(60113...
陈小春开启京东汽车超级直播夜 11月9日晚18点,京东汽车11.11超...
挑战善行者丨2021速8酒店 热爱不止,善行不息善行者是一种勇气善行者...
布局宠物蓝海市场安心养宠物计 京东健康宠物医院作为安心养宠物最重要的升...
苏炳添用9秒83的佳绩带领亚 每0.01秒的提升都是汗水与泪水...
4×100米接力决赛 中国男 4×100米接力·决赛中国女队4...
JBL/UA PROJECT 在这七月热汗运动季,由高保真至潮...
中国队“00后”纷纷登上东京 杨倩、管晨辰、李雯雯、全红婵……...
体育赛事招商的三大注意事项 今年4月姚明和篮协对CBA商务开发权的争...
传统体育文化的两大现代价值 中国传统体育文化丰富多彩,内容博大精深,...
当今世界体育对人的价值体现在 不知你想过没有,在当今这个高度互联网化、...
体育分析中机器学习的标准:预 运动分析有相当一部分属于机器学习,即从数...
进行冬奥会体育营销的五个关键 明年冬奥会将在北京和张家口举行,关于奥运...
父母如何从家庭教育当中反思自 某天晚上睡不着,忽然想到能够写这么一个角...
思维教育对幼儿的四大好处 思想教育对幼儿的益处,幼儿思想处于直观行...
父母教育孩子前必须要知道的前 网上的很多文章提到过,一些懵懂型鸡娃的家...
华为是第一大客户EDA第一股 在半导体芯片设计领域,EDA软件也是卡脖...
新的设计和技术风向奥迪gra 2021年9月3日消息,奥迪将在2021...