严寒中守护煤运通道的“钢丝哥”

1月2日,顿麒在大桥钢梁洞内使用检查锤检查高强度螺栓。当日是2020年第一个工作日,也是传统腊八节,中国铁路郑州局集团有限公司新乡桥工段长垣桥梁车间副工长顿麒,行走在几十米高的长东黄河大桥钢梁内腹板中,对大桥线路进行检查维修。因为每天的工作都要在高高的钢梁上行走,工友们也戏称他为“钢丝哥”。“由于长东黄河大桥较高,桥上温度基本都在零下10摄氏度,尤其是钢梁洞内,车流量大还四面漏风,比桥面上还要冷。”顿麒说。长东黄河大桥位于重要的煤运通道新兖铁路咽喉区段。进入冬季,为保障供电,这条电煤运输线路也更加繁忙,而顿麒和他的工友们每天都要顶着寒风,对桥梁设备进行全面“体检”,并对发现的问题及时采取措施。一年年精检细修,他们始终如一地守护铁路动脉,确保列车运行安全。新华社记者 李安 摄

雷锋网 AI 开发者按:一个月前,在「AICon 全球人工智能与机器学习技术大会」上,华为诺亚方舟实验首席科学家刘群刚分享了新发布的中文预训练语言模型 NEZHA(哪吒);就在这两天,NEZHA 已在 Github 上开源,同时开源的还有压缩 BERT 模型「TinyBERT」,它在推理时大小可缩小 7.5 倍,并且速度加快 9.4 倍。

预训练语言模型本质上,就是神经网络语言模型。它主要有两个特点,即:可以使用大规模无标注纯文本语料进行训练,以及可以用于各类下游 NLP 任务,各项性能指标均获得大幅度提高,并可以将各类下游任务的解决方案统一简化为集中固定的 fine-tune 框架。

对此,工信部权威回应称, 关于网民反映的4G网络速率下降情况,我们综合分析了多个渠道的检测数据,包括国内第三方测速平台宽带发展联盟、国际测速机构speedtest、三家电信运营企业检测系统等。

中国教育科学研究院研究员储朝晖表示,无论是对曾经的90后的“火星文”,还是对目前00后的“黑话”,都不应过度紧张和排斥。“这些语言文化都属于亚文化的范畴,是青年人在成长过程中,寻求与主流文化不完全一致的存在感的一种方式。”

具体而言,Transformer 最早只考虑了绝对位置编码,而且是函数式的;后来 BERT 的提出就使用了参数式,而参数式训练则会受收到句子长度的影响,BERT 起初训练的句子最长为 512,如果只训练到 128 长度的句子,在 128~520 之间的位置参数就无法获得,所以必须要训练更长的语料来确定这一部分的参数。

在 NEZHA 的 WWM 实现中,研究者使用了一个标记化工具 Jieba2 进行中文分词(即寻找中文单词的边界)。在 WWM 训练数据中,每个样本包含多个覆盖汉字,覆盖汉字的总数约占其长度的 12%,随机替换的占 1.5%,尽管这样预测整个词运算难度有所增加,但最终取得的效果更好。

这都是什么意思呢?一位00后告诉记者,“求扩列”意思是请求扩充好友列表,“养火花”就是在QQ上互动,互动几天后会出现小火花,互动一个月则会出现大火花。如果双方聊天最为频繁,就会出现友谊的“小船”,连续30天就会升级成友谊的“巨轮”标志。“如果我和朋友一天不聊,小船标志就会变淡,慢慢就没有了。”

一些孩子力气不够大,不能将冰壶送到大本营,但另外一些孩子,虽然也是首次接触冰壶,却成功将冰壶留在红圈之内。随着冰壶缓缓向前移动,国家游泳中心比赛大厅的加油声愈发高涨——这就是运动的魅力,即便是孩子间的比赛也引人入胜。在现场查看冰面维护工作的国家游泳中心总经理杨奇勇,也忙里偷闲走过来分享孩子们的快乐。

三、混合精度训练及 LAMB 优化器

可以看到,NEZHA 在大部分情况下,都取得了相较更好的性能;尤其在 PD-NER 任务下,NEZHA 最高达到了 97.87 分。另一个表现较亮眼的模型还有 ERNIE Baidu 2.0,颇有超越 NEZHA 的趋势。关于这个情况,论文中作者也解释到,由于实验设置或微调方法可能存在差异,比较可能不完全公平,之后其它模型新版发布后,他们将在相同的设置下对其进行评估并更新此报告。

同时,将组织第三方机构持续开展全国网速检测,并在对学校、医院、地铁线路和高铁站等重点区域4G网络质量检测发布的基础上,开展更大范围的4G网络质量检测,不断提升网络体验。

在 NEZHA 模型的预训练中,研究者采用了混合精度训练技术。该技术可以使训练速度提高 2-3 倍,同时也减少了模型的空间消耗,从而可以利用较大的批量。

有网友感慨,当80后在BBS留帖“顶LS(顶楼上)”“886(拜拜了)”,90后在微博上推文“人艰不拆”“no zuo no die”,00后回到QQ上说“xswl”“来cqy”。

经过充分的热身运动,孩子们在老师指引下来到赛道旁,在观看标准的掷壶动作的演示后,一场欢乐冰壶较量就地开赛。每个孩子有2次掷壶机会,看谁能将更多的冰壶留在蓝色大本营,对手则要把对方的冰壶“赶出”大本营,让自己的冰壶得分。

LAMB 优化器则不需要手动调整学习速率,而是采用了一种通用的自适应策略。优化器通过使用非常大的批量处理大小(实验中高达 30k 以上)来加速 BERT 的训练,而不会导致性能损失,甚至在许多任务中获得最先进的性能。值得注意的是,BERT 的训练时间最终从 3 天显著缩短到 76 分钟。

00后张轩祺告诉记者,自己第一次接触到这些“黑话”,是和同学聊天时知道的。他表示,“一般只要朋友用,我就会刻意用缩略语。只要一个人开了头,另一个人当然会用同样的方式进行交流。”

此时的他备感欣慰。“经过此前冰上赛事的检验,国家游泳中心做到了‘四不’,即冰面不开裂、支撑体系不晃动、冰面不结露、冰场不起雾,为我们留下丰富的运营数据并积累了信心。比赛结束后,我们将这块筹备已久的冰面用于群众体验和冰壶项目普及,也表明国家游泳中心服务大众、助力体育运动发展的初心和使命。”杨奇勇说。

“这次活动为孩子们撒下一颗参与冰雪运动的‘种子’。”北京史家实验学校德育处老师刘霞说,普及冰雪运动的前提,就是要有适合的场地,然后让大家充分感受运动的快乐。冰壶老师王兵也认为,快乐是最重要的动力,“孩子们到冰壶场地上玩一玩、喊一喊,就会对这项运动产生信心和兴趣”。

雷锋网(公众号:雷锋网)年度评选——寻找19大行业的最佳AI落地实践

实验通过对各种自然语言理解(NLU)任务进行微调来测试预训练模型的性能,并将 NEZHA 模型和最先进的汉语预训练语言模型:谷歌 BERT(汉语版),BERT-WWM 以及 ERNIE 进行了对比(详细参数见论文),最终结果如下:

图中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它们之间的关系,并拟出了一份相关的论文列表。列表把预训练模型主要分为了三个部分,包括:模型、知识蒸馏与模型压缩。按照这样的分类,TinyBERT 模型则可以归类为「知识蒸馏与模型压缩」部分;NEZHA 则归为「模型」部分。

冰壶老师很快对冰壶运动的赛道规格、比赛规则、比赛用具做了介绍,并着重讲解这块高悬五星红旗的冰壶场地是由北京奥运会游泳比赛场地“水冰转换”而来,现在的国家游泳中心“水立方”也有了全新的名字:“水立方/冰立方”。

12月9日起到明年1月1日,公众将有机会在国家游泳中心的“冬奥标准”冰面上体验冰壶运动。在此期间,国家游泳中心各项改造任务不会中断,继续向优质、高效、如期完成场馆改造的目标迈进。

雷锋网原创文章,。详情见转载须知。

另一名00后向记者表示:“我觉得自己和90后没什么太大不同。虽然一个年龄段有一个年龄段的圈子,但不会存在沟通不了的情况,我们用这些词也是分人看场合的。”

创立于2017年的「AI最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。

总体来看 ,近期全国4G网速整体保持稳定,但可能存在个别区域、某些时段下降的情况。主要原因是: 4G用户流量增长和网络支撑能力提升还不完全匹配。

现在的神经网络模型无论是在语言模型还是机器翻译任务中,都会用到一个词表;而在 Softmax 时,每个词都要尝试比较一下。每次运算时,所有词要都在词表中对比一遍,往往一个词表会包含几万个词,而机器翻译则经常达到六七万个词,因此,词表是语言模型运算中较大的瓶颈。

一、函数式相对位置编码

 BERT 中的随机覆盖

而 NEZHA 预训练模型,则采用了全词覆盖(WWM)策略,当一个汉字被覆盖时,属于同一个汉字的其他汉字都被一起覆盖。该策略被证明比 BERT 中的随机覆盖训练(即每个符号或汉字都被随机屏蔽)更有效。

2019年3月,QQ在联系人位置上线了一个叫做“扩列”的陌生人社交入口,用户可以根据个人需求和兴趣爱好搜索志同道合的人。来自山西的00后王子林告诉记者,他经常会从游戏、QQ群或者QQ空间里添加好友。

工信部表示, 后续将进一步加强对基础电信企业监管和指导,做好网络建设和优化,保障服务质量 。

例如,宽带发展联盟数据显示,2019年三季度全国4G平均下载速率为24Mbps ,二季度23.6Mbps;Speedtest数据显示,10月全国4G平均下载速率为48.8Mbps,9月为45.3Mbps。

没有人永远年轻,但总有人正年轻着。有关人士表示,00后的社交新词汇,也许是这一届年轻人个性彰显的体现。

位置编码有函数式和参数式两种,函数式通过定义函数直接计算就可以了。参数式中位置编码涉及两个概念,一个是距离;二是维度。其中,Word Embedding 一般有几百维,每一维各有一个值,一个位置编码的值正是通过位置和维度两个参数来确定。

预训练语言模型通常有两个大类型。一类是 Encoder,用于自然语言理解,输入整个文章,用于自然语言理解;另一类是 Decoder,是解码式的,用于自然语言生成,只能来看到已经生成的内容,看不到没有生成的内容,这两类模型有所区别。

LAMB 优化器则是为专为深度神经元网络的大批量同步分布训练而设计。尽管大小批量 DNN 训练是加快 DNN 训练速度的有效方法,但是如果不仔细调整学习速率的调度,当批量处理的大小超过某个阈值时,模型的性能可能会受到很大影响。

传统的深度神经网络训练使用 FP32(即单精度浮点格式)来表示训练中涉及的所有变量(包括模型参数和梯度);而混合精度训练在训练中采用了多精度。具体而言,它重点保证模型中权重的单精度副本(称为主权重),即在每次训练迭代中,将主权值舍入 FP16(即半精度浮点格式),并使用 FP16 格式存储的权值、激活和梯度执行向前和向后传递;最后将梯度转换为 FP32 格式,并使用 FP32 梯度更新主权重。

据统计,201910月当月的DOU(户均移动互联网接入流量)达到8.5GB,前10个月总流量同比增长超过83%,这给4G网络带来较大压力。同时,4G网速受用户聚集程度影响比较明显,如大型场馆举办演出、交通枢纽人流高峰期等时段会造成4G网速下降。

2018年红杉资本发布《创造未来——红杉00后泛娱乐消费研究报告》,报告显示受二次元文化影响,很多00后带有较深的网络印记,喜欢二次元文化下的语言表达方式,热衷自嘲和朋友之间“玩梗”,文字cosplay(角色扮演)成为新的交流方式。

据统计,00后常用的添加好友方式,前三名分别是通过Q群扩列、搜索Q号精确查找以及通过QQ空间添加。腾讯发布的《00后在QQ:2019 00后用户社交行为数据报告》显示,00后最多的好友互动标识分别是畅聊之火(与好友互发消息,连续超过7天)、小幸运(成为新朋友,并在当天互发消息)以及友谊巨轮(与好友连续最频繁互动超过30天)。

而在模型方面,他们选择在内部重现了 Google Bert-base 和 Bert-large 的实验;利用 BERT 的代码,实现了 OpenAI GPT-2 模型;实现基于 GPU 多卡多机并行训练,并且对训练过程进行了优化,提高训练效率,最终得到了「多中文 NLP 任务」预训练模型 NEZHA。

NEZHA 预训练模型则采用了函数式相对位置编码,其输出与注意力得分的计算涉及到他们相对位置的正弦函数,这一灵感正是来源于 Transformer 的绝对位置编码,而相对位置编码则解决了在 Transformer 中,每个词之间因为互不知道相隔的距离引发的一系列资源占用问题。

更直观来看,github 上来自清华大学的两位同学——王晓智和张正彦(在读本科生)整理的一份关于预训练模型的关系图,则可以从功能方面更简单明了的帮我们理解该类模型类别。

尽管这一预训练模型 NEZHA 的名称听起来有些匪夷所思,但它的开发者们将其视为「无所不能,可以解决不同任务」的寓意。在这个模型中,除了之前提到的重现、多卡多机并行训练之外,主要有两项改进,即:函数式相对位置编码与全词覆盖的实现。

三头六臂 NEZHA(哪吒)

预训练语言模型研究结果

而根据研究结果显示,近年来的模型大多将重心落到了数据与算力部分。与早期的 ResNet(视觉模型)模型参数相比,数据显示 GPT1 为 100M,BERT large 为 340M,GPT2 为 1.5BN,GPT-2 8B 为 8.3BN。

此外,00后的社交新词还有xswl(笑死我了)、zqsg(真情实感)、dbq(对不起)、cqy(处Q友)等网络语言。

而在 NEZHA 模型中,距离和维度都是由正弦函数导出的,并且在模型训练期间是固定的。也就是说,位置编码的每个维度对应一个正弦,不同维度的正弦函数具有不同的波长,而选择固定正弦函数,则可以使该模型具有更强的扩展性;即当它遇到比训练中序列长度更长的序列时,依然可以发挥作用。函数式相对位置编码公式,如下图所示:

记者随机选择查看了10余个扩列群,00后的占比均大于60%。一个名为QQ互赞的扩列群中有82%的成员是00后。

You may also like...