MIT警示“深度学习过度依赖算力”研究三年算法不如用10倍GPU

作者 | 蒋宝尚、青暮

目前深度学习的繁荣过度依赖算力的提升,在后摩尔定律时代可能遭遇发展瓶颈,在算法改进上还需多多努力。

在文章中,作者提到,在后摩尔定律时代,提升计算性能的方法,虽然“底部”已经没有太多提升的空间,但“顶部”还有机会。

脚上沾了多少泥土,心中就积淀多少深情。眼下,韩军和双榆树嘎查的两委班子正在思考如何进一步做大做强水稻产业,巩固脱贫成果,让农牧民的腰包更鼓一些,让贫困群众致富的脚步更坚实一些。

2017年正月初三,韩军带领嘎查两名党员,利用15天时间完成了土地流转准备工作。驻村四年多的时间里,他每年驻村蹲点达300天。

关于深度学习是否达到了计算能力上限这件事情,之前就有过讨论,例如MIT、英伟达、微软研究者合著的一篇 Science 论文便从软件、算法、硬件架构三个维度分析了算力的发展趋势。

他们得出这个结论的根据,是在1058篇论文中所统计的两个信息:

受新冠肺炎疫情影响,今年普通高考考试时间延迟1个月,将在7月7日至8日举行。今年广东普通高考报名人数78.8万人,比去年增加2万人,其中参加夏季高考考生67.4万人,全省设考点479个、考场23452个。

在硬件层面,由于摩尔定律的制约,显然需要改进的是硬件的架构,主要问题就是如何简化处理器和利用应用程序的并行性。通过简化处理器,可以将复杂的处理核替换为晶体管数量需求更少的简单处理核。由此释放出的晶体管预算可重新分配到其他用途上,比如增加并行运行的处理核的数量,这将大幅提升可利用并行性问题的效率。

计算能力的爆发结束了“AI的冬天”,并为各种任务的计算性能树立了新的基准。但是,深度学习对计算能力的巨大需求限制了它改善性能的程度,特别是在硬件性能改善的步伐变得缓慢的时代。研究人员说:“这些计算限制的可能影响迫使机器学习转向比深度学习更高效的技术。”

在去年6月的马萨诸塞州大学阿默斯特分校的另一份报告中指出,训练和搜索某种模型所需的电量涉及大约626,000磅的二氧化碳排放量。这相当于美国普通汽车使用寿命内将近五倍的排放量。

2015年9月19日,韩军被科尔沁右翼中旗交通运输局委派到巴彦淖尔苏木双榆树嘎查任第一书记,至今已是第5个年头了。韩军说:“为了大房子、豪车而奋斗,获得感、幸福感不一定强;为了一群人、一块热土而奋斗,获得感、幸福感来得最明显,也最持久。”

1、在给定的深度学习模型中,单次传播(即权重调整)所需的浮点操作数。

嘎查里交通不便,农畜产品运不出去,收购商贩趁机压价,农牧民们迫不得已只能贱卖,这一直是大家苦恼的大难题。韩军带领大家修路,28公里水泥路修通后,每个人都拍手叫好。“泥水路全部变成了水泥路,过去路不好的时候,老客进不来,无论卖几头牛,我们都得雇车拉到舍伯吐去卖。现在好了,收牛的老客上门收购,坐在家里就能卖上好价钱了。”双榆树嘎查肉牛养殖户义必格力图说。

诗人艾青说:为什么我的眼里常含泪水? 因为我对这土地爱得深沉。大棚里绿油油的秧苗、双榆树嘎查的晨雾、辛勤劳作的农民;飞雪中询问春来的信息,秋收时祈祷老天不要下雨……朋友圈里,韩军满含深情地分享着他所热爱的这方热土。

显然,算法上的进步相比服从摩尔定理的硬件的进步,能产生更多的效益。 

另外,即使是最乐观的计算,要降低ImageNet上的图像分类错误率,也需要进行10^5次以上的计算。

因为总串门,谁家缺啥、少啥,有啥难处,韩军掌握得一清二楚。建档立卡贫困户包达利8岁的女儿没钱上学,就是韩军走村串户时发现的。“孩子营养不足,个头小,以为还是学前年龄,可一查档案,孩子都过入学年龄了。”韩军一问才发现,家长不是不想让孩子上学,而是全家好几个病人,哪里还负担得起孩子的上学钱。韩军自掏腰包先让孩子上了学。“没有韩书记,我的孩子可能都踏不上学校的门。”包达利激动地说。在他的帮助下,嘎查里其他几家辍学的孩子也都回到了学校。就这样,一传十十传百,韩军的热心肠在双榆树嘎查传开了。很快,韩军和村民们打成了一片,成了“哥们儿”。

得出的结论是:训练模型的进步取决于算力的大幅提高,具体来说,计算能力提高10倍相当于三年的算法改进。

延伸阅读 2020年高考防疫怎么做?家长们牢记10条关键提示 维护公平公正!教育部公布2020年高考举报电话 疫情下的毛坦厂中学:高三考生口中的机遇与挑战

常年一身运动鞋、运动裤打扮,走村串户、盘腿上炕,跟村民拉家常、摸情况、想对策……因为爱在村屯串门,为人热心肠,韩军被村民们亲切地称为“屯溜达”书记。

景李虎说,广东实行高考试卷运送车辆全程视频监控追踪;实行试卷分科入柜(入箱)存放,落实保密室6小时录像回放要求,确保试卷安全保密。同时,严格学生户籍、学籍审核,严防“冒名顶替”“高考移民”行为;加强对考务人员的纪律教育;加强考务信息化建设,今年广东全部完成考点视频监控高清改造。

根据外媒Venturebeat报道,麻省理工学院联合安德伍德国际学院和巴西利亚大学的研究人员进行了一项“深度学习算力”的研究。

而这算力提高的背后,其实现目标所隐含的计算需求——硬件、环境和金钱成本将无法承受。      

当然,研究人员也同时指出,在算法水平上进行深度学习改进已经成为提升算力性能的重要方向。他们提到了硬件加速器,例如Google的TPU、FPGA和ASIC,以及通过网络压缩和加速技术来降低计算复杂性的尝试。他们还提到了神经架构搜索和元学习,这些方法使用优化来搜索在某一类问题上具有良好性能的架构。

“从没想过家里荒了多年的盐碱地能种出水稻,还能在家门口务工、拿分红。”双榆树嘎查农民张春花说,2017年,家里的26亩盐碱地流转给合作社种植水稻,除了土地流转费,老伴儿还能在合作社打零工,日工资达130元到150元,加上年底分红,全家已顺利脱了贫。

雷锋网雷锋网(公众号:雷锋网)雷锋网

另外,在今年的5月份,OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现,自2012年以来,在 ImageNet 分类上训练具有相同性能的神经网络,所需要的计算量,每16个月降低一半。与2012年相比,现在将神经网络训练到 AlexNet 的性能,所需的计算量仅为原来的1/44(相比之下,摩尔定律仅降低为1/11)。

在Science这篇论文中,作者给过去算力的提升归纳了两个原因:一个是“底部”的发展,即计算机部件的小型化,其受摩尔定律制约;另一个是“顶部”的发展,是上面提到的软件、算法、硬件架构的统称。

科尔沁右翼中旗地处大兴安岭南麓集中连片特困区,是国家级贫困旗。驻村后,韩军的第一件事就是入户调查,利用早晚时间到贫困户家里聊家常、讲政策、听意见。一年时间内,他走遍了全村363户人家。一户一户调研,三大本厚厚的民情日记成为他不离身的“宝贝”,里面记着嘎查363户家庭的基本情况、大事小情和各种诉求。他给日记起名叫《转变》,希望嘎查能发生转变,希望农牧民生活能发生转变。

“5年前,这里的老百姓农业靠天吃饭,牧业效益低,全嘎查的人均收入不到3000元。这个嘎查有1350亩的盐碱地,撂荒多年,种啥啥不成。我在长春当兵的时候,见过长春人在盐碱地里种的水稻。我觉得调整产业结构,先从转变生产方式入手,于是大胆提出实施盐碱地改水田规划,并带领支部一班人到吉林省的白城、洮南、长春考察学习,回来后和大家商量在盐碱地里种水稻。大家都不相信在盐碱地里能种出水稻,觉得这是在开玩笑。于是,我们又挨家挨户给大家做工作。喊破嗓子不如做出样子。2016年,合作社试种的600亩水稻收了39万斤。慢慢地,农牧民从看热闹、观望,逐步走进了大棚,拿起了农具。从育苗、插秧、田间管理、再到收割,每年嘎查的100名劳动力在这里打工能挣40多万元。”韩军说。

对于今年涉考工作人员和所有考生,广东通过“粤康码”、依托报名数据提前14天进行健康状况监测。对身体异常的考务人员进行替换,对监测发现的发热、“红码”和“黄码”考生关心关注,跟踪跟进他们的身体状况,维护考生参加高考的权益。

在研究中,为了了解深度学习性能与计算之间的联系,研究人员分析了Arxiv以及其他包含基准测试来源的1058篇论文。论文领域包括图像分类、目标检测、问答、命名实体识别和机器翻译等。

简化的另一种形式是领域专门化(domain specialization),即针对特定应用程序定制硬件。这种专门化允许考虑领域的特点,自定义简化硬件结构,具有极强的针对性。

作者说,通过分析这些论文,目标检测、命名实体识别和机器翻译尤其显示出硬件负担的大幅增加,而结果的改善却相对较小。在流行的开源ImageNet基准测试中,计算能力贡献了图像分类准确率的43%。      

同时,每个考点至少配备2名医护人员,考试期间全程在岗;各地各考点配齐配足口罩、洗手设备、消毒剂、体温检测设备等防疫物资;每个考点每天完成2至3次消毒、通风,对空调进行卫生检查、消毒;每个地市至少准备1个备用隔离考点,全省共准备了2305个备用隔离考场,用于发热、身体健康状况异常考生考试。

OpenAI的一项研究表明,自2012年以来,将AI模型训练到ImageNet图像分类中相同性能所需的计算量每16个月减少一半。Google的Transformer架构超越了seq2seq,在seq2seq推出三年后,计算量减少了61倍。DeepMind的AlphaZero可以从头开始学习如何掌握国际象棋、将棋和围棋游戏,与一年前该系统的前身AlphaGoZero相比,其计算量减少了八倍。

双榆树嘎查曾经是科右中旗南部远近闻名的贫困嘎查,集体经济为零。由于盐碱地、沙坨地较多,多年来村民增收缓慢,低收入群体多。韩军他大胆尝试,采取“土地流转+土地入股”相结合的方式,以“党员带头入股+嘎查集体入股+建档立卡贫困户入股”的模式,对盐碱地进行“旱改水”,并成立双榆种养殖专业合作社,带领村民抱团发展。

深度学习会被算力锁死么?顶层设计仍有希望  

“以前,这里是一片重度盐碱地,夏天水汪汪,冬春白茫茫,不长草来不长粮。自从韩军到我们村当驻村第一书记,带着老百姓(603883,股吧)开发这片盐碱地后,这里不但长出了庄稼,还长出水稻了!”双榆树嘎查书记白金贵说,是韩军让盐碱地飘出了稻花香,让撂荒地变成了“聚宝盆”,也让这个村的农民坐地收租金,在家门口务工就业,年底还能分红了。

在软件层面,可以通过性能工程(performance engineering)提高软件的效率,改变传统软件的开发策略,尽可能缩短软件运行时间,而不是缩短软件开发时间。另外,性能工程还可以根据硬件的情况进行软件定制,如利用并行处理器和矢量单元。

曾经,1350亩盐碱地一直撂荒,如今种出了水稻。经检测发现,种出的水稻富含人体必需的多种微量元素,弱碱、富硒,价格比普通水稻贵上一倍,瞬间走起了高端范儿,嘎查集体经济终于有了收入。从一无所知到一知半解,再到熟练地使用新型育苗机,村民的积极性也被带动起来了。

雷锋网原创文章,。详情见转载须知。

嘎查集体经济发展壮大后,嘎查党组织的凝聚力和向心力也增强了。韩军介绍,双榆树嘎查坚持以党组织引导产业发展、以产业发展夯实基层党组织建设的思路,坚持宜种则种、宜养则养的原则,耐盐碱水稻发展态势良好,嘎查集体经济日渐壮大,一批致富带头人涌现出来,村民收入水平稳步提升。2019年嘎查集体经济收入14.5万元,今年预计可达28万元。

图注:模型指标的线性增长和计算代价的指数增长相关。

2、硬件负担,或用于训练模型的硬件的计算能力,计算方式为处理器数量乘以计算速率和时间。(研究人员承认,尽管这是一种不精确的计算方法,但在他们分析的论文中,对这种计算方式的报告比其他基准要广泛。)

此外,广东为142名残疾考生提供放大号试卷、延长考试时间等合理便利;加强学校食堂卫生和食材安全检查;针对高温天气,考点新增安装空调21770台,所有高考考场实现空调全覆盖。

为什么说“深度学习过度依赖算力”?

在算法层面,在已有算法上的改进是不均匀的,而且具有偶然性,大量算法进展可能来源于新的问题领域、可扩展性问题、根据硬件定制算法。

目前,双榆树嘎查已经建设5000平方米水稻晾晒场、500平方米加工厂房、400平方米设备存放库,购入累计价值150万元的水稻种植收割设备;全村贫困人口人均收入由2800元,增加到现在的8200元;集体经济收入实现零的突破,现在每年村集体收入达6万多元;全村54户140人口脱贫,2018年双榆树嘎查退出贫困村序列。

为了更清楚的说明“单次传播所需的浮点操作数”和“硬件负担”这两个指标,作者在合著的研究报告中,举了ImageNet的例子。

深度学习需要的硬件负担和计算次数自然涉及巨额资金花费。据Synced的一篇报告估计,华盛顿大学的Grover假新闻检测模型在大约两周的时间内训练费用为25,000美元。OpenAI花费了高达1200万美元来训练其GPT-3语言模型,而Google估计花费了6912美元来训练BERT,这是一种双向Transformer模型,重新定义了11种自然语言处理任务的SOTA。