如今从事AI大模型相关工作的人,人人都在较量谁的模型规模更大。前几天听闻有个公司发布了一个具有万亿参数的超大型模型,这可把我吓坏了,我赶忙将手机里的小爱同学藏到了防爆柜子里。
参数膨胀是种病
每次瞅见新模型发布,参数后面跟的那些零,能把我眼睛数成斗鸡眼。2020年GPT - 3有1750亿参数,如今随便哪个模型,没有万亿都不好意思去发论文。有个家伙训练模型的时候,电网跳闸了,整个硅谷的狗都开始冲着变压器疯狂叫唤。
参数多并不意味着人就聪明,好比我高中时的同桌,每天吃五斤脑白金,最终也没能考上清华 。谷歌近期发现,将模型参数砍掉百分之八十后,性能竟然还提升了百分之二 。这就如同买了一部一百二十八G的手机,结果系统更新后,能用的就只剩下八G了 。
手机跑大模型是行为艺术
去年有个大胆的人试着在红米Note9上部署GPT-3,结果手机直接像表演喷火杂技一样出问题了。如今最热门的量化技术能把模型压缩到原来十分之一的大小,代价是哪怕回答“今天天气如何”这么简单的问题AI模型,都得思考半小时 。
某厂商宣称新机能够在本地运行大模型,实际测试后发现深度剖析AI大模型模型架构的发展趋势:参数规模、压缩加速等多方面解析,生成三行诗竟然要耗费两块充电宝。在此建议大伙,还是规规矩矩地使用云端服务,毕竟要是手机起火了,保险公司可不会赔付“AI行为艺术险” 。
多模态等于多重人格
让AI同时处理文字和图片,这就好比让我同时追八部剧,结果把《甄嬛传》和《奥特曼》的剧情记混了。OpenAI的DALL·E画图的时候,老是给汽车装上山羊腿,估计它认为这样挺有艺术感。
最厉害的是语音转文字系统,把老板讲的“方案要创新”听成了“晚饭吃剩饭”。建议多模态模型先去治疗视听统合失调症,别搞得跟抽象派画家一样 。
泛化能力是个玄学
训练的时候表现挺好的模型,碰到真实场景就慌了神。就好比我头一回去见未来丈母娘那样,完全没辙。有个医疗人工智能,在测试集里的准确率能达到百分之九十九,可实际诊断的时候AI模型,居然把花粉过敏给判断成外星人入侵了。
现在研究者们流行用“课程学习”,让模型依照小学生的方式,从简单逐步过渡到困难。然而当看到AI做幼儿园水平的题目出现错误时,我深切领悟到了啥叫“人工智障”。
可解释性就是找借口
每次去问AI为啥要这么判断,它给出的解释都跟星座运势一样模模糊糊的。有个银行的风控系统在拒绝贷款申请的时候说,“直觉告诉我这人不行”,简直就是AI界里会看面相的大师。
最新研究尝试用决策树去解释神经网络,其结果,比用甲骨文来翻译rap歌词还要离谱,建议下次直接讲“天机不可泄露”,如此反倒会显得更高深。
能效比不如电饭煲
训练一个大模型所耗费的电量,足够全村的大妈们跳三年广场舞。其碳排放量,抵得上200头牛打嗝。有团队改用太阳能进行训练,结果模型只在晴天能工作,到了阴天就罢工。
如今最环保的法子是去网吧包夜训练,这样既能省下电费深度剖析AI大模型模型架构的发展趋势:参数规模、压缩加速等多方面解析,又能蹭到免费空调。只是要留意,别被网管当作挖比特币的给撵出去。
你们说,未来有没有可能出现这么个训练营,叫“AI减肥训练营”,专门给大模型减肥,把那些多余的参数肥肉给甩掉?