赋能生成式AI实现规模化扩展，终端侧AI有何魔力？

2023-09-14 05:17:00 [ 中关村在线原创 ] 作者：阿喾

随着大模型AI的爆火，以ChatGPT为代表的各类应用开始走进人们的生活和工作之中。特别是对于普通用户来说，生成式AI应用降低了不少领域的入门门槛，为用户尝试和挑战更专业的创作提供了可能。

就像绘画一样，很多人小时候都有一个成为画家的梦想，最后却发现，现实只是对着大佬作品喊“666”。某种程度上说，生成式AI应用的到来正在帮助我们圆梦，你不需要刻苦训练画技和笔法，也不需要对专业有任何理论上的积累，只需要简单的文字描述，就能立马创作出你想要的AI作品。

除此之外，你甚至还能让AI帮你创作小说，生成图表，编写脚本，撰写程序……在以前看来，里面多多少少还有些科幻色彩，但如今看来却是如此真实。

生成式AI应用拓展难点何在？

无论如何，生成式AI应用前景广阔，普及也只是时间问题。不过从眼下来看，想要做到规模化拓展还存在不少难点。

从厂商角度来看，大模型的训练和使用确实具有很大的挑战性，除了要面对隐私问题、算力需求、场景碎片化、缺乏可解释性等问题的困扰外，首当其冲就是成本难题。

此前就曾有外媒报道，作为过去几个月增长最快的人工智能平台，ChatGPT每天的成本就达到了近70万美元，尽管OpenAI试图将GPT 3.5和GPT 4商业化，但至今仍未实现盈亏平衡。如果这种状况没有改观，那么从长远看，ChatGPT的前景确实谈不上乐观。

事实上，训练大型语言模型需要大量的计算资源，像大家熟知的GPU，在加速数据处理和模型训练的过程中，GPU的并行计算能力将会带来显著优势，同理还有CPU和内存，这些硬件资源对于训练大型语言模型同样重要。注意，这里说的是“大量”，如果只是很少量的资源，使用大型语言模型就会受到限制。

如果说，大型生成式AI模型预计每年仅需训练几次，成本尚可接受，但随着用户人数的增加，以及用户访问次数的增多，数据获取和处理、模型训练、模型部署以及优化的费用都会随之增加，此外人数多了，模型复杂度也会提升，而使用云端推理的成本也会居高不下。

可以预见，当一个生成式AI应用使用的人数越多，那么维护它成本也就越昂贵，对于厂商来说，能否坚持下去确实是个未知数。

终端侧AI发展的有哪些优势？

一般来说，为了实现规模化扩展，需要在提高使用效率和降低维护成本方面进行技术创新和优化。比如针对模型本身进行优化，通过降低模型的复杂度，从而降低对计算资源的需求，或者推动大模型AI在云端和终端侧同时发展，充分利用各自的优势，满足不同的需求。

我们知道，过去很多生成式AI应用都跑在云端，一方面，云端平台可以提供大规模分布式计算资源和高速内存，同时也可以提供大规模的存储和计算资源，对处理大规模数据有优势。

但考虑到不同场景需求，大模型AI不一定非要在云端运行，在一些特定场景下，在终端侧运行大模型AI，可以减少数据向云端的传输，用户掌控自己的数据，从而降低数据泄露的风险，更利于隐私保护。

另外，因为不需要经过云端处理数据，在执行特定需求时，在终端侧运行大模型AI能够快速响应用户的请求。比如在自动驾驶场景中，就需要减少从数据输入到决策输出的时间。而在网络环境不稳定的区域，访问云端较慢也会极大影响用户体验。显然面对此类场景，计算任务还是放在终端运行更为合适。

当然还有更关键的一点，云端计算需要消耗大量的资源和能源，而终端侧AI可以高效利用本地资源进行计算和数据处理，从而大大降低对云端的依赖，利于节省成本和节约能源。总之，终端侧AI的优势很明显，一旦完全铺开，将会成为大模型AI规模拓展过程中的重要助力。

谁在推动终端侧AI的发展？

眼下，终端侧AI正在呈扩大化的发展趋势，而高通在其中无疑扮演了很重要的角色。

高通公司全球副总裁侯明娟致辞

今年9月份，高通发布了《混合 AI是AI的未来》白皮书，表达了高通对未来AI技术发展的趋势的理解和展望，并深入阐述混合AI架构的领先优势。

实际上，高通技术方案正在为终端侧AI的广泛应用和快速发展提供了重要支持和保障。此前，高通通过开发AI加速架构和全栈AI套件，为开发者提供灵活和稳健的AI解决方案。这些措施不仅帮助开发者、OEM厂商轻松开发混合AI应用，也为用户能够享受AI技术乐趣按下了加速键。

事实上，骁龙芯片就是一个很好例子。骁龙芯片作为移动端处理器，具有强大的AI处理能力，最新的第二代骁龙8移动平台采用了第八代高通AI引擎，其AI性能提高了4.35倍。同时，这款芯片也是首个支持变革性的INT4 AI精度格式的骁龙移动平台，在持续AI推理方面能够实现60%的能效提升。可以说，第二代骁龙8不仅提高了AI应用的性能和效率，同时也为智能手机运行更复杂的AI应用提供了支持。

图源：@小米手机微博

目前，小米自研的端侧大模型已经在骁龙平台跑通，其自研13亿参数端侧大模型的效果，在部分场景上可以媲美行业60亿参数的云端大模型。

与此同时，高通已经实现了Stable Diffusion和ControlNet在终端侧的运行。Stable Diffusion是一个参数超过10亿的超大神经网络基础模型，能够基于输入的文本提示生成图片。

根据高通的演示，将手机设置成“飞行模式”，再通过手机端全栈AI优化，这一模型能够完全在终端侧运行，实现在15秒内完成20步推理，最终生成饱含丰富细节的图像。

ControlNet是一种基于生成式AI的神经网络模型，可以用于智能语音、文本生成和图像编辑等场景，在智能手机上运行ControlNet，意味着可以在各种场景下实现更加快速、高效和实时的AI计算和推理，对于AI大模型在终端侧普及具有深远的意义。

最后：

在大荧幕上，科幻影视中的AI机器人总会给人留下深刻印象，无数观众也梦想着有朝一日，我们身边也能拥有这样一位无所不能的好助理。

从现实生活来看，这样的想法绝非异想天开，随着终端侧AI的广泛应用，未来移动设备、智能家居、可穿戴设备和汽车，都将成为运行生成式AI应用的主要载体。幸运的是，这一天看起来并不遥远，得益于高通AI技术和解决方案在终端侧AI发展中起到的推动和引领作用，大量边缘侧终端已经有能力运行生成式AI应用，未来随着终端数量的增多，也势必会为用户带来更好的体验和更多的便利。