聊聊 AI infra LMops | 北拓研究
2023-09-13 12:00
北拓资本
2023-09-13 12:00
北拓资本
2023-09-13 12:00
订阅此专栏
收藏此文章

本文将大模型的开发训练部署所涉及到的 infra tools 大致分为以下几个环节:数据准备环节→模型开发与训练环节→模型部署环节→模型应用开发,以及社区与资源。


在机器学习时代提供整个工作流的方法论和最佳技术实践的组件工具或平台我们叫做 MLOps(ML+Dev+Ops),今天大模型时代我们也可以称之为 LMOps,下面是针对每个环节的一些观察与思考分享。


01

数据准备环节


数据清洗和标注

国外典型公司如 Scale/Snorkel,国内如海天瑞声,云测数据,晴数智慧,数据堂,标贝科技等公司,通过人工做数据标注或利用模型做数据标注,爬虫做数据采集,卖数据集,把数据结构化或半结构化成高质量数据。


也有直接做数据采集到终端应用的公司,如国外的Primer.ai主要做海量第三方数据的舆情监测,应用场景在政务军事较多;Sprinklr,主要做社交媒体数据采集舆情监测,类似于国内的数说故事等。 


数据标注类公司一般按标注量计价,例如 Scale 标注图片起价为每张 2 美分,Scale Text 每条 3 美分,面对大客户一般也是打包收费。


合成数据


原始数据直接用于大模型训练通常会涉及到隐私问题,合成数据简单理解就是保留了真实数据的结构和统计属性 /schema,但信息是模拟的非原始的,所以不会有真实数据的安全隐私问题,海外代表厂商有Gretel(B 轮 5000 万美元)、Mostly AI(B 轮 2500 万美元)等。


合成数据的收费模式一般按照工具订阅 + 使用量收费,例如 Gretel 面向小团队(10 并发以内),基础订阅费 295 美元 / 月,然后按 API 调用时间计费,2.2 美元 /5 min,同样对于大客户可以单独议价。


非结构化数据的利用


这里重点针对非结构化数据的治理公司,我想着重强调一下,因为在整个数字世界中,非结构化数据是主要组成部分,至少 80% 的数据以非结构化的形态存在。今天结构化数据的价值已经接近挖掘殆尽,而非结构化数据在过往利用成本一直较高且难以规模化。


对于企业和个人来讲,大量的信息和知识都以非结构化的形态存在,例如一家银行有大量的合同,票据是以长文本,图片,PDF,PPT 等形态存在,业务人员只能肉眼查看而无法直接交互,个人过往可能积累了大量的纪要,报告等资料,也没有工具可以直接与网盘内大量的各类文档交互。


过去解决非结构化数据的厂商主要是 IDP 智能文档公司,如国外的Rossum,国内的达观数据等,通过对特定领域定制小模型来完成信息提取和数据治理工作。今天借助于 Transformer 架构,出现了新的技术厂商使用大参数大模型来标准化规模化的解决非结构化数据治理问题,例如国外的unstructured.io,国内的 Dataelem 数据项素


非结构化数据治理的商业模式在过去主要是定制化的项目制(除了少数的例如身份证识别这种标准大场景),定制化的项目交付成本高,效率低,一个客户可能要交付上百个模型,而今天如果用专属任务大模型来做这件事,可以实现一个 model 满足所有场景需求,这里先不展开,回头会单独写一篇非结构化数据治理的文章。



02

模型开发与训练环节


首先准备好开发环境,Docker(容器),Anaconda(python 包管理工具),选好 IDE 开发工具,例如 notepad,eclipse,visual studio 等等,以及版本控制工具 Git 等。


大模型训练框架


目前主要Pytorch(Meta)、Tensorflow2(Google)、Paddlepaddle(百度)、Mindspore(华为)Oneflow 一流科技(国内创业公司,融了 6 轮,最近被光年之外整合)等其他各种小框架。


Transformer 模型架构使用这些深度学习框架进行实现,好的框架会有更多工具和选项来优化模型训练,包括分布式训练,模型并行化,硬件加速等,通常也提供了从数据预处理到模型部署的完整工具链。


目前最主流的还是 Pytorch(学术界较多)和 TensorFlow(产品开发较多),深度学习框架技术门槛很高,但商业价值很难独立存在,缺少社区生态很难发展起来,所以基本还是大厂生态的一环。


分布式计算和超参数优化


分布式计算简单来理解核心词就是“并行”,并行提高效率和容错率,数据并行(把数据放在不同节点分别对子集训练,主要解决训练数据的大小加速训练过程的问题),模型并行(把模型分割在不同节点,主要解决模型大小的问题),同时可以更好的扩展和备份。代表厂商:Ray 框架 (Anyscale)(C 轮 1 亿美元独角兽),Dask(开源),国内的潞晨科(已完成 3 轮融资)。


超参数优化工具例如Optuna,Ray Tune,很多模型管理工具也提供超参数优化功能,是难以独立商业化的一环。



03

模型部署环节


模型的转换和优化


ONNX(Open Neural Network Exchange),是一个开放标准,用于不同框架之间进行模型交换,使得模型能更容易地在不同的环境中部署。如果你在 PyTorch 中训练了一个模型,但希望能在一个 TensorFlow 环境中运行就可以用他转换。


TensorRT是 NVIDIA 基于 CUDA 架构做的推理库,用于优化模型的推理速度,支持各种优化,包括层合并、精度调整(如 FP16 或 INT8 推理)等。


OPENBMB/ 面壁智能是清华大学支持发起的开源项目,提供一系列工具库提高模型的微调效率,模型“瘦身”(蒸馏剪枝)以及低成本硬件推理。


模型的实际部署


OctoML底层基于 Apache TVM,支持 CPU、GPU、FPGA 等多种硬件平台,OctoML 可以自动优化模型以获得最佳性能。

TensorFlow Serving:特别针对 TensorFlow 模型进行了优化,但也支持其他类型的模型。


Amazon SageMaker:基于 AWS 的云托管模型部署方案。


Replicate:提供开箱即用的模型云端部署 API(A+ 轮 3200 万美元)

模型部署类公司的主要收费模式还是依靠算力资源计费,例如下图是 replicate 的算力收费表:

 

这种商业模式在国内可能挑战较大,主要还是国内公有云厂商自己基本就把能做的市场做了,而大客户大多需要本地化部署。



04

模型的监测与管理


国外的厂商例如Bento、Weights&biases,Arize,国内的创业公司如星鲸科技,提供跟踪实验列表、版本、使用数据集、评估模型性能,重现模型、效果可视化等功能,这些都属于 MLops 公司,LMops 逻辑也没太大区别。


这类公司在海外基本主要也是根据使用量和团队规模采取 SaaS 的订阅制收费模式,例如 Weights&biases 的收费如下图:


模型的数据隐私安全


还有一个单独的小赛道,在国内可能比较有市场需求,即模型的数据隐私安全,等同于网络安全市场,国外公司如CalypsoAI主要做大模型安全,工具可对模型安全性与可靠性进行校验,比如对应用环境评估,易受攻击点进行检查、对鲁棒性进行单独测试等,主要为军方、政务、企业等提供 AI 防护,美国国土安全部、美国空军、航空部等都是他的客户。国内市场随着大模型应用的逐渐推广,必将暴露出一系列的安全合规问题,需要有厂商针对这一点做解决方案。



05

模型应用开发


准备大模型可以调用的 API


大模型应用会利用到大量的外部工具能力,API 市场是密不可分的一环,包括 API 开发工具(FastAPI/Swagger)或调用外部的 API 市场(APISpace、APIstore)。


准备大模型的数据库


大模型会用到多种数据库,例如关系型 MySQL,文档数据库 MongoDB,向量数据库 Zilliz,其中大模型时代最受重视的就是向量数据库,对于特化的向量数据库公司如Zilliz、Pinecone、Weaviate、Chroma、Milvus等公司,成立时间 在大概在 17-19 年,因为大模型对数据量需求的爆发式增长,导致向量数据库的需求增加被重视。

传统的关键词搜索在语义和复杂的上下文场景效率较差,向量数据库主要是做向量相似性的匹配,效率更高,而且不仅可以处理文字,图像、语音等多模态数据都可以存储,索引,查询。


向量数据库的收费模式主要基于数据存储量和计算资源使用时长,按照不同的性能会有不同的定价,高精度的向量占存储会多一点,低精度的占存储少一点

例如 pinecone 的企业版收费表如下:

 

目前向量数据库的需求和市场空间可能还比较小,按照这个收费模式,一般企业一年大概也就小几千美元就足够了。


传统数据库现在也支持向量检索


实际上像Redis,Elastic,Rockset等数据库产品现在也支持向量索引了,而且性能相比特化的向量数据库好像也不是差特别多,个人感觉向量数据库赛道会比较卷,而且开源产品做的很好,创业公司切进来的门槛会很高。


Agent 应用开发框架


通过模型的 COT 推理出 Action,调用相关 API 工具完成任务,主要包括LangChain、AutoGPT、国内创业公司推出的Auto Agent 开源工具 Bisheng(数据项素),未来的大模型应用基本上会基于 Agent 的框架来实现,这里暂不详细展开,后续会单开一篇文章。

 

大模型云应用开发平台

除了像 Flask,Django 这种前后端集成的 web 应用开发框架,海外有些公司在做轻量化的大模型云应用托管:Streamlit(被 snowflakes8 亿美元并购), Vercel(D 轮 1.5 亿美元),  Steamship等。


 

06

社区和资源


Huggingface,AI/ 大模型版的 GitHub,目前通过模型托管,私有开发管理企业版收费,其实跟 GitHub 基本一样。GitHub,最大的男性交友社区(不是),你想要的所有代码都能在这里找到,不赘述了。


Modelscope(魔搭社区),阿里达摩院旗下的开源模型平台,与阿里云服务联动,可以直接在阿里云进行一站式创建,主要是中文社区。


和鲸社区,国内创业公司,有自己的数据科学家协作平台和数据社区,数据集等,最近也在做大模型开发管理协作平台。



07

小结


以上是笔者近期针对 AI infra tools 的一篇 mapping 笔记,相对还较粗糙,涉及的公司并不全面,抛砖引玉与各位分享。


总的来说,笔者认为在 infra tools 层面,两端的商业价值相对最大,即抓数据和应用开发。


数据是个持久的生意,从机器学习到深度学习到今天的大模型,市场需求一直在持续增长。根据 IDC 的预测全球数据量在 2025 年将达到 175ZB(1ZB 约等于 1.1 万亿 GB),中国将达到 48.6ZB,而其中 80% 以上的数据以非结构化的形态存在如文本、图像、音频、视频等,大模型 AI 时代的重心将是挖掘这些海量的非结构化数据价值


另一侧应用开发也是离钱最近的市场,C 端应用可以低成本标准化的复制推广,B 端核心还是靠服务能力,行业 knowhow,今天我们对大模型的基础能力不要有过高的期待,Agent 的本质还是需要去模仿人的行为,人需要定义训练 Agent,对于 B 端专业的业务场景,前期是需要较多的定制业务逻辑,需要产业内的业务人员,咨询专家提供支持,这一点也正是创业公司的机会所在,垂直领域的创业公司一直是离客户最近的,他们的服务能力和行业 knowhow 在历史上一直比大厂更强,大厂做些标杆大客户案例还可以,中腰部客户其实就没什么优势了。


中间的开发训练,部署监测管理,单点的技术很难商业化,商业化的公司能力都在向工作流的上下游延伸。个人觉得创业公司切这个赛道挑战较大,这块大厂具有更强的研发投入实力,计算资源配套能力,而且国内客户的需求向来都是一站式端到端的交付,除了数据环节客户可以很容易分开采购,最终客户要的还是应用,中间的 DevOps 客户付费意愿可能很有限,创业公司很难标准化的拓展,要避免陷入工程服务队的模式。关于国内模型私有化部署的商业模式研究,近期我们还会发布一篇供参考。


最后欢迎各位加笔者微信讨论交流,Wechat:13521506838




部分交易 

黑芝麻智能ClickPaaS第四范式讯能集思探维科技不停科技 PROPHESEE本末科技开为科技华瑞指数云 群脉科技云蝠智能九四智能盎锐科技大麦地星辰空间星测未来星空动力九天微星范特科技薪人薪事优蓝国际颐圣智能超维知药知行合一微密医疗乐准智芯硅基智能极芯通讯恒百锐信迈医疗博志研新诺领科技新通药物普罗亭零犀科技深蓝航天达利凯普九天微星瑞莱生物三盟科技驭势科技江行智能


北拓研究 


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

北拓资本
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开