关于大模型的一些基础内容

跟上时代发展,作为 IT 人员都有必要了解大模型的一些基础知识。

从质疑 AI 到理解 AI,到最后使用并超越 AI 。

大模型定义:

大模型指的是 大语言模型(英文:Large Language Model,缩写LLM), 大语言模型(LLM)是基于大量数据进行预训练的超大型深度学习模型。

这里面有两个关键描述,大量数据预训练 和 超大型深度学习模型,两方面都在体现着 “大” 的特性。

大模型对数据量的要求很高,通常会包含数十亿甚至数千亿个参数,模型大小可以达到数百GB甚至更大。

比如2020年5月的GPT-3,参数量达到了1750亿,预训练的数据量就达到 45TB 。

参数多,数据量大,模型深度也复杂,自然对算力要求很高,没有个千把张英伟达的 H100 就无从谈起训练自己的大模型,而一张 H100 的价格将近 4 万刀,约合28万元人民币。

有业内人士透露:“一般一台服务器上需要装配8张显卡”,按最高成交价28万元来算,一台服务器整机价格接近200多万元。

这么一看,吾等普通程序员的人力成本还是挺便宜,难怪英伟达的股价能一直涨涨涨。

目前有哪些大模型:

自从 OpenAI 的 GPT 3.5 大模型问世以来,国内外各大公司都发布了自己的大模型,真是五花八门,百花齐放!!!

比如谷歌的 Gemini、Meta 的 Llama 2、百度的文心大模型、腾讯的混元大模型、科大讯飞的星火大模型等等。

有不少大模型都开源的,可以在 https://huggingface.co/models 网站上可以下载对应的大模型。

大模型如此之多,如何衡量哪家大模型更强?在衡量大模型的能力时会提到一个参数 7B、2B、13B 等,这里的 B 就是可以量化的一个单位。

大模型参数的5B、7B是指模型中可训练参数的数量。这里的“B”表示10亿(Billion),即10^9。因此,5B表示50亿个可训练参数,7B表示70亿个可训练参数。这些参数是神经网络中的权重和偏置,它们在训练过程中通过反向传播算法进行更新,以使模型能够更好地拟合训练数据。

网上有一些对大模型进行打分的评比,贴了一个截止2023年10月的大模型评测得分:

快要过去半年了,大模型天梯榜早已更新,就在前几天谷歌又发布了全球最强开源大模型 Gemma,7B 性能超越 Meta 的 Llama 2 13B!

照这个速度卷下去,大模型都要变成大白菜了,数据量太少的模型都不能上榜的。

大模型的移动端部署

目前大模型都还是部署在服务器上,移动端应用通过网络请求来调用相关的服务。

这是因为大模型不仅是参数量大,对计算资源和内存空间的要求也很大,移动端的算力还不能满足现有的模型部署。

还有一种方法对当前的模型进行裁剪,减少计算量和内存需求。在 Github 上有个开源项目就是尝试在 Android 手机上部署大模型并运行,参考这里:

https://github.com/Tao-begd/mlc-llm-android

或许在将来,移动端甚至嵌入式设备的算力进一步提升,都可以在本地跑大模型,那时候智能硬件才算是有点智能了吧。(是不是可以提起买入高通的股票,等着高通芯片支持大模型运算)

大型语言模型有哪些应用?

大模型有很多实际应用。具体有哪些,这个问题就让 ChatGPT 自己回答吧 ~ !

  • 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

  • 知识库回答

该技术通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

  • 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

  • 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其他几种编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。

  • 文本生成

与代码生成类似,文本生成可以完成不完整的语句,编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

大模型的技术实现:

啥 ?????

这道题超纲了,看了好多文章也没搞懂大模型具体怎么实现的,超出理解范围,溜了溜了~~~~