🧠
大语言模型（LLM）阶梯学习

飞书用户1255

2024年7月8日修改

AI大模型

common.docs_name - LarkCCM_Docs_Menu_Image

大模型能干什么？

大模型，全称「大语言模型」，英文「Large Language Model」，缩写「LLM」。例如以下这些都是目前访问量较高的大语言模型，我们能够看到越来越多的头部公司、创业公司开始布局大模型，给大家放了访问地址，大家可以自行体验：​

ChatGPT：https://chatgpt.com/

Bing Chat：https://www.bing.com/

文心一言：https://yiyan.baidu.com/

讯飞星火：https://xinghuo.xfyun.cn/

智谱清言：https://chatglm.cn/

👍

推荐视频:

速通AI大模型原理

大语言模型介绍原理视频(李宏毅)

LLM概述

大语言模型（Large Language Model, LLM）是一种具有许多参数的人工神经网络构成的模型，不熟悉神经网络的读者可以看下面一篇回答，对于神经网络这里就不再赘述：​

机器学习，深度学习，神经网络，深度神经网络之间有何区别？

大语言模型通常指的就是这些参数量在成亿的深度学习模型，并且这些模型是通用的，在多个基准测试（benchmark）上都表现出色，并不止对一个特定任务有效。并且通常它们的训练方式是自监督或者半监督的。​

LLM的能力

•
比如说几乎所有大模型都具备的基本能力：​
◦
语言理解能力，如维基百科问答、布尔问答、多选题等任务；​
◦
语言生成能力，如文本简化、摘要、问题生成等；​
◦
跨语言能力，如机器翻译、跨语言问答等。​

•
还有不少扩展能力：​
◦
世界知识：很多大模型可以利用其储备的背景知识来回答问题，无需额外提供知识。​
◦
工具使用：大模型可以学会使用外部工具，如计算器、搜索引擎等，拓展其能力边界。​
◦
少样本学习：大模型展现出了强大的少样本学习能力，可以从寥寥几个示例中学习新任务。​
◦
指令遵循：经过指令微调后,大模型可以遵循自然语言指令执行任务。​