分享
大语言模型(LLM)阶梯学习
输入“/”快速插入内容
🧠
大语言模型(LLM)阶梯学习
飞书用户1255
2024年7月8日修改
AI大模型
大模型能干什么?
大模型,全称「大语言模型」,英文「Large Language Model」,缩写「LLM」。例如以下这些都是目前访问量较高的大语言模型,我们能够看到越来越多的头部公司、创业公司开始布局大模型,给大家放了访问地址,大家可以自行体验:
ChatGPT:
https://chatgpt.com/
Bing Chat:
https://www.bing.com/
文心一言:
https://yiyan.baidu.com/
讯飞星火:
https://xinghuo.xfyun.cn/
智谱清言:
https://chatglm.cn/
👍
推荐视频:
速通AI大模型原理
大语言模型介绍原理视频(李宏毅)
LLM概述
大语言模型(Large Language Model, LLM)是一种具有许多参数的人工神经网络构成的模型,不熟悉神经网络的读者可以看下面一篇回答,对于神经网络这里就不再赘述:
机器学习,深度学习,神经网络,深度神经网络之间有何区别?
大语言模型通常指的就是这些参数量在成亿的深度学习模型,并且这些模型是通用的,在多个基准测试(benchmark)上都表现出色,并不止对一个特定任务有效。并且通常它们的训练方式是自监督或者半监督的。
LLM的能力
•
比如说几乎所有大模型都具备的基本能力:
◦
语言理解能力,如维基百科问答、布尔问答、多选题等任务;
◦
语言生成能力,如文本简化、摘要、问题生成等;
◦
跨语言能力,如机器翻译、跨语言问答等。
•
还有不少扩展能力:
◦
世界知识:很多大模型可以利用其储备的背景知识来回答问题,无需额外提供知识。
◦
工具使用:大模型可以学会使用外部工具,如计算器、搜索引擎等,拓展其能力边界。
◦
少样本学习:大模型展现出了强大的少样本学习能力,可以从寥寥几个示例中学习新任务。
◦
指令遵循:经过指令微调后,大模型可以遵循自然语言指令执行任务。