你是否还不清楚在大模型中什么是 Token |基础概念03节

什么是 Token ?

在大模型中,Token 是一个基本但重要的概念。它是文本处理中的最小单位,比如单词、数字、符号或者汉字。你可以把 Token 想象成是单词、数字、标点符号或者其他语言元素,也可以理解为搭建成建筑(句子)的一个个积木(Token)。

你是否还不清楚在大模型中什么是 Token |基础概念03节

在英语中,一个 Token 可能是一个单词,比如 “apple”,或者一个标点符号,比如句号 “.”。但在其他语言中,比如中文,一个 Token 可能代表一个字或者一个词。

例如,在句子 “我爱北京天安门” 中,每一个词 “我” 、“爱”、“北京”、“天安门” 都可以被视作一个 Token,在汉语中,Token 可能是一个字,也可能是一个词。

在大模型的核心,"Token" 扮演着关键角色。在与大模型交流时,它将输入文本分解成 Token,再基于这些 Token 生成回应。

Token 的类型和作用 ?

Token分为以下几种类型,不同类型的词汇对照的内容也不一样:

  1. 词汇Token(Word Tokens):这是最常见的 Token 类型,代表文本中的单词、汉字。例如,“猫”、“跑”等。
  2. 符号Token(Symbol Tokens):包括标点符号和特殊字符,如逗号、“?”等。
  3. 数字Token(Number Tokens):代表数字,例如“2023”、“100”等。

每种类型的 Token 在文本处理中扮演不同的角色:

  • 词汇 Token 帮助模型 理解文本的语义内容;
  • 符号 Token 通常用于 理解文本的结构和语法;
  • 数字 Token 则在处理包含数字信息的文本时显得尤为重要。

当我们和大型语言模型交流时,模型并不是直接理解整个句子或段落。

相反,它首先 将输入的文本分割成一系列的 Token。这就像是把一句话拆分成单词或词组,然后模型会逐个分析这些Token,以理解整个句子的含义。

此外,在模型的训练过程中,它学习了大量的 Token 及其在不同上下文中的用法。

当模型生成文本时,它也是基于Token 来构建句子。模型会考虑之前的 Token 来预测下一个最合适的 Token,从而生成连贯、合理的文本。

由此,Token 的重要性可见一斑,通过将文本分解为不同类型的 Token,大模型能更准确地分析和理解语言,从而在回答问题、生成文本或执行其他语言相关任务时,表现出更高的效率和准确性。

怎么看用了多少 Token ?

对于 ChatGPT 而言,可以进入网站: https://platform.openai.com/tokenizer 验证 Token 的消耗情况。

你是否还不清楚在大模型中什么是 Token |基础概念03节

常见大模型的上下文长度

对于使用者的主要影响就是超出大模型的上下文长度时,则会出现遗忘。比如某个大模型支持 1000 个字,当总共累计到 1001 个字后,第一个字的内容就会被忘记。

这里的 1001 个字包含你的输出内容,以及大模型的输出内容。

GPT 的 Token 上限:

如官方链接:https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo

  • 普通 ChatGPT Plus:32K
  • Team (团队)订阅计划: 32K
  • Enterprise (企业)订阅计划: 128K

你是否还不清楚在大模型中什么是 Token |基础概念03节

Claude2 Token 上限: 200K

地址: https://support.anthropic.com/en/articles/7996856-what-is-the-maximum-prompt-length

你是否还不清楚在大模型中什么是 Token |基础概念03节

Token 对提示词编写的影响

1、我们在编写提示词时,要了解清楚在哪个大模型上使用,对应大模型的上下文长度是多少?了解这些信息后,当大模型出现遗忘后,我们就不会懵逼了!

2、在设计、编写提示词时,我们需要把话说明白,但是要把话说精简点,尽可能不说废话。这样有助于在多轮对话中,仍然可以高效使用。

大模型支持的Token 数越大, 难度为什么越高?

我们来探讨一个相关的问题:为什么处理拥有更多Token的模型(比如 32K Token)比处理较少 Token 的模型(如8K Token)要难得多。

为了通俗解释这个问题,我们可以用一个派对的例子来比喻。

想象一下,你正在举办一场派对,邀请了8000 位宾客。这里的每位宾客都代表一个 Token。在这个派对上,你的任务是确保每个人都能和其他所有人至少打一个招呼。这已经是一项相当庞大的任务了。

你是否还不清楚在大模型中什么是 Token |基础概念03节

现在,假设你的派对规模突然扩大到 32000 位宾客。这意味着每个人(每个 Token )都需要和更多的人(更多的Token )打招呼。

显然,这项任务的难度和工作量成倍增加。这正是处理更多 Token 的模型比处理较少 Token 的模型更加困难的原因。

在技术层面上,这种 “打招呼” 的过程在 AI 模型的 Transformer 算法中被称为 “注意力计算”(attention calculation)。

在注意力机制中,每个 Token 都需要与其他所有 Token 进行一次计算。因此,当 Token 的数量增加时,所需进行的 计算量会呈平方级增长。

例如,对于 8K Token,需要进行大约 6400万次(8000 乘以 8000)的注意力计算。
而对于 32K Token,则需要进行高达 10.24 亿次( 32000 乘以 32000 )的计算。
这就解释了为什么处理 32K Token 的模型要比处理 8K Token的模型难得多,而处理更大规模的 Token(如 128K )更是难上加难。

温馨提示 网站名称:壹柒学Ai-给真正想学习AIGC爱好者们规避弯路,提供顺畅学习之路!
官方网址:https://17xueai.net
本网站的部分文章内容收集来源于网络,部分会附上原作者信息,所有资源内容仅限于大家学习与参考。
版权归原作者所有,若内容若侵犯到您的权益,请联系站长QQ:1005406289 我们将第一时间处理!
本网站的部分文章内容需要指定积分进行获取查看,积分获取方式请查看【帮助文档】中说明。
本网站的资源所售价格并非资源售卖价格,是收集、整理、制作、编辑详情以及本站运营的适当补贴。
本网站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报,举报成功会获得对应积分奖励!
如无特别声明本文即为原创文章仅代表个人观点,版权归《壹柒学Ai》所有,欢迎转载,转载请保留原文链接。

给TA打赏
共{{data.count}}人
人已打赏
Ai写作技巧

大模型是如何做到词语接龙?|基础概念02节

2024-6-6 11:07:43

Ai写作技巧

在 ChatGPT 中什么是温度值|基础概念04节

2024-6-6 11:36:47

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索