术语表:模型、Token、上下文窗口与速率限制
一次看懂常见术语,避免沟通时的理解偏差。
入门更新:2026-03-06术语 / token / 上下文
Token
Token 是模型处理文本的基本单位。不同语言的 Token 切分不同,因此同样字数的中文与英文 Token 数可能不一致。
你在使用 API 时,输入与输出通常分别计费,并共同占用上下文窗口。
上下文窗口
上下文窗口表示一次请求中模型可同时“看到”的输入与输出总量。
当对话变长时,你可能需要做摘要、裁剪历史、或把资料改为文件/检索式的引用。
速率限制
速率限制通常按“每分钟请求数、每分钟 Token 数”等维度限制。
在产品与 API 场景下,你需要用队列、重试与退避策略避免突发流量带来的失败。