在推特上看到某人反驳别人说 “中文比英文更省 token” 的观点，这里反驳一下认为英文更省 token 的论调：首先明确前提：1. 中文模型的英文能力，比英文模型的中文能力好（需要采用中文模型的 tokenizer ）2. 从中文翻译到英文，比英文翻译到中文更自然（需要使用中文母语书写，翻译成英文或用英文重写的文本源作为对找；如果是英译中，使用中文母语水平重写，也可以作为对比，但是更难找到合适的参照）3. 机器/AI翻译的结果，不能直接拿来比较（应该不用解释了）满足这三点的情况下，最自然的可以拿 deepseek 或者 antd 的文档（或vue? 不太确定是不是中文写的），使用 deepseek 的分词器，中文会持平或略低于英文

在推特上看到某人反驳别人说 “中文比英文更省 token” 的观点，这里反驳一下认为英文更省 token 的论调：

首先明确前提：
1. 中文模型的英文能力，比英文模型的中文能力好（需要采用中文模型的 tokenizer ）
2. 从中文翻译到英文，比英文翻译到中文更自然（需要使用中文母语书写，翻译成英文或用英文重写的文本源作为对找；如果是英译中，使用中文母语水平重写，也可以作为对比，但是更难找到合适的参照）
3. 机器/AI翻译的结果，不能直接拿来比较（应该不用解释了）

满足这三点的情况下，最自然的可以拿 deepseek 或者 antd 的文档（或vue? 不太确定是不是中文写的），使用 deepseek 的分词器，中文会持平或略低于英文。

关于第一条可以详细解释一下，同样使用 vue 的这篇文档，可以看到英文的分词优化差异不大的情况下 (3%)，中文分词差了 16%，故应该采用中文模型的分词器。

而使用 tokenizer 的最佳表现，可以发现无论中英，表达相同的含义需要的 token 数目，是大体相同的。这大概与 token 本身就是表达自然语言含义有关。
~~相应的，可以推测，小语种的 token 数优化就很难得到充足的资源~~

更延伸开来，从语言层面比较，中文世界作为追赶方，也更擅长将中文翻译成英文（论文、交流需要），且天生就更常出现中文夹杂英文的情况。而反之则非常罕见，即使是英译中，也大部分是中文母语者在做。
~~不知道算不算一种语言层面的后发优势。~~
而抛开背景差异单纯比较语言，那中文信息熵高早已是不争的事实了。