在推特上看到某人反驳别人说 “中文比英文更省 token” 的观点,这里反驳一下认为英文更省 token 的论调:
首先明确前提:
1. 中文模型的英文能力,比英文模型的中文能力好(需要采用中文模型的 tokenizer )
2. 从中文翻译到英文,比英文翻译到中文更自然(需要使用中文母语书写,翻译成英文或用英文重写的文本源作为对找;如果是英译中,使用中文母语水平重写,也可以作为对比,但是更难找到合适的参照)
3. 机器/AI翻译的结果,不能直接拿来比较(应该不用解释了)
满足这三点的情况下,最自然的可以拿 deepseek 或者 antd 的文档(或vue? 不太确定是不是中文写的),使用 deepseek 的分词器,中文会持平或略低于英文。
关于第一条可以详细解释一下,同样使用 vue 的这篇文档,可以看到英文的分词优化差异不大的情况下 (3%),中文分词差了 16%,故应该采用中文模型的分词器。
而使用 tokenizer 的最佳表现,可以发现无论中英,表达相同的含义需要的 token 数目,是大体相同的。这大概与 token 本身就是表达自然语言含义有关。
相应的,可以推测,小语种的 token 数优化就很难得到充足的资源
更延伸开来,从语言层面比较,中文世界作为追赶方,也更擅长将中文翻译成英文(论文、交流需要),且天生就更常出现中文夹杂英文的情况。而反之则非常罕见,即使是英译中,也大部分是中文母语者在做。
不知道算不算一种语言层面的后发优势。
而抛开背景差异单纯比较语言,那中文信息熵高早已是不争的事实了。
首先明确前提:
1. 中文模型的英文能力,比英文模型的中文能力好(需要采用中文模型的 tokenizer )
2. 从中文翻译到英文,比英文翻译到中文更自然(需要使用中文母语书写,翻译成英文或用英文重写的文本源作为对找;如果是英译中,使用中文母语水平重写,也可以作为对比,但是更难找到合适的参照)
3. 机器/AI翻译的结果,不能直接拿来比较(应该不用解释了)
满足这三点的情况下,最自然的可以拿 deepseek 或者 antd 的文档(或vue? 不太确定是不是中文写的),使用 deepseek 的分词器,中文会持平或略低于英文。
关于第一条可以详细解释一下,同样使用 vue 的这篇文档,可以看到英文的分词优化差异不大的情况下 (3%),中文分词差了 16%,故应该采用中文模型的分词器。
而使用 tokenizer 的最佳表现,可以发现无论中英,表达相同的含义需要的 token 数目,是大体相同的。这大概与 token 本身就是表达自然语言含义有关。
更延伸开来,从语言层面比较,中文世界作为追赶方,也更擅长将中文翻译成英文(论文、交流需要),且天生就更常出现中文夹杂英文的情况。而反之则非常罕见,即使是英译中,也大部分是中文母语者在做。
而抛开背景差异单纯比较语言,那中文信息熵高早已是不争的事实了。