https://fixupx.com/Nah1daBuer/status/1903775739226259597
嗯...斗争失败,ds 的中文分词确实优化过,加上如果文章写的简洁干练的话,翻译到英文信息量就不一样的了,不过技术文章跟普通文章也不太一样,而且也不能保证中文翻到英文就一定能是英文里表意最简单的方式(deepL翻译)。 而且中英文夹杂的话呢(?
事已至此,先写代码去吧! (决定找找加上 ds 的 tokenizer 选择
https://lunary.ai/deepseek-tokenizer