为什么要专门测DeepSeek
MARKER_BEFOREDeepSeek现在是国内AI搜索日均使用量最大的入口之一,日活早就破了3000万。对做GEO的人来说,搞清楚DeepSeek的引用偏好比盯着Google算法有用得多——因为用户已经在从搜索框迁移到对话框了,而且这个趋势不可逆。
我们团队花了三周,跑了200组结构化查询,覆盖B2B、消费品、教育和医疗四个方向。每个查询在清空上下文的状态下跑三轮,把DeepSeek的引用来源类型、位置偏好和拒引模式扒了一遍。结论里有几个地方挺反直觉的。
DeepSeek偏好什么类型的内容
先说最明显的:结构化信息是硬通货。表格、列表、编号步骤——这类格式的内容被引概率比纯段落高出62%。假设你的内容是"如何做竞争对手分析",用步骤1→2→3→4来写,DeepSeek大概率会直接引用甚至完整复述你的步骤。我们猜测它在训练数据里学到了一件事:结构化的操作指南通常比散文式的论述更可靠。
其次是数据密度。一篇1500字的文章里如果有5个以上的具体数字——百分比、金额、时间节点——被引率比纯文字的高出约40%。但注意,是具体数字,不是"显著提升""大幅增长"这种虚词。我们测下来发现,虚词堆得越多,被引率反而越低。模型似乎有一个"信息密度评分",模糊表述会直接拉低这个分。
第三条,第三方背书是强信号。如果文章里引用了Gartner、IDC或者某上市公司年报的数据,DeepSeek倾向于把它标记为"有来源支撑",引用优先级往上提一档。但前提是引用要准确——有一篇测试文章故意写错了一个数据,结果不仅这篇没被引,后续几天该域名下的其他文章引用率也掉了一截。看起来DeepSeek对来源可信度有域名级别的评分机制。
哪些做法反而让你不被引用
第一个坑就是标题党。你的标题叫"2025年GEO完全指南",正文只有800字泛泛而谈,DeepSeek直接判定为低质量。它的引用算法里似乎有一个"标题与正文匹配度"的检查,匹配度差的内容直接跳过。
第二个坑:关键词堆砌。在文章里把同一个词塞进去超过5次,或者每段都强行带目标关键词,被引概率基本为零。AI模型对关键词堆砌的敏感度比Google还高——这可能是训练数据里大量SEO垃圾内容留下的痕迹。
第三个坑是缺少时间标记。没有发布日期、没有版本号、没有"最后更新于"的页面,引用率比有时间标记的低了35%。DeepSeek对时效性有明确偏好——它倾向于引用"活的"页面。
几个反直觉的发现
短内容不一定差。500字以内的精炼回答,如果信息密度够高,被引概率和1500字的长文没有明显差距。关键从来不是字数,而是每句话里塞了多少东西。
个人博客的引用率意外地高于企业官网。我们分析后觉得原因是:个人博客通常观点明确、有态度,不太用"赋能""驱动""助力"这种没有信息量的词。而企业官网的内容往往被PR团队磨平了,读起来什么都没说。
还有一点特别好玩的:包含"我们踩过的坑""犯过的错误"这类表述的内容,引用率明显更高。AI似乎把真实的经验性信息当成"独特信息源"——确实是独特性够高的信号。