豆包是怎么决定引用谁的?
上个月我们做了一个测试:同一个问题「2025年最好的CRM系统是什么」,分别去问豆包、Kimi和DeepSeek。结果很有意思——三个AI引用的内容源几乎没有重叠。豆包引了3篇文章,其中2篇来自知乎,1篇来自一个独立博客。这个独立博客的域名权重并不高,百度收录也就几十条,但它偏偏被豆包"看上了"。为什么?
两个关键信号:时效性和信息密度
我们把被引用的那篇文章和同话题下排名靠前但未被引用的文章做了对比。差距不在篇幅——被引那篇只有800字,其他动辄3000+。真正的差别在两点。
一是更新时间。豆包对"新鲜度"极度敏感。那篇文章发布于提问前3天,而未被引的文章最晚也是半年前的。我们有同事开玩笑说,豆包像是一个永远在刷今日头条的用户——昨天的新闻都觉得旧。
二是信息密度。那篇文章每一段都在给结论——"CRM选型最应该关注的是这三点",然后逐一展开,没有一句废话。反过来,那些长文中充斥着"随着数字化转型的深入""企业面临着前所未有的挑战"——典型的AI腔,连我们自己读着都烦,更别说AI去引用了。
被引用的内容长什么样?
我们后来扩大了测试范围,分析了50个豆包引用案例,找到了几个共同特征:
第一,标题直接回答问题。豆包偏爱「XX是什么」「XX怎么做」「XX哪个好」这种问答式标题,而不是「基于XX视角的XX研究」这类论文腔。说白了,你标题写成用户提问的样子,比写成论文标题,引用率高出不少。
第二,正文前300字就给出核心答案。豆包的摘要提取范围大概在前300到500字。你在这段范围里还在铺垫背景、讲故事,那基本上没戏。
第三,段落短,每段不超过150字。这跟手机端的阅读习惯有关——豆包的用户大部分在手机上用,长段落直接就被划过去了。
第四,有明确的数据或案例。豆包对"根据XX公司的数据""我们测试了XX个案例"这类表述有明显的偏好,引用率比纯观点型内容高出约40%。
第五,页面加载速度。在30个被引站点中,首屏加载时间平均1.2秒,未被引的站点平均3.8秒。差了一倍还多,这不是小差距。
什么内容不会被引用?
我们也总结了几个"雷区"。最严重的:内容空洞——满篇「赋能」「驱动」「闭环」「抓手」这类词,说了一大段没有一个具体数字。豆包的语义理解模型会直接判断这类内容"信息量低",跳过不引用。
其次是过度SEO——关键词堆砌、标题党、大量外链。这些在传统搜索引擎里也许还能拿到排名,但对AI搜索反而是减分项。豆包会认为你在"喂搜索引擎"而不是"写给真人看"。
被引用的内容都有一个共同特点:读起来像一个人在跟你说话,而不是一个网站在优化排名。这个规律在我们测试的50个案例里无一例外。