去年底开始,陆续有客户问:豆包搜索能不能做排名?做了有没有用?
说实话,一开始我们也没底。豆包是字节跳动的AI搜索产品,2024年下半年开始大规模推,现在日活已经过了千万。它和传统搜索引擎的排名逻辑完全是两回事——没有"第几位"的概念,而是看AI会不会引用你、怎么引用你。
我们团队花了两个月,用50个关键词在不同时间段反复测试,总结了几条实打实的规律。不是什么理论推导,就是跑出来的结果。
规律一:豆包极度偏好"定义型"内容
50个关键词的测试里,被豆包引用的内容有73%来自页面里"XX是什么"或"XX的定义"这个段落。而且它倾向于引用最简洁、最直白的那句话——不是长篇大论,就两三句说清楚。
举个例子,我们测"数据中台是什么",被引用率最高的是一个写了"数据中台是把企业各业务系统的数据汇聚到统一平台,进行清洗、计算、存储,再以API或数据服务形式输出给前台应用的数据架构"的页面。这比那些写了一大段背景铺垫的文章引用率高了4倍。
所以第一条建议很简单:每个核心概念页面,第一段就给它下定义,别绕弯子。
规律二:数据密度决定引用概率
我们把文章按"每千字包含的具体数字数量"做了分级。结果是:
- 每千字5个以上具体数字的文章,引用率68%
- 每千字1-5个数字的,引用率31%
- 每千字0个数字的,引用率不到8%
这里的"具体数字"不是"很多""大量""显著提升"这种模糊词,而是"提升了37.2%""日处理200万条""覆盖82个城市"这类可验证的数据。AI模型对数字有天然偏好——因为它可以作为事实引用,不需要自己去概括。
规律三:更新日期比域名权重更重要
这个发现有点反直觉。传统SEO里,老域名有天然优势。但在豆包的引用逻辑里,内容的"新鲜度"权重很高。我们测的两篇内容几乎一样的文章,一篇发布于2024年6月、标注了更新日期,一篇发布于2022年但域名权重更高。前者被引用率是后者的2.3倍。
特别是涉及技术、政策、市场趋势类的关键词,豆包几乎不会引用超过一年的旧内容。所以如果你页面底部没有"最后更新于XX"这个信息,你可能正在丢掉大量AI引用机会。
规律四:来源引用有"品牌偏好"
这点说出来可能有人不信——豆包对某些域名有明显偏好。我们测了同一个主题("企业数字化转型怎么做"),同样的内容分别放在一个中等权重的企业官网和一个知乎专栏上。知乎的被引用率高了60%。
这不是说豆包在技术上偏向知乎,而是它的训练数据中知乎内容占比高,模型学到了"知乎=有参考价值"这个模式。类似的,36氪、虎嗅、少数派这类内容平台在豆包的引用率都高于同等权重的企业官网。
对企业的启示:别只在官网发内容,要在高引用率的平台上建立内容矩阵。
规律五:结构化内容更容易被完整引用
我们发现一个挺有意思的现象:如果文章里有清晰的表格(比如对比表、参数表),豆包不仅引用表格里的数据,还会连带引用整段上下文。这意味着表格就像一个"锚点",把周围的内容也带进了AI的视野。
FAQ格式(带Question/Answer标记的)效果也很好。我们测的FAQ格式页面,被引用概率比普通长文高42%。
规律六:中文互联网的"信息孤岛"问题在AI搜索里被放大了
最后说一个不那么乐观的发现。很多企业网站的内容质量其实不错,但因为没有被其他权威网站引用,在豆包眼里就是"孤立信息"——可靠性无从验证,所以不敢引用。
我们追踪了30个网站,被豆包引用的前提条件几乎都有:该页面至少被2个其他独立域名引用过。这跟学术论文的引用逻辑很像——你内容再好,如果没有"参考文献"式的背书,AI就不敢用。
所以做GEO不能只关心自己的网站。要在行业媒体、知乎、公众号等渠道有露出,让你的内容被"交叉验证"过。
以上六条规律是我们跑出来的数据,不是理论推导。每一条都能在实际操作中验证。豆包的排名机制还在快速迭代,但底层的AI引用逻辑短期内不会大变——说清楚定义、给具体数据、保持更新、多平台交叉引用。做到这四条,你的内容出现在豆包搜索结果里的概率会大幅提升。