问题
AI训练数据和爬虫抓取会对品牌展示产生怎样的影响?
回答
生成式模型的知识来自于训练数据和检索语料,品牌呈现取决于“公开可得的文本是否一致、是否有足够的新度以及权威性”。如果官网信息较弱而第三方二手内容较强的话,那么该模型就会更倾向于引用二手总结。爬虫抓取方面,若robots设置过于严格使得关键页面无法获取或者重要的内容需要登录后才能看到,则会降低公开语料中可利用的信息量。
企业可以做的有:使关键事实页公开可访问;提供机器读取的HTML文件;不要把重要的条款藏在图片或者复杂的交互中;用站点地图和结构化数据来帮助理解页面类型。对于不想被爬取的内容(内部测试、草稿),采用技术手段进行隔离,防止误发布。
还要区分出“训练数据”和“实时检索”的区别:有些产品会用到检索,所以更新官网或者新闻也会很快地影响答案。对于重要的页面来说不要把重要的信息放在只有经过复杂的交互才能看到的位置上。对需要登录后才可以看到的价格或者其他条款,在公开页中应该说明存在限制以及咨询的方法。动态定价或个性化报价时要解释其原因及获取方法来网上说多少的误导现象。站点迁移和改版的时候,保留关键页面的可访问性、重定向等信息,并且防止历史引用失效的情况发生。对于只面向客户的知识库也应考虑是否需要提供摘要页以供检索。品牌呈现不是一次性的SEO工作完成之后的事情,而是一直要将公开的信息对齐到真实的状况中去;如果长期地把公开的状态和产品的真实状态拉得太远的话,那么第三方就会用自己的方式来进行总结了。