扩展标注:最初,团队中的每个人都参与了讨论(产品、工程、设计等),但我们知道我们需要一个更加有原则的方法,拥有一致且多样化的标注者。 我们内部的语言学家团队建立了工具和流程,使我们能够每天评估多达500次对话,并获得以下方面的指标:整体质量分数、幻觉率、负责任的人工智能违规情况、连贯性、风格等。 这成为我们了解趋势、迭代提示词并确保我们准备好上线的主要参考点。
但仍在进行中:没有它,工程师只能依靠主观判断和对有限示例的测试,并且需要天以上的时间才能获得反馈。 我们正在构建基于模型的评估器来估算上述指标,并允许更快的实验,我们在幻觉检 芬兰电话号码数据 测方面取得了一些成功(但这并不容易!)。 AI智能体产品案例深度思考和分享(全球顶级公司实践细节,做AI智能体必读) 图2:我们执行的评估步骤。
工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈,但大约需要天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要3天以上的时间。 还在死磕的事:端到端自动评估流程,以实现更快的迭代。 4. 调用内部API 领英拥有大量关于人、公司、技能、课程等的独特数据,这些数据对于构建具有独特和差异化价值的产品至关重要。