在其他情况下,组织可能不想冒险将其敏感数据暴露给模型。与 ChatGPT 等公共生成式 AI 服务共享敏感数据已变得类似于将数据放入公共云中。即使在尝试通过其公共 API 微调底层模型时,也发生了越来越多的事件,其中 LLM 无意中与未经授权的用户共享个人身份信息 (PII)。这种风险以及高级提示工程攻击的日益增多,导致许多组织在考虑将其最敏感的客户或员工数据暴露给任何 LLM 或公共 AI 服务时要谨慎行事。
在这些情况下,企业通常会使用自己的数据对本地自托管的 LLM 进行微调。在这种情况下,用户可能会愿意将部分原始数据暴露给本地托管的模型,但仍会选择创建最敏感信息的合成私有版本,以便模型 加拿大 Whatsapp 数据 可以根据其洞察进行训练,同时不直接与原始数据源中的敏感实体建立联系。这在医疗、金融和公共部门等受到严格监管的行业尤其重要,因为这些行业严格的数据使用政策(即使是在组织内部)也会严重延迟或完全阻止关键的数字计划。
例如,在医疗保健行业,包含受保护健康信息 (PHI) 的敏感临床记录(例如接受胰腺癌等疾病治疗的所有患者的病历)通常不能用作生成式 AI 模型的训练数据。当研究人员计划使用这些数据来训练模型时,他们的意图不是让模型了解特定患者,而是让模型了解疾病及其治疗的一般统计特性和模式。也就是说,临床医生希望让模型了解疾病,而不是患者。