⭐ [SIGIR-AP 2023] EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval
Published in SIGIR-AP, 2023
关键词
- 多维伦理 / Multidimensional Ethics
- 会话式信息检索 / Conversational Information Retrieval (CIR)
- 伦理判断 / Ethical Judgment
- QA‑ETHICS 数据集
- MP‑ETHICS 数据集
- 二元 & 多标签分类 / Binary & Multi‑label Classification
- 自然语言处理 / Natural Language Processing (NLP)
Arxiv地址:https://arxiv.org/abs/2310.00970
SIGIR-AP 2023:https://dl.acm.org/doi/10.1145/3624918.3625327
背景
会话式信息检索系统(CIR)需要遵循人类伦理规范,以防传播有害或误导性内容。但现有工作未充分考虑多维伦理因素,且评判体系单一,缺乏综合性伦理对齐机制。
方法
- 引入伦理判断流程:在标准 CIR 流程之前添加伦理判断阶段,用以筛选潜在不合规内容。
- QA‑ETHICS 数据集:基于 ETHICS 基准构建,对 CIR 场景中的伦理判断任务进行统一评估(单一伦理维度)。
- MP‑ETHICS 数据集:扩展为多伦理维度(如正义、公正、义务论等)评估,使判断更加全面。
- 新模型设计:提出一种同时适用于二元分类和多标签分类的新型伦理判断模型,在多个数据集上表现优异。
实验
- 数据构建与处理:使用 ETHICS 精选问题生成 CIR 风格问答,形成 QA‑ETHICS(单标签)与 MP‑ETHICS(多标签)。
- 训练与评估:在二元判断(伦理/非伦理)及多标签(多个伦理维度)任务上,对比现有 SOTA 模型。
- 评估指标:主要包括准确率、F1-score 及多标签分类的平均子集准确率等。
结果
- 新模型在 QA‑ETHICS 上二元分类准确率显著高于基线。
- 在 MP‑ETHICS 上,多标签分类性能提升,尤其是在处理伦理冲突与覆盖多个维度方面表现优越。
- 实验证明在 CIR 流程中加入伦理判断阶段,能够有效减少有害或不合规内容输出。
总结
EALM 提出了系统化的多维伦理对齐方案,将伦理判断融入 CIR 流程,并构建了 QA‑ETHICS 与 MP‑ETHICS 数据集,支持单一与多维伦理任务。通过创新模型,实现对有害或误导内容的有效识别,为 CIR 系统的伦理安全提供可行策略与数据基础。