AI Safety Unconference 2018

AI safety papers accepted at NeurIPS 2018

Occam's razor is insufficient to infer the preferences of irrational agents (Armstrong & Mindermann) [arxiv]
Where Do You Think You're Going?: Inferring Beliefs about Dynamics from Behavior (Reddy, Dragan & Levine) [arxiv]
Learning Safe Policies with Expert Guidance (Huang, Wu, Precup & Cai) [arxiv]
On Learning Intrinsic Rewards for Policy Gradient Methods (Zheng, Oh & Singh) [arxiv]
Learning Task Specifications from Demonstrations (Vazquez-Chanlatte et al) [arxiv]
Reward learning from human preferences and demonstrations in Atari (Leike et al) [arxiv]
Negotiable Reinforcement Learning for Pareto Optimal Sequential Decision-Making (Desai, Critch, Russell) [papers.nips.c]