progscrape: evals.alignment.org

Evaluating Language-Model Agents on Realistic Autonomous Tasks

15 months ago evals.alignment.org ai

Update on ARC's recent eval efforts

20 months ago evals.alignment.org ai arc