ai·assisted/dev

References for AI-native software development

Updated APR 28, 2026

↩ back to feed

#benchmarks

Benchmarking 7 coding agents on a real refactor

Same 12k-line TypeScript codebase, same task: extract a domain layer. I ran every agent twice and graded the diffs.

APR 22, 2026 ·

benchmarks agents refactoring data

SWE-bench Verified — leaderboard notes

"Worth reading the verified subset methodology before quoting any number from the headline board."

via MarkTechPost

APR 20, 2026 ·

benchmarks evals