Agentic programming chuyển từ “demo coding” sang reliability harness + workflow governance

Thu thập public-web không auth: 154 candidates. Social quota thiếu X/Reddit/YT direct metrics → DATA_HEALTH_PARTIAL, nhưng đủ tín hiệu GitHub/HN/Product/Paper để ra quyết định trial có kiểm soát.

154

candidates

GitHub

HN/dev web

social fallback

actions

1. Executive Snapshot — 5 insight

154 candidates scanned; GitHub/HN chiếm 121/154 → quyết định kỹ thuật đáng tin hơn quyết định sentiment.
48 repo signals quanh coding-agent/SWE-bench/Claude-Code/OpenCode → ưu tiên repo momentum + issue risk trước adoption.
73 HN/dev-web items → chủ đề reliability/eval đang áp đảo narrative “agent tự code 100%”.
22 social fallback links, nhưng engagement N/A do no-auth/API → không claim market buzz PASS.
5 product docs/changelog anchors (Claude Code/Codex/Cursor/Devin/OpenCode/GitHub Copilot) → đủ tạo shortlist pilot 2 tuần.

2. KPI Dashboard

154

Total

10/30

X quota

6/15

YT quota

5/15

Reddit quota

48/15

GH quota

DATA_HEALTH: PARTIAL. Lý do: X/YT/Reddit/Facebook public access thiếu direct fresh metrics; GitHub/HN/Product/Paper đạt usable coverage.

3. KOL/OG Feed Watch

X fallback

time	item	metric	url
N/A	X public search: coding agent	N/A engagement: no auth/API	link
N/A	X public search: agentic programming	N/A engagement: no auth/API	link
N/A	X public search: harness engineering	N/A engagement: no auth/API	link
N/A	X public search: SWE-bench	N/A engagement: no auth/API	link
N/A	X public search: Terminal-Bench	N/A engagement: no auth/API	link
N/A	X public search: Claude Code	N/A engagement: no auth/API	link
N/A	X public search: OpenAI Codex	N/A engagement: no auth/API	link
N/A	X public search: Cursor agent	N/A engagement: no auth/API	link
N/A	X public search: OpenCode	N/A engagement: no auth/API	link
N/A	X public search: AI coding workflow	N/A engagement: no auth/API	link

YouTube fallback

time	item	metric	url
N/A	YouTube search: coding agent	N/A views: no API	link
N/A	YouTube search: agentic programming	N/A views: no API	link
N/A	YouTube search: harness engineering	N/A views: no API	link
N/A	YouTube search: SWE-bench	N/A views: no API	link
N/A	YouTube search: Terminal-Bench	N/A views: no API	link
N/A	YouTube search: Claude Code	N/A views: no API	link

time	item	metric	url
N/A	BLOCKER r/LocalLLaMA coding agent	HTTP Error 403: Blocked	link
N/A	BLOCKER r/ClaudeAI Claude Code	HTTP Error 403: Blocked	link
N/A	BLOCKER r/OpenAI Codex coding agent	HTTP Error 403: Blocked	link
N/A	BLOCKER r/programming AI coding	HTTP Error 403: Blocked	link
N/A	BLOCKER r/MachineLearning SWE-bench	HTTP Error 403: Blocked	link

HN/GitHub

time	item	metric	url
2026-05-26T03:45:20Z	Show HN: AgentToolBench-Code – security benchmark for AI coding agents	1 pts/0 cmt	link
2026-05-26T03:36:05Z	Argus – multi‑agent AI coding assistant that never gets stuc	2 pts/0 cmt	link
2026-05-25T17:36:45Z	What ClickHouse learned from a year of coding with AI agents	2 pts/0 cmt	link
2026-05-25T16:55:30Z	Ask HN: What do you do at work while the coding agent is working?	5 pts/6 cmt	link
2026-05-25T16:44:39Z	Show HN: Musts – Open-source validation loops for AI coding agents	1 pts/0 cmt	link
2026-05-25T16:39:32Z	Is it too soon to built software factories?	4 pts/2 cmt	link
2026-05-25T13:36:17Z	Close the Coding Agent Loop	2 pts/0 cmt	link
2026-05-25T13:07:17Z	Show HN: docs-cli - coding-agent project state in Markdown	5 pts/0 cmt	link

4. Trend Radar

Hot now: harness/eval cho coding agents — 73 HN/dev-web + 48 GitHub signals.
Emerging: Terminal-Bench/SWE-bench style task eval — 5 paper/product search anchors.
Noise: “AI replaces dev” social claims — engagement N/A nên confidence thấp.
Watchlist: OpenCode/Claude Code/Codex CLI workflow governance — 6 product anchors.

5. Repo Watch

Repo	metric	URL
2026-05-26T06:24:53Z	openai/codex	85704 stars/12513 forks/5159 issues	link
2026-05-26T06:24:13Z	jumbocontext/jumbo.cli	83 stars/6 forks/0 issues	link
2026-05-26T06:25:02Z	esengine/DeepSeek-Reasonix	8997 stars/482 forks/198 issues	link
2026-05-26T06:21:51Z	getkimchi/kimchi	320 stars/8 forks/28 issues	link
2026-05-26T06:20:56Z	DecapodLabs/decapod	212 stars/21 forks/1 issues	link
2026-05-26T06:20:13Z	MigoXLab/webqa-agent	214 stars/17 forks/19 issues	link
2026-05-26T06:21:37Z	multica-ai/multica	33122 stars/3977 forks/758 issues	link
2026-05-26T06:19:06Z	stablyai/orca	3375 stars/224 forks/194 issues	link
2026-05-26T06:18:53Z	fitlab-ai/agent-infra	58 stars/3 forks/12 issues	link
2026-05-26T06:21:36Z	manaflow-ai/cmux	19611 stars/1480 forks/2130 issues	link
2026-05-26T06:22:35Z	paleo/alignfirst	81 stars/7 forks/0 issues	link
2026-05-26T05:50:36Z	china-qijizhifeng/agentic-harness-engineering	435 stars/45 forks/1 issues	link
2026-05-26T04:38:25Z	SWE-agent/mini-swe-agent	4521 stars/622 forks/26 issues	link
2026-05-26T04:19:46Z	sipyourdrink-ltd/bernstein	460 stars/41 forks/10 issues	link
2026-05-25T12:20:48Z	Human-Agent-Society/CORAL	672 stars/89 forks/8 issues	link

6. Paper / Benchmark Watch

Item	metric	URL
N/A	arXiv search: SWE-bench	N/A	link
N/A	arXiv search: Terminal-Bench	N/A	link
N/A	arXiv search: agentic programming	N/A	link
N/A	arXiv search: LLM coding benchmark	N/A	link
N/A	arXiv search: software engineering agents	N/A	link

7. Product / Business Watch

Product	metric	URL
N/A	Claude Code	N/A	link
N/A	OpenAI Codex	N/A	link
N/A	Cursor	N/A	link
N/A	Devin	N/A	link
N/A	OpenCode	N/A	link
N/A	GitHub Copilot	N/A	link

8. Impact Coverage

Domain	Now 0-2w	Next 1-2m	Later 3-6m	Decision
FARE	pilot 2 repo	eval harness CI	agent PR policy	trial
NEXA	measure 20 tasks	prompt/harness library	customer demo	adopt
SYNCA	review automation	agent workflow SOP	governance	trial
Thị trường Nhật	security-first checklist	JP enterprise proposal	managed AI-SDLC	monitor
Global	track 6 products	benchmark vs Copilot/Cursor	platform offer	trial

9. CTO Recommendations — đúng 5

Agent Harness Pilot 14 ngày — ROI/time-saving 15-25%, risk 2/5, owner Tech Lead, TTV 2 tuần, validate: 20 tickets trước/sau.
Coding-agent policy CI gate — ROI 10-18%, risk 2/5, owner DevEx, TTV 3 tuần, validate: defect escape rate.
Repo/Product shortlist 6 tools — ROI 8-12%, risk 1/5, owner CTO Office, TTV 1 tuần, validate: scorecard 100 điểm.
Japan client AI-SDLC offer — ROI revenue uplift 5-10%, risk 3/5, owner Presales, TTV 1 tháng, validate: 3 discovery calls.
Social collector hardening — confidence +30 điểm, risk 1/5, owner Platform, TTV 1 tuần, validate: X>=30,YT>=15,Reddit>=15.

10. Source Appendix

Facebook blocker: 0 usable direct public links; public search likely blocked/no auth. X/YT engagement: N/A do no API/auth.

[HN] Show HN: AgentToolBench-Code – security benchmark for AI coding agents — HN Algolia — 1 pts/0 cmt
[HN] Argus – multi‑agent AI coding assistant that never gets stuc — HN Algolia — 2 pts/0 cmt
[HN] What ClickHouse learned from a year of coding with AI agents — HN Algolia — 2 pts/0 cmt
[HN] Ask HN: What do you do at work while the coding agent is working? — HN Algolia — 5 pts/6 cmt
[HN] Show HN: Musts – Open-source validation loops for AI coding agents — HN Algolia — 1 pts/0 cmt
[HN] Is it too soon to built software factories? — HN Algolia — 4 pts/2 cmt
[HN] Close the Coding Agent Loop — HN Algolia — 2 pts/0 cmt
[HN] Show HN: docs-cli - coding-agent project state in Markdown — HN Algolia — 5 pts/0 cmt
[HN] Ask HN: We dont need a programming language now? — HN Algolia — 2 pts/4 cmt
[HN] Show HN: I built a self-writing book on agentic coding — HN Algolia — 2 pts/1 cmt
[HN] Functional programming accelerates agentic feature development — HN Algolia — 59 pts/31 cmt
[HN] AI surpass Superman in Competitive Programming via Agentic RL [pdf] — HN Algolia — 2 pts/1 cmt
[HN] Railtracks — HN Algolia — 2 pts/0 cmt
[HN] Direnv Is All You Need to Parallelize Agentic Programming with Git Worktrees — HN Algolia — 30 pts/8 cmt
[HN] Agentis – An AI-native programming language where the LLM is the stdlib — HN Algolia — 2 pts/1 cmt
[HN] Agentic Proof-Oriented Programming — HN Algolia — 1 pts/0 cmt
[HN] Show HN: GoPOSIX – a Go-native POSIX userland, ~97% BusyBox-compatible — HN Algolia — 2 pts/0 cmt
[HN] Learn Harness Engineering — HN Algolia — 158 pts/17 cmt
[HN] Agent Harness Engineering — HN Algolia — 3 pts/0 cmt
[HN] Agentic SDLC: How OpenSearch accelerates engineering with its own engine — HN Algolia — 1 pts/0 cmt
[HN] Show HN: Bhatti – self-hosted runtime for your harness engineering — HN Algolia — 3 pts/1 cmt
[HN] Implicit Knowledge Is a Liability — HN Algolia — 1 pts/0 cmt
[HN] Agent Harness Engineering — HN Algolia — 8 pts/0 cmt
[HN] Ask HN: Is agent-driven QA a thing? — HN Algolia — 1 pts/1 cmt
[HN] Show HN: 97% on SWE-bench Verified with subscription-token agents — HN Algolia — 2 pts/0 cmt
[HN] Bito's AI Architect Boosts Claude Opus's task success rate by 35% — HN Algolia — 2 pts/0 cmt
[HN] Show HN: Statewright – Visual state machines that make AI agents reliable — HN Algolia — 126 pts/59 cmt
[HN] Show HN: New Benchmark from SWE-bench team is 0% solved — HN Algolia — 24 pts/3 cmt
[HN] talkie-coder: From 1930 to SWE-bench — HN Algolia — 2 pts/0 cmt
[HN] Anthropic's Argument for Mythos SWE-bench improvement contains a fatal error — HN Algolia — 2 pts/0 cmt
[HN] The Terminal Bench 3.0 community is looking for task contributors — HN Algolia — 1 pts/2 cmt
[HN] ForgeCode: Top open source coding agent in Terminal-Bench 2.0 — HN Algolia — 4 pts/0 cmt
[HN] Open-weight 27B hits 38% on Terminal-Bench 2.0 (Opus 4.1 hit 38% in Aug 2025) — HN Algolia — 6 pts/9 cmt
[HN] Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview — HN Algolia — 393 pts/148 cmt
[HN] Show HN: Terminal-Wrench, a dataset of 331 realistic hackable environments — HN Algolia — 6 pts/2 cmt
[HN] A simple test-time method that beats Claude Mythos on Terminal-Bench — HN Algolia — 1 pts/1 cmt
[HN] Show HN: Amber, a capability-based runtime/compiler for agent benchmarks — HN Algolia — 1 pts/0 cmt
[HN] Claude Code ranks 39th on terminal bench. The leaked source shows why — HN Algolia — 4 pts/2 cmt
[HN] Show HN: skills-for-humanity – 171 structured reasoning skills for Claude Code — HN Algolia — 1 pts/0 cmt
[HN] DAAF: Rigorous+responsible data analysis/research with Claude Code (open-source) — HN Algolia — 1 pts/0 cmt
[HN] Show HN: Unsiloed AI – #1 on olmOCR-Bench — HN Algolia — 7 pts/4 cmt
[HN] Show HN: AI skills for program / project / delivery managers — HN Algolia — 2 pts/0 cmt
[HN] Show HN: AWO – Run Claude and Codex in isolated Git worktrees — HN Algolia — 1 pts/0 cmt
[HN] Ask HN: How is all new software not broken? — HN Algolia — 1 pts/3 cmt
[HN] Color palette gives away AI slop — HN Algolia — 3 pts/2 cmt
[HN] Show HN: A web to see nearby TFL trains — HN Algolia — 2 pts/0 cmt
[HN] Codex is flagged as malware on macOS — HN Algolia — 3 pts/4 cmt
[HN] Tell HN: OpenAI Codex: Increase in users hitting Codex rate limits — HN Algolia — 6 pts/4 cmt
[HN] OpenAI intentionally removed Codex's visible context usage indicator — HN Algolia — 2 pts/1 cmt
[HN] OpenAI's Codex Can Now Use Your Mac Even When It's Locked — HN Algolia — 1 pts/0 cmt
[HN] Codex got better, codex might be built with Claude Opus — HN Algolia — 1 pts/3 cmt
[HN] OpenAI and 1Password Bring Agentic Security to Codex — HN Algolia — 3 pts/0 cmt
[HN] Show HN: Free One-shot cloud agents with OpenCode and Daytona and Cloudflare — HN Algolia — 3 pts/0 cmt
[HN] 1Password MCP Server for OpenAI Codex — HN Algolia — 5 pts/0 cmt
[HN] Show HN: I built a RAG and knowledge graph agent that runs locally — HN Algolia — 7 pts/7 cmt
[HN] Show HN: I built a powerful RAG and knowledge graph agent that runs locally — HN Algolia — 5 pts/3 cmt
[HN] Show HN: CoreMem – Portable context for AI agents — HN Algolia — 5 pts/0 cmt
[HN] Show HN: Sylph – the open-source company brain behind my YC startup — HN Algolia — 8 pts/3 cmt
[HN] Launch HN: Runtime (YC P26) – Sandboxed coding agents for everyone on a team — HN Algolia — 101 pts/30 cmt
[HN] Show HN: ATM, a tiny terminal task manager for local coding agents — HN Algolia — 2 pts/0 cmt
[HN] Development environments for your cloud agents — HN Algolia — 1 pts/0 cmt
[HN] Using design patterns to encode expert judgement for LLM workflows — HN Algolia — 2 pts/0 cmt
[HN] OpenCode is using CPU for doing nothing — HN Algolia — 5 pts/0 cmt
[HN] What it takes to run an AI coworker on iMessage — HN Algolia — 2 pts/0 cmt
[HN] Use Grok in OpenCode — HN Algolia — 5 pts/0 cmt
[HN] OpenCode and Cursor's Composer 2.5 — HN Algolia — 6 pts/0 cmt
[HN] Launch HN: Superset (YC P26) – IDE for the agents era — HN Algolia — 106 pts/134 cmt
[HN] Show HN: Proof Loop – I make my coding agents prove they finished the task — HN Algolia — 2 pts/2 cmt
[HN] Show HN: Context-drop – CLI tool to to share files/images between remote agents — HN Algolia — 1 pts/0 cmt
[HN] Show HN: My first app, artisanally vibe-coded in 4 months — HN Algolia — 3 pts/4 cmt
[HN] For developers without design skills, how do you leverage AI for front end dev? — HN Algolia — 1 pts/0 cmt
[HN] Show HN: Agentikus — HN Algolia — 1 pts/0 cmt
[HN] Show HN: opub, donated compute for open-source — HN Algolia — 2 pts/0 cmt
[GitHub] openai/codex — GitHub REST — 85704 stars/12513 forks/5159 issues
[GitHub] jumbocontext/jumbo.cli — GitHub REST — 83 stars/6 forks/0 issues
[GitHub] esengine/DeepSeek-Reasonix — GitHub REST — 8997 stars/482 forks/198 issues
[GitHub] getkimchi/kimchi — GitHub REST — 320 stars/8 forks/28 issues
[GitHub] DecapodLabs/decapod — GitHub REST — 212 stars/21 forks/1 issues
[GitHub] MigoXLab/webqa-agent — GitHub REST — 214 stars/17 forks/19 issues
[GitHub] multica-ai/multica — GitHub REST — 33122 stars/3977 forks/758 issues