codex

Use when the user asks to run Codex CLI (codex exec, codex resume) or references OpenAI Codex for code analysis, refactoring, or automated editing. Uses GPT-5.2 by default for state-of-the-art software engineering.

4.00x

Quality

83%

Does it follow best practices?

Impact

88%

4.00x

Average score across 3 eval scenarios

Securityby

Advisory

Suggest reviewing before use

Evaluation results

84%

67%

Automated Code Review Script

Correct command assembly

Criteria

Baseline

With context

Default model gpt-5.2

100%

skip-git-repo-check flag

100%

stderr suppression

16%

100%

Read-only sandbox

100%

Reasoning effort flag syntax

100%

Version check included

87%

100%

Full-auto NOT used

Exit code handling

100%

Resume hint present

Model reasoning effort level appropriate

100%

Valid model name only

100%

86%

55%

Legacy Code Modernization Tool

Sandbox mode and write access

Criteria

Baseline

With context

workspace-write sandbox

100%

full-auto flag present

100%

skip-git-repo-check flag

100%

stderr suppression

100%

Default model gpt-5.2

100%

Reasoning effort configured

100%

Permission request documented

30%

40%

Exit code handling

100%

75%

danger-full-access NOT used

100%

Resume session note

96%

76%

Multi-Session Security Audit Runbook

Session resume workflow

Criteria

Baseline

With context

Pipe-based resume syntax

100%

resume --last flag

100%

skip-git-repo-check in resume

100%

stderr suppression on resume

100%

No config flags on resume

100%

Flags between exec and resume

50%

100%

Session inherits settings note

100%

Post-completion resume hint

37%

50%

Initial run uses correct model

100%

Initial run stderr suppression

100%

Repository: softaworks/agent-toolkit
Commit: 3027f20

Evaluated: 5 months ago
Agent: Claude Code
Model: Claude Sonnet 4.6

Table of Contents

Automated Code Review Script Legacy Code Modernization Tool Multi-Session Security Audit Runbook

Is this your skill?

If you maintain this skill, you can claim it as your own. Once claimed, you can manage eval scenarios, bundle related skills, attach documentation or rules, and ensure cross-agent compatibility.