Name: benchmark-sandbox
Rating: 73.6 (1 reviews)
Author: vercel

benchmark-sandbox

Run vercel-plugin eval scenarios in Vercel Sandboxes instead of local WezTerm panels. Provisions ephemeral microVMs with Claude Code + plugin pre-installed, runs benchmark prompts, extracts hook artifacts, and produces coverage reports.

2.09x

Quality

61%

Does it follow best practices?

Impact

92%

2.09x

Average score across 3 eval scenarios

Securityby

Advisory

Suggest reviewing before use

Optimize this skill with Tessl

npx tessl skill review --optimize ./.claude/skills/benchmark-sandbox/SKILL.md

Evaluation results

95%

20%

Benchmark Scenarios Authoring

Dynamic scenarios JSON authoring

Criteria

Without context

With context

Valid JSON array

100%

slug field present

100%

prompt field present

100%

expectedSkills field present

100%

userStories exactly 3

100%

No tech name-dropping

100%

Vercel-labs link in every prompt

100%

Dev server command in every prompt

100%

AI feature included

50%

Storage scenario included

100%

Scheduled task scenario included

100%

Auth/middleware scenario included

100%

90%

74%

Sandbox Provisioning Utility

Sandbox provisioning code

Criteria

Without context

With context

SDK version 1.8.0

100%

runtime node24

100%

ports 3000 in create

100%

Home dir /home/vercel-sandbox

100%

writeFiles for uploads

100%

AbortSignal timeout

Timestamped project names

100%

API keys via env in create

30%

100%

Snapshot stops source sandbox

30%

100%

No --print/-p for build

100%

92%

49%

Phase Scoring Module

Haiku structured scoring module

Criteria

Without context

With context

Uses claude -p flag

100%

Uses --json-schema flag

100%

Uses --model haiku

100%

Uses --setting-sources empty string

100%

Extracts structured_output

20%

100%

Build schema correct

100%

Verify schema correct

100%

Deploy schema correct

100%

No -p for phase commands

Timeout on scoring call

100%

Repository: vercel/vercel-plugin
Commit: 61f1903

Evaluated: 4 days ago
Agent: Claude Code
Model: Claude Sonnet 4.6

Table of Contents

Benchmark Scenarios Authoring Sandbox Provisioning Utility Phase Scoring Module

Is this your skill?

If you maintain this skill, you can claim it as your own. Once claimed, you can manage eval scenarios, bundle related skills, attach documentation or rules, and ensure cross-agent compatibility.