inference-latency-profiler

Inference Latency Profiler - Auto-activating skill for ML Deployment. Triggers on: inference latency profiler, inference latency profiler Part of the ML Deployment skill category.

1.01x

Quality

Does it follow best practices?

Impact

92%

1.01x

Average score across 3 eval scenarios

Securityby

Passed

No known issues

Optimize this skill with Tessl

npx tessl skill review --optimize ./planned-skills/generated/08-ml-deployment/inference-latency-profiler/SKILL.md

Evaluation results

83%

Inference Latency Load Testing Tool

Production-ready latency load testing script

Criteria

Without context

With context

Standard latency tool

100%

p50 measurement

100%

p95 measurement

100%

p99 measurement

100%

Error/timeout handling

100%

Parameterizable CLI

100%

Structured results file

100%

Threshold validation

Step-by-step structure

80%

90%

No hardcoded secrets

100%

Explanatory comments

42%

100%

Setting Up Observability for a Production Inference Service

MLOps inference monitoring configuration

Criteria

Without context

With context

Standard monitoring tool

100%

Latency histogram or summary

100%

p95 or p99 alert

100%

Multi-stage pipeline coverage

100%

Configuration file format

100%

Alerting threshold defined

100%

Standard metric naming

100%

Component documentation

100%

Model version or env labels

100%

No deprecated metric patterns

100%

93%

Diagnosing Latency Spikes in a Production NLP Inference Pipeline

Step-by-step bottleneck identification and optimization

Criteria

Without context

With context

Standard profiling approach

100%

Per-stage latency

100%

Latency percentiles

100%

Bottleneck identified

100%

Production-safe code

70%

Structured results file

100%

Optimization recommendations

100%

Latency in milliseconds

50%

Step-by-step structure

100%

Spike detection

100%

Repository: jeremylongshore/claude-code-plugins-plus-skills
Commit: 3076d78

Evaluated: about 2 months ago
Agent: Claude Code
Model: Claude Sonnet 4.6

Table of Contents

Inference Latency Load Testing Tool Setting Up Observability for a Production Inference Service Diagnosing Latency Spikes in a Production NLP Inference Pipeline

Is this your skill?

If you maintain this skill, you can claim it as your own. Once claimed, you can manage eval scenarios, bundle related skills, attach documentation or rules, and ensure cross-agent compatibility.