Name: tessl/pypi-vllm
Rating: 69 (1 reviews)
Author: tessl

Blog Docs Log in Get started

tessl/pypi-vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

1.32x

Quality

Pending

Does it follow best practices?

Impact

69%

1.32x

Average score across 10 eval scenarios

Securityby

Pending

The risk profile of this skill

Overview

Eval results

Files

Evaluation results

15%

Task: Build a Custom Request Manager with Step Control and Async Streaming

Synchronous and Asynchronous Engines

Criteria

Without context

With context

LLMEngine Initialization

add_request() Usage

step() Execution

has_unfinished_requests() Check

abort_request() Implementation

AsyncLLMEngine Initialization

Async Generator Pattern

100%

AsyncLLMEngine.generate() Streaming

99%

89%

Story Generator

Text Generation and Completion

Criteria

Without context

With context

LLM initialization

100%

generate() method usage

100%

SamplingParams configuration

100%

Output extraction

93%

Error handling

100%

77%

-23%

LLM Memory Configuration Manager

Basic Memory Management

Criteria

Without context

With context

LLM class import

100%

LLM initialization

100%

gpu_memory_utilization parameter

100%

60%

swap_space parameter

100%

60%

Combined configuration

100%

80%

Default configuration

100%

98%

-2%

Model Configuration Service

Model Loading and Initialization

Criteria

Without context

With context

LLM Class Usage

100%

90%

GPU Memory Configuration

100%

Load Format Specification

100%

Model Path Handling

100%

Error Handling

100%

0%

Text Generation with Multiple Candidate Selection

Beam Search and Advanced Sampling

Criteria

Without context

With context

LLM Initialization

Beam Search Method

Beam Width Configuration

Length Penalty

Max Tokens Control

Temperature Parameter

Vocabulary Restriction

Output Processing

100%

78%

Text Generation with Advanced Configuration

Sampling Parameters

Criteria

Without context

With context

LLM Initialization

100%

SamplingParams Import

50%

100%

Default Generation

20%

100%

Temperature Parameter

20%

100%

Top-p Parameter

20%

100%

Multiple Completions

13%

100%

Seed Parameter

30%

100%

Max Tokens

60%

100%

Generation Method

100%

3%

-97%

Multi-Adapter Text Generation Service

LoRA Adapters and Multi-LoRA Support

Criteria

Without context

With context

LLM Initialization

100%

Max LoRAs Configuration

100%

Max LoRA Rank

100%

LoRA Request Object

100%

Adapter in Generate

100%

Base Model Generation

100%

30%

97%

47%

Multi-Turn Conversation System

Chat-based Generation

Criteria

Without context

With context

LLM Initialization

100%

80%

Chat Method Usage

100%

Message Format

100%

SamplingParams Configuration

100%

Response Extraction

100%

Multi-Turn Handling

100%

78%

Image Description Service

Multi-Modal Support

Criteria

Without context

With context

LLM initialization

50%

100%

Multi-modal prompt format

100%

Image loading

20%

100%

Single image processing

10%

100%

Multiple image handling

13%

100%

Error handling

100%

Attention Backend Benchmark Tool

Custom Attention Mechanisms

Criteria

Without context

With context

LLM Class Import

100%

SamplingParams Import

100%

LLM Initialization

100%

Attention Backend Configuration

100%

Default Backend Handling

100%

Text Generation

100%

SamplingParams Usage

100%

Output Extraction

100%

Evaluated: 3 months ago
Agent: Claude Code
Model: Claude Sonnet 4.6

Table of Contents

Task: Build a Custom Request Manager with Step Control and Async Streaming Story Generator LLM Memory Configuration Manager Model Configuration Service Text Generation with Multiple Candidate Selection Text Generation with Advanced Configuration Multi-Adapter Text Generation Service Multi-Turn Conversation System Image Description Service Attention Backend Benchmark Tool