tessl/pypi-google-cloud-speech

Google Cloud Speech API client library for speech-to-text conversion with support for real-time streaming, batch processing, and advanced speech recognition models

—

Pending

Overview

Eval results

Files

Streaming Recognition

Name: tessl/pypi-google-cloud-speech
Author: tessl

Real-time bidirectional streaming speech recognition for live audio processing. Enables continuous recognition with immediate results as audio is streamed to the service.

Capabilities

Bidirectional Streaming

Performs real-time speech recognition on streaming audio with immediate partial and final results.

def streaming_recognize(
    self,
    requests: Iterator[StreamingRecognizeRequest],
    *,
    retry: OptionalRetry = None,
    timeout: Optional[float] = None,
    metadata: Sequence[Tuple[str, str]] = ()
) -> Iterator[StreamingRecognizeResponse]:
    """
    Performs bidirectional streaming speech recognition.

    Parameters:
    - requests: Iterator of streaming recognition requests
    - retry: Retry configuration for failed requests
    - timeout: Request timeout in seconds
    - metadata: Additional metadata to send with the request

    Returns:
    Iterator of StreamingRecognizeResponse objects

    Raises:
    google.api_core.exceptions.InvalidArgument: If the request is malformed
    google.api_core.exceptions.OutOfRange: If streaming limits are exceeded
    """

SpeechHelpers Streaming Interface

Simplified streaming interface provided by the SpeechHelpers mixin class that automatically handles request formatting and configuration injection.

class SpeechHelpers:
    def streaming_recognize(
        self,
        config: StreamingRecognitionConfig,
        requests: Iterator[StreamingRecognizeRequest],
        *,
        retry: OptionalRetry = None,
        timeout: Optional[float] = None,
        metadata: Sequence[Tuple[str, str]] = ()
    ) -> Iterator[StreamingRecognizeResponse]:
        """
        Enhanced streaming recognition with automatic request formatting.
        
        This helper method automatically prepends the configuration to the
        request stream, simplifying the streaming workflow.

        Parameters:
        - config: Streaming recognition configuration (automatically sent first)
        - requests: Iterator of audio-only requests (no config needed)
        - retry: Retry configuration for failed requests
        - timeout: Request timeout in seconds
        - metadata: Additional metadata to send with the request

        Returns:
        Iterator of StreamingRecognizeResponse objects
        
        Note:
        This method is mixed into SpeechClient via multiple inheritance.
        Available in speech_v1 and speech_v1p1beta1.
        """

Usage Examples

Basic Streaming Recognition

from google.cloud import speech
import pyaudio
import threading

client = speech.SpeechClient()

# Audio recording parameters
RATE = 16000
CHUNK = int(RATE / 10)  # 100ms chunks

# Configure streaming recognition
config = speech.StreamingRecognitionConfig(
    config=speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=RATE,
        language_code="en-US",
    ),
    interim_results=True,  # Enable partial results
)

def generate_requests():
    """Generator function to yield audio chunks."""
    # Initialize audio
    audio_interface = pyaudio.PyAudio()
    audio_stream = audio_interface.open(
        format=pyaudio.paInt16,
        channels=1,
        rate=RATE,
        input=True,
        frames_per_buffer=CHUNK,
    )
    
    try:
        while True:
            data = audio_stream.read(CHUNK)
            yield speech.StreamingRecognizeRequest(audio_content=data)
    finally:
        audio_stream.stop_stream()
        audio_stream.close()
        audio_interface.terminate()

# Perform streaming recognition
requests = generate_requests()
responses = client.streaming_recognize(config, requests)

# Process results
for response in responses:
    for result in response.results:
        if result.is_final:
            print(f"Final transcript: {result.alternatives[0].transcript}")
        else:
            print(f"Partial transcript: {result.alternatives[0].transcript}")

Advanced Streaming with Voice Activity Detection

from google.cloud import speech

client = speech.SpeechClient()

# Advanced streaming configuration
config = speech.StreamingRecognitionConfig(
    config=speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=16000,
        language_code="en-US",
        enable_automatic_punctuation=True,
        enable_voice_activity_events=True,
        speech_contexts=[
            speech.SpeechContext(
                phrases=["technical", "keywords", "domain", "specific"]
            )
        ],
    ),
    interim_results=True,
    single_utterance=False,  # Continue listening after pauses
    enable_voice_activity_events=True,
)

def stream_recognition():
    """Handle streaming recognition with voice activity detection."""
    def request_generator():
        # First request with configuration
        yield speech.StreamingRecognizeRequest(streaming_config=config)
        
        # Subsequent requests with audio data
        # (Implementation would include actual audio capture)
        pass
    
    requests = request_generator()
    responses = client.streaming_recognize(requests)
    
    for response in responses:
        # Handle speech event detection
        if response.speech_event_type:
            if response.speech_event_type == speech.StreamingRecognizeResponse.SpeechEventType.SPEECH_ACTIVITY_BEGIN:
                print("Speech activity started")
            elif response.speech_event_type == speech.StreamingRecognizeResponse.SpeechEventType.SPEECH_ACTIVITY_END:
                print("Speech activity ended")
        
        # Handle recognition results
        for result in response.results:
            if result.is_final:
                print(f"Final: {result.alternatives[0].transcript}")
                print(f"Stability: {result.stability}")
            else:
                print(f"Interim: {result.alternatives[0].transcript}")

Request Types

StreamingRecognizeRequest

class StreamingRecognizeRequest:
    """Request for streaming speech recognition."""
    streaming_config: StreamingRecognitionConfig  # First request only
    audio_content: bytes  # Audio data for subsequent requests