tessl/pypi-scikit-allel

A Python package for exploring and analysing genetic variation data.

—

Pending

Overview

Eval results

Files

Scikit-allel Knowledge Tile

Name: tessl/pypi-scikit-allel
Author: tessl

Overview

Scikit-allel is a comprehensive Python library for exploratory analysis of large-scale genetic variation data. It provides efficient data structures and algorithms for working with genomic datasets commonly found in population genetics and evolutionary biology research, including tools for genotype arrays, allele frequency calculations, genetic diversity metrics, and statistical analysis of population structure.

Package Information

Name: scikit-allel
Version: 1.3.13
Type: Python library
Language: Python (with Cython extensions)
Installation: pip install scikit-allel

Core Imports

import allel
import numpy as np

# Import specific modules for focused functionality
from allel import GenotypeArray, HaplotypeArray, AlleleCountsArray
from allel.stats import diversity, fst, ld, selection
from allel.io import vcf_read, gff

{ .api }

Basic Usage

import allel
import numpy as np

# Read VCF file into arrays
variants, samples, genotypes = allel.read_vcf('data.vcf', fields=['variants/*', 'samples', 'calldata/GT'])

# Create genotype array for analysis
g = allel.GenotypeArray(genotypes)

# Calculate basic statistics
ac = g.count_alleles()
diversity = allel.sequence_diversity(variants['POS'], ac)

# Population structure analysis
fst = allel.weir_cockerham_fst(g, [range(10), range(10, 20)])

{ .api }

Architecture

Scikit-allel is organized around several key concepts:

Data Structures: Specialized array classes for genetic data (genotypes, haplotypes, allele counts)
Statistical Methods: Population genetics statistics organized by analysis type
I/O Operations: Reading and writing genetic data formats (VCF, GFF, FASTA)
Storage Backends: Support for chunked storage (HDF5, Zarr) and distributed computing (Dask)

Capabilities

Genetic Data Structures

Core array classes for representing and manipulating genetic variation data, including genotype arrays, haplotype arrays, and allele count arrays with efficient operations and memory management.

Key functionality: GenotypeArray, HaplotypeArray, AlleleCountsArray, array creation functions, indexing classes (SortedIndex, UniqueIndex, ChromPosIndex), chunked storage backends (Dask, HDF5, Zarr), vector classes for single variants.

Data Structures Documentation

Population Genetics Statistics

Comprehensive statistical methods for analyzing genetic diversity, population structure, and natural selection, including windowed analyses and hypothesis tests commonly used in population genetics.

Key functionality: diversity metrics (π, θ, Tajima's D), FST calculations (Weir & Cockerham, Hudson, Patterson), linkage disequilibrium analysis, selection tests (iHS, XP-EHH, NSL), site frequency spectrum analysis, principal component analysis, admixture statistics (F2, F3, D), Hardy-Weinberg equilibrium tests, runs of homozygosity detection, and Mendelian inheritance analysis.

Statistics Documentation

File I/O Operations

Reading and writing genetic data in standard formats with support for large files and selective data loading, enabling integration with existing bioinformatics pipelines.

Key functionality: VCF reading/writing, GFF parsing, FASTA processing, format conversion utilities, chunked I/O for large datasets.

I/O Documentation

Utilities and Storage

Supporting utilities for data management, caching, memory optimization, and integration with scientific Python ecosystem, plus chunked storage backends for large-scale data.

Key functionality: HDF5 caching decorator, array validation functions (check_ndim, check_dtype, asarray_ndim), error handling utilities, integration with scientific Python ecosystem (NumPy, pandas, matplotlib).

Utilities Documentation

Install with Tessl CLI

npx tessl i tessl/pypi-scikit-allel

Workspace: tessl
Visibility: Public
Created: 6 months ago
Last updated: about 1 month ago
Describes: pkg:pypi/scikit-allel@1.3.x