Быстрый старт
Эта страница проводит через полный пайплайн >> -- от загрузки данных до просмотра результатов.
Установка
Для GPU: pip install plantain2asr[asr-gpu]
1. Загрузить датасет
from plantain2asr import GolosDataset
ds = GolosDataset("data/golos")
crowd = ds.filter(lambda s: s.meta["subset"] == "crowd")
2. Прогнать модели через >>
Результаты кешируются на диск -- повторные запуски пропускают уже обработанные семплы.
3. Нормализовать через >>
Исходный датасет не затронут; norm -- новое представление с нормализованными текстами.
4. Посчитать метрики через >>
Считает WER, CER, MER, WIL, WIP, Accuracy, IDR и LengthRatio за один проход.
5. Исследовать результаты
Полный пайплайн одним блоком
from plantain2asr import GolosDataset, Models, SimpleNormalizer, Metrics, ReportServer
ds = GolosDataset("data/golos")
ds >> Models.GigaAM_v3()
ds >> Models.Whisper()
norm = ds >> SimpleNormalizer()
norm >> Metrics.composite()
df = norm.to_pandas()
print(df.groupby("model")[["WER", "CER"]].mean().sort_values("WER"))
ReportServer(norm, audio_dir="data/golos").serve()
Загрузка готовых результатов
Если инференс был выполнен на другой машине, загрузите JSONL и продолжите оценку локально:
ds = GolosDataset("data/golos")
ds.load_model_results("GigaAM-v3-rnnt", "results/GigaAM-v3-rnnt_results.jsonl")
Одна строка на семпл:
Сопоставление идёт по basename audio_path, поэтому результаты удобно переносить между машинами.
Обёртка Experiment
Если нужны готовые исследовательские сценарии без ручной сборки >> цепочки,
Experiment оборачивает те же шаги пайплайна:
from plantain2asr import Experiment, GolosDataset, Models, SimpleNormalizer
experiment = Experiment(
dataset=GolosDataset("data/golos"),
models=[Models.GigaAM_v3(), Models.Whisper()],
normalizer=SimpleNormalizer(),
)
experiment.compare_on_corpus(metrics=["WER", "CER", "Accuracy"])
| Метод | Что делает |
|---|---|
compare_on_corpus() |
Прогнать модели, нормализовать, оценить, вернуть сравнительную таблицу |
leaderboard() |
Рейтинг моделей по одной метрике |
prepare_thesis_tables() |
CSV-таблицы для диссертации |
export_appendix_bundle() |
Полный пакет: таблицы + отчёт + бенчмарк |
benchmark_models() |
Замеры latency, throughput, RTF |
save_report_html() |
Статический HTML-отчёт |
Под капотом Experiment выполняет те же >> шаги.
Используйте его, когда нужен однострочник; используйте пайплайн, когда нужен контроль.