Модели
Фабрика Models
Это главный вход в набор встроенных backend-ов.
Поддерживаемые вызовы:
| Вызов | Backend | Extra | Устройство |
|---|---|---|---|
Models.GigaAM_v3() |
GigaAM v3 e2e-RNNT | gigaam |
CUDA / MPS / CPU |
Models.GigaAM_v3(model_name="e2e_ctc") |
GigaAM v3 e2e-CTC | gigaam |
CUDA / MPS / CPU |
Models.GigaAM_v3(model_name="rnnt") |
GigaAM v3 RNNT | gigaam |
CUDA / MPS / CPU |
Models.GigaAM_v3(model_name="ctc") |
GigaAM v3 CTC | gigaam |
CUDA / MPS / CPU |
Models.GigaAM_v2(model_name="v2_rnnt") |
GigaAM v2 RNNT | gigaam |
CUDA / MPS / CPU |
Models.GigaAM_v2(model_name="v2_ctc") |
GigaAM v2 CTC | gigaam |
CUDA / MPS / CPU |
Models.Whisper() |
Whisper large-v3 RU | whisper |
CUDA / MPS / CPU |
Models.Tone() |
T-one | tone + source archive T-One |
CUDA / CPU |
Models.Vosk(model_path=...) |
Vosk | vosk |
CPU |
Models.Canary() |
NVIDIA Canary | canary |
CUDA |
Models.SaluteSpeech() |
SaluteSpeech API | none | облако |
Фабрика также поддерживает гибкое разрешение имён:
Для неизвестного имени выбрасывается понятная ошибка с подсказками.
Для T-One сначала установите runtime-extra, а затем сам source archive:
pip install plantain2asr[tone]
pip install "tone @ https://github.com/voicekit-team/T-one/archive/3c5b6c015038173840e62cea99e10cdb1c759116.tar.gz"
Использование
Выводы моделей автоматически кешируются и потом переиспользуются в метриках, отчётах и экспортах.
BaseASRModel
class BaseASRModel(ABC):
@property
def name(self) -> str: ...
def transcribe(self, audio_path: str) -> str: ...
def transcribe_batch(self, paths: list) -> list: ...
@property
def is_e2e(self) -> bool: ...
Модели, поддерживающие обучение, могут дополнительно раскрывать training-метаданные для train-слоя.