Commits

Kosta Sokolov committed 252912a

general info about asr

Comments (0)

Files changed (1)

src/asr-general/asr.tex

+\documentclass[10pt,a4paper]{article}
+\usepackage[english,russian]{babel}
+\usepackage[utf8]{inputenc}
+\usepackage[OT1]{fontenc}
+\usepackage{amsmath}
+\usepackage{amsfonts}
+\usepackage{amssymb}
+\begin{document}
+
+\part{План}
+
+\section{Введение.}
+
+\begin{enumerate}
+  \item Порождение и восприятие речи. Речевой аппарат. Физиологические ограничения. 
+  \item Акустика речи. Фонетическая классификация звуков речи. Фонетическая транскрипция. Эффекты коартикуляции, лениции, уподоблений, расподоблений. Начальное представление о фонологии. Дистинктивные признаки, фонемы и аллофоны, фонотактика.
+  \item Три подхода к распознаванию речи: акустико-фонетический, статистический, на основе знаний. Доминирующий подход сегодня - статистический с учетом знаний. 
+  \item Общая схема “статистического” распознавателя речи: 
+	\begin{enumerate}
+	  \item обработка сигнала;
+	  \item сопоставление с образцом;
+	  \item поиск в пространстве кандидатов;
+	  \item обучение статистических моделей (эталонов).
+	\end{enumerate}
+\end{enumerate}
+
+\section{Краткие сведения об обработке сигнала.}
+
+\begin{enumerate}
+  \item Модель “сигнал + зашумленный канал”. 
+  \item Характеристики сигнала. Теорема отсчетов. Частота дискретизации. Квазистационарность. Спектр. 
+  \item Учет искажений, вносимых каналом: шум, полоса пропускания, эффекты кодирования сигнала; неравномерность снимаемого сигнала (потребность в AGC).
+  \item Учет “естественной” изменчивости речевого сигнала: установки диктора (тщательная речь, небрежная речь), особенности диктора (мужчина, женщина, ребенок; насморк, хрип, дефекты речи), диалектные особенности; различия между дикторами.
+  \item Учет физиологических особенностей восприятия речи: неравномерность звуковысотной чувствительности, неравномерность слышимости, доминирование низкочастотного сигнала при его низкой информативности, критическая полоса и эффекты маскировки; 
+  \item Учет погрешностей при цифровой обработке: квантизация, спектральная утечка.
+  \item Процедура извлечения признаков. Кепстр. Банк фильтров.
+\end{enumerate}
+
+\section{Краткие сведения о сопоставлении с образцом и поиске в пространстве кандидатов.}
+
+\begin{enumerate}
+  \item Задачи: компенсация изменчивости темпа речи; компенсация вариативности сигнала; вычислимость.
+  \item Сэмпл: вектор признаков. Образец: (один из распространенных подходов) модель “смеси гауссиан”. Расстояние в локальной метрике.
+  \item Марковский процесс. Скрытая марковская модель. Базовые предположения: марковость (независимость от истории), стационарность (независимость вероятностей перехода от времени), независимость результатов. Пример про “ботинки тюремщика”.
+  \item “Композициональность” скрытых марковских моделей (построение большого графа). Акустическая модель, лексическая модель, языковая модель.
+  \item Алгоритм Витерби. Визуализация с помощью "trellis diagram".
+\end{enumerate}
+
+\section{Виды распознавания. Точность. Трудоемкость реализации.}
+
+
+\part{Аббревиатуры}
+
+\begin{description}
+  \item[ADC, A/D Converter, АЦП] Analog-to-Digital Converter, аналогово-цифровой преобразователь
+  \item[AEC] Acoustic Echo Cancellation
+  \item[AGC] Automatic Gain Control
+  \item[ANN] Artificial Neural Network
+  \item[ARPABET] Phonetic transcription alphabet used in Sphinx4
+  \item[ASR] Automatic Speech Recognition
+  \item[BNF] Backus-Naur Form
+  \item[CART] Classification and Regression Tree
+  \item[CFG] Context-Free Grammar
+  \item[CLC] Common Linguistic Component (Nuance)
+  \item[CMLLR] Constrained MLLR
+  \item[CMN] Cepstral Mean Normalization (a.k.a. Channel Mean Normalization)
+  \item[CSR] Continuous Speech Recognition
+  \item[CV] Confidence Value
+  \item[CVN] Cepstral Variance Normalization
+  \item[DAC, D/A Converter, ЦАП] Digital-to-Analog Converter, цифро-аналоговый преобразователь
+  \item[dB(A), dBA] decibels adjusted
+  \item[DCT] Discrete Cosine Transform
+  \item[DDG2P] Data Driven G2P (Nuance)
+  \item["delta delta", "double delta"] second order derivative
+  \item["delta"] first order derivative
+  \item[DFT] Discrete Fourier Transform
+  \item[DSP] Digital Signal Processing
+  \item[DTFT] Discrete-time Fourier Transform
+  \item[DTW] Dynamic Time Warping
+  \item[EBW] Extended Baum-Welch
+  \item[EM] Expectancy Maximization
+  \item[FA] False Acceptance
+  \item[FFT] Fast Fourier Transform
+  \item[FR] False Rejection
+  \item[FSA] Finate State Automaton
+  \item[FSM] Finate State Machine (same as FSA)
+  \item[FST] Finate State Transducer
+  \item[G2P] Grapheme to Phoneme
+  \item[GDL] Graph Description Language (used by AISee graph visualization tool, format supported in Sphinx4)
+  \item[GMM] Gaussian Mixture Model
+  \item[HMM] Hidden Markov Model
+  \item[HTK] HMM Toolkit (http://htk.eng.cam.ac.uk)
+  \item[IDCT] Inverse Discrete Cosine Transform
+  \item[IPA] 1) International Phonetic Association 2) General purpose phonetic transcription designed by IPA
+  \item[JSAPI] Java Speech API
+  \item[JSGF] Java Speech Grammar Format
+  \item[L\&H+] Phonetic transcription alphabet used in Nuance
+  \item[LPC] Linear Predictive Analysis (Coding)
+  \item[LVCSR] Large Vocabulary Continuous Speech Recognition
+  \item[LVQ] Learning Vector Quantization (an algorithm, Kohonen et. al., 1996)
+  \item[MEL] Mel Scale Cepstral Analysis
+  \item[MFCC] Mel-frequency Cepstral Coefficients
+  \item[MLE] Maximum Likelihood Estimation
+  \item[MLLR] Maximal-Likelihood Linear Regression
+  \item[MMIE] Maximum Mutual Information Estimation
+  \item[MMI] Maximum Mutual Information
+  \item[MoG] Mixture of Gaussians (same as GMM)
+  \item[MPE] Maximum Phone Error
+  \item[OOV] Out of Vocabulary (Word)
+  \item[PCFG] Probabilistic CFG
+  \item[PCM] Pulse Code Modulation (импульсно-кодовая модуляция)
+  \item[PDSM] Push-Down State Machine
+  \item[PER] Phoneme Error Rate. Levenshtein distance divided by the number of phonemes in the reference pronunciation.
+  \item[PIC] Phoneme In Context = triphone
+  \item[PLP] Perceptual Linear Prediction
+  \item[PLS] Pronunciation Lexicon Specification (W3C Standard)
+  \item[RASTA] Relative spectra filtering of log domain coefficients (RelAtive SpecTrA)
+  \item[SER] Sentence Error Rate
+  \item[SISR] Semantic Interpretation for Speech Recognition (W3C Standard)
+  \item[SNR] -Signal to Noise Ratio. The amplitude of the signal compared to the noise. The higher the SNR the lower the number of errors. (dB)
+  \item[SPL] Signal Pressure Level (mP)
+  \item[SRGS] Speech Grammar Recognition Specification (W3C Standard)
+  \item[SSE] Speech Signal Enhancement
+  \item[SSML] Speech Synthesis Markup Language (W3C Standard)
+  \item[SVM] Support Vector Machine
+  \item[TCM] Trellis Coded Modulation
+  \item[TDNN] Time Delay Neural Network
+  \item[TIMIT] A Speech Corpus
+  \item[TS] Trailing Silence
+  \item[VQ] Vector Quantization (сеть векторного квантования, см. нейросеть Кохонена)
+  \item[VTLN] Vocal Tract Length Normalization
+  \item[VXML] VoiceXML
+  \item[WER] Word Error Rate
+  \item[WFST] Weighted Finate State Transducer
+\end{description}
+
+
+\end{document}