You're Beautiful


  • 首页

  • 标签

  • 分类

  • 归档

viterbi以及forward-backword算法

发表于 2019-01-07 | 分类于 语音识别 | | 阅读次数:

viterbi算法

维特比算法说白了就是动态规划实现最短路径,只要知道动态规划是通过空间换时间的一种方法就可以了。HMM的解码部分使用的是viterbi算法。

假设上图每一列分别有$ n _ {1},…,n _ {n} $个节点,如果不使用动态的话,那么计算最短路径的时间复杂度就是$ O(n _ {1} * n _ {2} * … * n _ {n}) $。

维特比算法的精髓就是,既然知道到第i列所有节点Xj{j=1,2,3…}的最短路径,那么到第i+1列节点的最短路径就等于到第i列j个节点的最短路径+第i列j个节点到第i+1列各个节点的距离的最小值。

分析一下复杂度,假设整个有向无环图中每一列节点最多有D个(也就是图的宽度为D),并且图一共有N列,那么,每次计算至多计算D*D次(i列的D个节点到i+1列D个节点的距离)。至多计算N次。那么时间复杂度为O(ND^2),远远小于穷举法O(D^N)。

Read More »

gdb使用笔记

发表于 2019-01-04 | 分类于 linux | | 阅读次数:

例子

1
2
3
gdb mimir
r --config=config
bt
Read More »

区分性训练(Discriminative Training)及其在语音识别(ASR)上的运用

发表于 2018-12-16 | 分类于 语音识别 | | 阅读次数:

介绍

  • 语音识别声学模型DNN训练通常用交叉熵(Cross-Entropy,CE)作为损失函数进行训练,但是在基于帧识别的语音识别中我们一般使用WER来评价语音识别的准确率,我们更关心的是序列的准确性,这就导致损失函数和训练目标不一致。
  • 序列区分性训练(Discriminative Training,DT)在识别序列上定义误差,更接近我们语音识别的最终目标。
  • 常见的DT目标函数有最大互信息( maximum mutual information, MMI),增强型最大互信息(Boosted MMI, BMMI),最小音素错误(minimum phone error, MPE)和最小贝叶斯风险(minimum bayes risk, MBR)
Read More »

奇异值分解SVD

发表于 2018-10-11 | 分类于 deep learning | | 阅读次数:

在介绍奇异值分解(SVD)之前我们先来回顾一下关于矩阵的一些基础知识。

矩阵基础知识

方阵

给定一个$ n×m $的矩阵$ A $,若n和m相等也就是矩阵的行和列相等那矩阵$ A $就是一个方阵。

单位矩阵

在线性代数中,n阶单位矩阵,是一个$ n×n $的方阵,其主对角线元素为1,其余元素为0。单位矩阵以$ \mathbf { I } _ { n } $表示。

Read More »

kaldi sge集群和nfs网络文件系统

发表于 2018-09-09 | 分类于 语音识别 | | 阅读次数:

sge安装

qmaster sge安装

1
2
install_rpm.sh                    #qmaster节点上运行
install_qmaster.sh <admin-user> #qmaster节点上运行

使用nfs将qmaster上的sge部署到exec节点

  • 在qmaster和exec节点安装nfs。需要保证各机器上的nfs版本一致。
    1
    2
    3
    sudo yum -y install nfs-utils   #安装
    sudo yum -y upgrade nfs-utils #更新
    rpm -qa | grep nfs-utils #查看版本
Read More »

梯度下降优化算法

发表于 2018-08-10 | 分类于 deep learning | | 阅读次数:

梯度下降是最著名的优化算法之一,也是我们在训练神经网络过程中不可缺少的优化算法,了解梯度下降以及它的各种优化算法是必需的。

梯度下降形式

梯度下降有三种不同的变形形式。根据数据量的不同,在参数更新精度和训练所需时间上各有一些差异。

Read More »

kaldi chain model

发表于 2018-05-08 | 分类于 语音识别 | | 阅读次数:

声学模型网络

声学模型就是用来估计不同音素对某一帧语音的条件概率,最终找出哪一种音素序列最有可能呈现出系统接收到的波形。

DNN

DNN 是一个典型的前馈网络,语音特征在进入输入层之后,逐层传播,最终在输出层得出每个音素的概率。值得注意的是,DNN在输入层除了当前帧之外,还会额外接收相邻的帧,这使得 DNN 一方面能够捕捉更广阔的时域信息,同时能够学习到相邻帧之间的变化特点。在实际应用中,DNN 往往会接受连续 10~20 帧作为输入。

Read More »

mac常用软件插件

发表于 2018-01-23 | 分类于 工具 | | 阅读次数:

软件

  • mathpix snipping tool #截图生成数学公式
  • sublime2
  • iterm
  • typora
  • ipic
  • 印象笔记
  • 有道词典
  • 网易云音乐
Read More »

Markdown

发表于 2018-01-22 | 分类于 工具 | | 阅读次数:

语法快捷键

  • command + t 可以插入表格
  • $$ + Enter 插入Latex公式
  • 插入图片的时候直接拖拽就ok了
  • 输入[toc]+enter可以显示目录大纲
  • option + command + c 插入代码
  • 行内代码代码 `代码`
  • option + command + b 插入公式
  • *斜线* 斜线 或者 command + i
Read More »

softmax和交叉熵函数求导

发表于 2018-01-22 | 分类于 deep learning | | 阅读次数:

softmax

对于每个样本它属于类别$ i $的概率为:
$$
y _ { i } = \frac { e ^ { a _ { i } } } { \sum _ { k = 1 } ^ { C } e ^ { a _ { k } } } \quad \forall i \in 1 \ldots C
$$
其中$ C $是要预测的类别数,$ a _ { i } $是模型全连接层的输出,即输出为$ a _ { 1 } , a _ { 2 } , \dots , a _ { C } $。

Read More »
12
liuyan

liuyan

Stay Hungry, Stay Foolish.

20 日志
4 分类
19 标签
GitHub E-Mail
© 2016 — 2019 liuyan
全站共22.6k字
  |  总访问量
0%