Q-learning

发布时间:2017-05-23  栏目:强化学习  评论:0 Comments

Q-Learning是off-policy的方法,要balance exploration和exploitation一般用-greedy的方法。迭代时会找下一步的最大Q值迭代,这也是它和Sarsa这种on-policy方法的不同点。 Q为动作效用函数(action-utility function),用于评价在特定状态下采...

Soft Attention

发布时间:2017-05-22  栏目:深度学习, 自然语言处理  评论:0 Comments

Soft Attention Model,所谓Soft,意思是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。那么相对Soft,就有相应的Hard Attention Model,提出Hard版本就是一种模型创新。既然Soft是给每个单词都赋予一...

【转】Understanding Locally Connected Layers In Convolutional Neural Networks

发布时间:2017-03-21  栏目:机器视觉  评论:0 Comments

Convolutional Neural Networks (CNNs) have been phenomenal in the field of image recognition. Researchers have been focusing heavily on building deep learning models for various tasks and they just keeps getting better every yea...

【转】知识图谱的构建流程

发布时间:2017-03-17  栏目:自然语言处理  评论:0 Comments

知识图谱是实体和关系构成的有向图,图中的节点代表实体,边代表实体之间的语义关系。知识图谱中最基本的表现形式是三元组。目前的知识图谱一般规模较大,但是其中绝大多数的知识图谱都是不完备的,因为有大量的知识无法在其中有效地表达。知识...

Guided Policy Search

发布时间:2017-03-14  栏目:人工智能, 强化学习  评论:0 Comments

State Action Reward State Action (SARSA)

发布时间:2017-03-14  栏目:强化学习  评论:0 Comments

State Action Reward State Action (SARSA) 算法其实是状态-动作价值版本的时差学习 (Temporal Difference, TD) 算法。SARSA 利用马尔科夫性质,只利用了下一步信息。SARSA 让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新。 &nb...

[转] 强化学习方法汇总

发布时间:2017-03-14  栏目:人工智能, 强化学习  评论:0 Comments

了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助. 强化学习是一个大家族, 发展历史也不短, 具有很多种不同方法. 比如说比较知名的控制方法 Q learning, Policy gradients, 还有基于对环境的理解的 model-...

画出caffe的模型的网络架构图

发布时间:2016-12-15  栏目:Caffe, 深度学习  评论:0 Comments

在caffe中可以使用draw_net.py轻松地绘制卷积神经网络(CNN,Convolutional Neural Networks)的架构图。这个工具对于我们理解、学习甚至查错都有很大的帮助。 draw_net.py的使用方法如下: usage: draw_net.py [-h] [--rankdir RANKDIR] ...

ReLu(Rectified Linear Units)激活函数

发布时间:2016-11-29  栏目:深度学习  评论:0 Comments

近似生物神经激活函数:Softplus&ReLu  2001年,神经科学家Dayan、Abott从生物学角度,模拟出了脑神经元接受信号更精确的激活模型,该模型如左图所示: 这个模型对比Sigmoid系主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性...

掌握CNN的六个要点

发布时间:2016-11-28  栏目:人工智能  评论:0 Comments

局部连接(卷积) 参数共享 多卷积核 池化 全连接层 SoftMax层   卷积在CNN中的含义,相当于是各种图形变换。 卷积的重要的物理意义是:一个函数(如:单位响应)在另一个函数(如:输入信号)上的加权叠加。 重复一遍,这就是卷积的意义...

相册集

pix pix pix pix pix pix

关于自己

杨文龙,软件工程师,自动化专业研究生毕业,热爱创新发明,专注于机器学习、算法、自然语言处理、深度学习及人工智能等领域,目前拥有美国专利5篇,中国专利4篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai

  • 我爱返利网