中国IDC圈@终于有人把云计算、大数据和人工智能讲明白了( 九 )
语言领域和财经领域知识能不能表示成像数学公式一样稍微严格点呢?例如语言专家可能会总结出主谓宾定状补这些语法规则 , 主语后面一定是谓语 , 谓语后面一定是宾语 , 将这些总结出来 , 并严格表达出来不久行了吗?
后来发现这个不行 , 太难总结了 , 语言表达千变万化 。 就拿主谓宾的例子 , 很多时候在口语里面就省略了谓语 , 别人问:你谁啊?我回答:我刘超 。 但你不能规定在语音语义识别时 , 要求对着机器说标准的书面语 , 这样还是不够智能 , 就像罗永浩在一次演讲中说的那样 , 每次对着手机 , 用书面语说:请帮我呼叫某某某 , 这是一件很尴尬的事情 。
人工智能这个阶段叫做专家系统 。 专家系统不易成功 , 一方面是知识比较难总结 , 另一方面总结出来的知识难以教给计算机 。 因为你自己还迷迷糊糊 , 觉得似乎有规律 , 就是说不出来 , 又怎么能够通过编程教给计算机呢?
4算了 , 教不会你自己学吧
于是人们想到:机器是和人完全不一样的物种 , 干脆让机器自己学习好了 。
机器怎么学习呢?既然机器的统计能力这么强 , 基于统计学习 , 一定能从大量的数字中发现一定的规律 。
其实在娱乐圈有很好的一个例子 , 可见一般:
有一位网友统计了知名歌手在大陆发行的9张专辑中117首歌曲的歌词 , 同一词语在一首歌出现只算一次 , 形容词、名词和动词的前十名如下表所示(词语后面的数字是出现的次数):

文章图片
如果我们随便写一串数字 , 然后按照数位依次在形容词、名词和动词中取出一个词 , 连在一起会怎么样呢?
例如取圆周率3.1415926 , 对应的词语是:坚强 , 路 , 飞 , 自由 , 雨 , 埋 , 迷惘 。 稍微连接和润色一下:
坚强的孩子 ,
依然前行在路上 ,
张开翅膀飞向自由 ,
让雨水埋葬他的迷惘 。
是不是有点感觉了?当然 , 真正基于统计的学习算法比这个简单的统计复杂得多 。
然而统计学习比较容易理解简单的相关性:例如一个词和另一个词总是一起出现 , 两个词应该有关系;而无法表达复杂的相关性 。 并且统计方法的公式往往非常复杂 , 为了简化计算 , 常常做出各种独立性的假设 , 来降低公式的计算难度 , 然而现实生活中 , 具有独立性的事件是相对较少的 。
5模拟大脑的工作方式
于是人类开始从机器的世界 , 反思人类的世界是怎么工作的 。

文章图片
人类的脑子里面不是存储着大量的规则 , 也不是记录着大量的统计数据 , 而是通过神经元的触发实现的 , 每个神经元有从其它神经元的输入 , 当接收到输入时 , 会产生一个输出来刺激其它神经元 。 于是大量的神经元相互反应 , 最终形成各种输出的结果 。
例如当人们看到美女瞳孔会放大 , 绝不是大脑根据身材比例进行规则判断 , 也不是将人生中看过的所有的美女都统计一遍 , 而是神经元从视网膜触发到大脑再回到瞳孔 。 在这个过程中 , 其实很难总结出每个神经元对最终的结果起到了哪些作用 , 反正就是起作用了 。
于是人们开始用一个数学单元模拟神经元 。
这个神经元有输入 , 有输出 , 输入和输出之间通过一个公式来表示 , 输入根据重要程度不同(权重) , 影响着输出 。

文章图片
于是将n个神经元通过像一张神经网络一样连接在一起 。 n这个数字可以很大很大 , 所有的神经元可以分成很多列 , 每一列很多个排列起来 。 每个神经元对于输入的权重可以都不相同 , 从而每个神经元的公式也不相同 。 当人们从这张网络中输入一个东西的时候 , 希望输出一个对人类来讲正确的结果 。
推荐阅读
- 海峡生活汇印度对中国虎视眈眈,我国将如何迎接挑战,英国仍想着事后清算
- 董明珠说中国制造不能没有格力,事实真的是如此么?
- 中国财富网你买对了吗?“一杯咖啡”引发的索赔,董责险
- 环球时报热点 离中方的最终决定还有10天,澳大利亚担忧“中国关税报复”
- 中国青年网美众议院调查特朗普防疫应对措施
- 『中国』相约云上!省发改委牵头召开云上2020年中国品牌日活动福建分会场新闻通气会
- 【核武器】中国四艘轻型航母现身,增加核武器数量呼声高涨,你细品
- 冷门体育知识今落叶归根回国执教,中国体操天才入美国籍后培养数位世界冠军
- 中国质量报山西记者站精准助力台骀山景区复工复产,迎泽市场监管多措并举
- 缓缓静水流深不语中科大、北大、南京大学进入前三,2020中国一流大学排行榜出炉
