汉语堂|矣晓沅,孙茂松:计算机的诗意 | 机器写诗的背后
北京联盟_本文原题:矣晓沅 , 孙茂松:计算机的诗意 | 机器写诗的背后
计算机的 诗意
矣晓沅 孙茂松
本文收录于《輶轩使者:语言学家的田野故事》一书
“九歌” · 起点
“西风吹起银河水 , 散作江南万里天 。 ”看到这样诗句 , 您是否会想到它竟不是人类所作 , 而是出自机器人“九歌”之手?
自1956年达特茅斯会议以来 , 人工智能研究者们在国际象棋、围棋、绘画等一个个人类擅长的领域内不断探索着计算机的极限 。 诗歌作为人类语言智慧高度凝练化和艺术化的体现 , 早在上世纪六十年代就进入了国外研究者的视线 。 国内针对中国古典诗歌自动生成的研究兴起于90年代 , 并且在2016年之前 , 已经有了若干个初具功能的自动作诗系统 , 然而效果不尽如人意 。 对于诗歌生成这一任务 , 一方面 , 搜索空间将随着诗字数的增加而指数级增长 。 如对七言律诗 , 诗歌生成的潜在搜索空间规模将达到约2^744 , 远高于围棋所有可能的不同盘面数(2^572) 。 另一方面 , 不同于棋类等竞技项目 , 诗歌创作没有明确的好坏胜负判断规则 。 因此 , 研究计算机诗歌生成对于解析人类文学创作的内在计算机制、开发计算机的创造能力乃至构建更加通用的文本生成模型都有一定的价值 。 于是清华大学自然语言处理实验室(THUNLP)在2016年开始着手诗歌自动生成系统的研究 。
研究伊始 , 我们就为系统取名“九歌” 。 《九歌》是战国时期伟大的诗人屈原的名篇 , 这一命名意在致敬屈原 , 对中国的浪漫主义文学溯源 , 寄托了九歌的起点——起于中国数千年的诗词文化之中;同时 , “九”作为虚数意味“多” , “歌”作为“诗歌”的泛称 , 是我们对系统未来的期许——希望“九歌”能“创作”出很多优秀的诗作 。
从诗中来· 到诗中去
在自动作诗的研究上 , 我们坚持以任务 , 而以非模型为导向 , 即针对诗歌创作的特点和面临的问题 , 借鉴诗歌写作、语言学、心理学等方面的理论 , 设计专门的解决方案和模型结构 。 我们研究的思路从诗中来 , 最终也应用到诗中去 。
团队面临的第一个问题是上下文一致性 。 诗歌属于多行语句构成的篇章级别文本 。 一首诗的不同诗行之间连贯性和一致性是衡量诗歌质量的重要指标之一 。 “一夜扬州月 , 凄凉万里心 。 故乡无限意 , 惆怅暮云阴 。 ”这首机器生成的五言绝句乍看之下文从字顺 , 然而第一句以“月”字点明时间为夜晚 , 第四句却在没有任何合理过渡转折的情况下 , 生成了“暮云” 。 时间与上文的不一致立刻暴露了这首诗为机器而非人所作 。
为了解决这一问题 , 我们从相关的诗歌创作理论中寻求思路 。 在诗歌创作中 , 有“谋篇”之说 。 所谓谋篇即预先对诗词的内容和结构进行布局 , 设计好每一句写什么 , 如何起承转合等 。 已经有相关研究过尝试这种思路 , 但效果有限 。
“谋篇”的路走不通 , 我们转向另一个思路——“意脉” 。 “意脉”的概念可追溯到《文心雕龙》的《章句》篇:“裁文匠笔 , 篇有小大;离章合句 , 调有缓急 , 随变适会 , 莫见定准……故能外文绮交 , 内义脉注 , 跗萼相衔 , 首尾一体 。 ” 这一段论述启示我们 , 在写作中 , 要动态地、灵活地构建出整首诗的骨架主线 , 以此对上下文的内容和主题进行约束 , 做到上下紧密相关 , 意脉连贯 。 同时又要断续离合、荡开笔墨 , 允许一定的自由与发挥的空间 , 不能约束得太死板 。
基于这样的思路 , 我们设计出了显著性线索机制模型 。 “忆昔扬州月 , 于今又一秋 。 故人何处是 , 落叶满汀洲 。 ”这是该模型生成的诗歌 。 诗中第二句生成了“秋” , 点明了季节 , 同时第四句生成与上文一致的“落叶”一词 , 进一步渲染了秋景 。 整首诗的主题和意境都有较好的一致性 。
推荐阅读
- 闽南话|闽南语是“中原古汉语”?事实没有那么简单
- 汉语|延安汉语培训学校 女性也能传承中华古老文明
- 欧洲科学院|计算语言学家清华大学孙茂松教授当选欧洲科学院外籍院士
- 汉语学习网|汉语学习网为摩尔多瓦学生讲好中国故事 传播文化新知识
- 老外学|教老外学中文 俄罗斯学生学习汉语传播中国文化
- 汉语堂|我们该如何学习语言 |《窈窕淑女》对语言学习的启示
- 天下鉴史|我国最牛老人,发明汉语拼音,还和爱因斯坦是朋友,活到了112岁结语
- 春秋讲武堂|除了中国,有其它国家用汉语吗?其实还有两个国家
- Array|这十个常见的汉语典故,被我们误用了几十年!
- 马来西亚|创新中国文化传播方式 汉语学校为马来西亚学生提供便利
