图为白花绿芽的李树尽显春意。钱锦承 摄

2019 年 2 月,OpenAI 发布了自己具有 15 亿个参数的语言模型 GPT-2,当时它就展示了颇为惊人的短句续写成能力。最近有位网友就用这个模型跑了一遍,生成了一段文字发表在该网站上,与作者当时用的 torch-rnn 写出来的文字相比,无疑有很大的进步,不仅上下文联系、有层层递进的对话,语法还几乎没有错误,有点以假乱真了。

网站提到,用户可以从谷歌、Project Gutenberg、IMSDB、MLDB 数据库,或者是其它用户所附带的数据文件等获取训练数据集。一般来说,数据集越大,AI 写得更好。1MB (200000字)是最低的要求。3-10MB 是合理的范围,10 或 100MB 就算得上大数据集,则更理想,当然在个人 PC 训练可能需要几周甚至几个月的时间。

以上图书都有电脑程序写作的部分

雷锋网原创文章,。详情见转载须知。

有诗人表示,“无论输入多少句子还是写不了真诗,真诗是有灵性的。”“‘小冰’成功地学会了新诗的糟粕,写的都是滥调。”

接下来就让我们看看具体怎么操作的吧。

而随着 AI 复兴,在文章写作之外,人们还将 AI 延伸到了更广泛的文学艺术领域。比如在文学的明珠诗歌领域,微软 2014 年起开始研究虚拟机器人小冰,她第一次破圈就是以少女诗人的身份,写出过“爱情就像脂肪,是点点滴滴的积累”,并在 2017 年出了一本名为《阳光失了玻璃窗》的诗集,如今已经更新到第七代。

而最后,神却抽泣着承认失败,因为他即使写出了巅峰的诗,却无法从诗云中筛选出来。

在 NLP、神经网络发展之前的 2014 年,大多数的作品都是使用创造性的规则转换已有的文本,这也导致了作品的相似性。

以上项目的原理也类同 Literai,基于 LSTM 学习大量文本数据。小冰的现代诗创作能力,是通过对 1920 年后 519 位现代诗人的上千首诗反复学习(术语称为迭代)10000 次达成的。Benjamin 则吸收了几十个拍摄于 1980 至 1990 年代的科幻电影剧本。

第四启动 Docker,将数据文本复制到 Docker 容器中,然后开始训练。注意保持电脑充电且不休眠。因为作者发布网站较早,指引中用的是 torch-rnn。几小时或几天后,用户会收获一个合乎心意的神经网络模型,输入命令,小说就会诞生了。

背后的关键技术就是长短期记忆神经网络( long short-term memory neural network)。它一次创建一个字符的内容,每个新字符都是基于它已经学习的内容。

Literai 的发展与同人文化还有着一定关系。

图为大片李花绽放。钱锦承 摄

无所不能的神级文明代表,立志写出超越李白的诗。方法一是写出超越李白的诗,但由于缺乏对美的理解,折戟;方法二,穷尽所有文字,写完所有的诗。 他大手笔地用整个太阳系的物质能量来存储所有的诗,太阳熄灭、重燃 11 次后,在原来太阳系的位置,出现了一片直径为一百个天文单位的旋涡状星云。

图为枝条上,一枝枝李花盛放。钱锦承 摄

作者们提供了 Mac 和 Windows 两个版本的操作指南,不过第一步都是相同的,需要安装 Docker,因为必须有 Hyper-V,所以如果是 Windows 版本,必须是 Windows 专业版及更高才行。;

雷锋网(公众号:雷锋网)了解到,NaNoGenMo 全称 National Novel Generation Month,是一年一度的写作机器人峰会,第一次在 2013 年 11 月举办,拥有程序员+艺术家双重身份的 Darius Kazemi 心血来潮将想法发表在推特上,获得了许多支持,他就在 GitHub 建立了一个仓库。

虽然生成的文章有着这样那样的问题,两位用户对此倒还算满意。第一个以阿根廷作家博尔赫斯的全部小说集作为数据集,用 512 个神经元和两个隐藏层训练神经网络,经过 19850 次迭代得到了这篇文章。

第二步是创建数据库。神经网络刚开始对拼写、标点、单词字符、情节、语法常识都一窍不通,需要从零开始从给它的素材中学习这些概念。其中重点要学的是更微妙的部分,比如文风或结构。你喂给它莎士比亚,它就会写出莎士比亚风。

一个叫作 Benjamin 的 AI 在 2016 年伦敦科幻电影节上用 48 小时创作了名为《Sunspring》的短片,两年后又花两天制作了一部叫作《Zone Out》的微电影。

第二个网友则用了自己最迷恋的英国作家简·奥斯汀和一点点玛丽·雪莱的作品。在生成《Of Crying and Captains 》之前,电脑跑了一整天,“对于这个模型的创建来说,语气和句子结构是最重要的两件事。当我阅读这篇文章时,我真切地感受到英国的智慧正悄悄潜入我的内心。”该用户表示。

事实上,AI,或者更广义的机器文学创作,在这一波 AI 复兴之前就存在。如果认真区分,还有程序写作 Program Writing,使用计算机程序来生成文字;电脑生成文学 Computer-Generated Literary Art,主要是计算机与文学方面的结合,偏艺术创作。而人工智能、机器学习的发展,则是提供了一个更好的工具。       

机器文学的发展和争议

目前网站上传都是英文小说,理论上也可以通过学习其他语言作品来用其他语言写作。作者也指出,目前写出来的文章还是颇为生硬,但是它最强的一点是可以比较深刻地洞察和模仿素材库的模式与文风。

“智慧生命的精华和本质,是技术所无法触及的。”

近日,在福建宁德市古田县平湖镇富达村,大量李树盛放出朵朵白花,点点嫩绿装点出了美丽乡村的盎然春色。富达村是福建省最大的芙蓉李产区,所产芙蓉李素有“八闽第一芙蓉李”的美誉。

2014 年有一篇作品叫《搜索者》,作者 Thricedotted 使用了梦幻般的方式去探索机器智能的奇异之美。这是一本试图通过阅读维基百科来了解人类行为的机器的自传。文字充斥着视觉美感,用抽象的雨点来给每一次算法操作的循环加标注。文章常常是割裂的,而美感也来自于阅读者感受到的片段式意境。

第三需要预处理数据,调整一些参数。

在现阶段,与其说机器是在创作,不如说是在随机性地排列组合文字。过去、现在的主流观点一直都是,科技、逻辑、理性不是一切,永远无法超越文学艺术。刘慈欣的一篇短篇小说《诗云》曾对这种情况做出过终极猜想。

而与此同时,AI 文学的差评也开始多了起来。小冰风头最盛,批评也最多。《阳光失了玻璃窗》的诗集豆瓣评分 5.5 分,批评主要聚焦在:写诗是人类精神的表达,而小冰的诗没有灵魂和情感,只是简单地堆砌文字,缺乏内在的抒情逻辑。

2016 年,神经网络在前面几年取得长足进步,在湾区有三位志同道合的年轻人——他们分别是在 Kaggle 的 Myles O’Neill,以及其它科技创业公司的 Anthony Voutas 和 sadora Lamego,一起计划做一个让更多人参与感受 AI 的项目。

雷锋网了解到,Myles O’Neill、Anthony Voutas 研究生都就读于澳洲国立大学计算机专业,期间学习过神经网络,而 sadora Lamego 当时正在伯克利大学开设了同人小说的课程。头脑风暴后,他们意识到,有可能并且想要创造自己的神经网络来写故事。

用 AI 创作你的故事