66

如果有一天,你看到的文章都是机器人写的

 6 years ago
source link: https://mp.weixin.qq.com/s/3dDEQ3Ri59ILi0HC-lL8BQ
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

如果有一天,你看到的文章都是机器人写的

Original HCY崇远 数据虫巢 2017-11-15 04:34 Posted on

Image

文·HCY崇远

01 写在之前

2017年11月08号,腾讯全球合作伙伴大会2017在成都举行,别误会,俺不在现场,虽然我也很想去看看,当时的我在大深圳某个旮旯里打代码。但通过一个貌似亲临现场的朋友的资料转发,所以我几乎在第一时间里拿到了这份腾讯全球合作伙伴大会2017的资料,又名《2017互联网科技创新白皮书》。

当时的我只是好奇翻开浏览了几页,结果深深不能自拔,在我还尚未看完的情况下,急急转发到了好几个群里,我认为,好东西应该分享。

作为中国数一数二的科技公司,腾讯终于继百度ALL IN AI,阿里宣布全面进入大数据时代之后,宣布其AI开放战略,在我看来其实并不算意外,迟早要玩的嘛。在我看来,现在言谈AI威胁论、言及AI时代尚为时过早,但是,如果此时不上车,那就是为时已晚了。

所以,在这次的技术白皮书中,必然涉及了大量的AI相关的信息,而整个白皮书总共200多页,可谓是制作精良。诚然,由于PR需求,书中必然会夹带着腾讯的私货,但并不妨碍我们摘取其中有用的部分,特别是一些AI发展的方向,技术的趋势。

这点在我看来,尤为需要重视,这是为什么呢?我曾不止在一篇文中提到过,大数据以及AI想要达到产业变革性的地步,唯有走向线下、走向传统,而拥有将互联网贯通线下线下,打通线上线下数据的,只有国内一线的大公司、也唯有一线的大公司,诸如BAT、甚至包括类似京东顺丰这样的企业。

那么,以这个逻辑看,他们的技术导向,也将决定了国内大部分的领先技术的走向、AI落地的节奏等等,所以,腾讯这次提供的技术白皮书对于那些想要对AI发展趋势一窥的朋友来说,值得一观。

说完写这个系列的缘由,我们再来说说,为什么第一篇写“内容IGC”,原因很简单,利益相关,我们正在做类似的事情,所以感触颇大,就拿出来先说说事了。

02 AI能创作吗?

说IGC之前,先来聊一个话题,不知道大家对机器人写作持什么样的观点。你认为通过AI手段,机器真的能帮助我们创作吗?注意,是创作,不是简单的写出来就好了。

或许我们从一些其他途径或多或少听过机器创作的一些例子,比如,腾讯机器人Dreamwriter实现机器写稿,最早出现是2016年里约奥运会写冠军简报的时候,这个腾讯在白皮书中也有着重提到过。这算AI创作吗?

又比如,之前《锦绣未央》火起来之后,被十多位作家联名状告抄袭,之后又随之报道出《写作神器,日更3万,抄300本书不是梦》。网络小说写作神器,随之大火。小说写作神器,这算AI创作吗?

又比如,早一段时间,微软小冰又放大招了,小冰更名为了“少女诗人小冰”,额,是的,小冰会写诗了,上传一张图片,小冰会根据图片进行诗歌创作,还像模像样的。这算AI创作吗?

在我看来,这都不算创作,我不记得有谁说过来着,在未来,AI能替代人类很大一部分工作,但有一种工作很难替代,那就是艺术的创作。在我理解,不止是艺术,只要是能够称得上创作的东西,对于AI来说,很难,最起码目前阶段很难。

以腾讯的Dreamwriter来说,目前它已经写出了XX字的稿件的了,这没毛病,但是在我看来阿D写的那些财经简讯以及体育简讯,最多就算写作,离创作这个词远着呢。那些东西,目前也就是仅仅能够做到快速进行资讯浏览、达到获取信息的目的而已,离艺术、离声情并茂、离风格个性还远着呢,你让它写个像我这篇潇洒的文字试试?(哈哈,脸不红)

而所谓的网络小说写作神器,那就更不堪了,依托于大量的素材库,以及素材打标,设置好的桥段写作模板,通过完善的标签体系以及规则模型,输出各种小说套路情节,实在难以把它论之为AI创作,不细谈。

少女诗人小冰,看似是最像AI创作的东西了,写诗嘛,诗都不算艺术,难道你打的代码是艺术?小冰写诗的核心逻辑是,通过深度学习学习了1920年以来519位诗人的作品,反复迭代训练了10000多次。但实际上,小冰写的东西虽然偶有“佳作”,但很多时候写出来所谓的“诗”,也仅仅只是表面押韵、对仗工整,但细究却狗屁不是。

为什么会出现这种情况,因为本质来说,少女诗人小冰的输出依然不是它自己的东西,只是那519位诗人作品的重组再输出而已,他圈子里很难脱离这个范围,原则上依然是个经验学习的过程,与阿D写财经体育简讯并没有什么本质的区别。而外在区别在于简讯的信息解构、以及信息的重组会更简单,诗就没这么容易了。所以,在我看来,不是付诸于情感、艺术、以及个性化的文化输出,AI很难做到创作,最起码目前很难做到。

03 什么是内容IGC?

回到内容IGC的话题,既然AI难以做到创作,那么正如白皮书中所说的,算法完全介入内容生产可能是个伪命题。那么AI在内容生产的维度上是不是就无计可施了呢?

不是的,正是本文核心想要表达的,人机协作IGC(Intelligence-generated Content)生产模式。

人和机器协同生产的状态,可以归为两种方式:

一是机器替代人类部分工作,将重复性、规范写作和客观数据聚合类劳动用机器替代,致力于帮助内容创作者减少重复性劳动,节省更多精力去撰写更加优质的内容。

二是机器服务人类生产内容,人工智能可以通过语料、素材与数据的搜集处理与高效率加工等完成内容生产工作,内容生产者在基础上充分发挥人类的演绎、推理和联想的能力,从而完成更深层次的内容处理工作。

通过这两种模式能够将机器和人有机的结合起来,使得内容生产流程和组织结构更加的灵活高效。

以上为摘自引用部分解释,摘自腾讯白皮书。我认为写的很落地,事儿也很明白,AI创作从目前看真的还有点距离,那么退而求其次,通过AI来辅助创作,这事是可以的,并且是可以落地的。

比如,上面说的第一种情况,其实就是腾讯的阿D正在做的事,那些体育、财经类的简讯其实就是规范写作、以及客观的进行数据聚合。那么,有意义吗?屁话,当然有意义了,机器能够实时监控海量数据源,然后识别有意义的信息,快速进行重组再输出,形成简讯,让你以最快的速度了解到事情的过程。

那么,这个简讯看着刻板吗?好像是有点。那么简讯的信息有有用吗?好像是有的。那不就得了,你试试人工盯着几十个数据源网站,然后实时的判断信息对平台是否有用,如果有用,快速的进行简讯报道,这事儿你玩的过机器吗?所以,是有用的。

而对于第二种情况来说,那就是我带领我们数据团队在做的一个事儿了。

04 数据、算法辅助人类高效进行创作

首先说一下简单背景,我们是SEE,提供微信生态中电商服务、知识付费服务,以及数据服务。

撇开电商跟知识付费不说,对于微信生态中,数据能提供什么服务呢?或者说我们的数据能提供什么服务呢?2017年6月30,槽边往事的和菜头曾推了一篇文章《也谈公众号的衰落》,提到过。

选题是个技术问题,而不再是经验问题。

没有数据支撑的选题,再多的经验也没用。

内容创作同样需要升级,尤其是在微信公众号的领域内,需要理科生,尤其是技术人员的卷入,需要他们提供新的生产工具,需要他们提供新的创造方式。

其实在我看来,和菜头的这个观点,与当前时代的基于AI的IGC思维是一样的,在人的经验逐渐被压缩的情况下,依赖于数据、依赖于算法进行内容的生产创作,这事是可行的,也是有市场的。

由于我司是做微信自媒体商业变现的嘛,所以或多或少的与不少公众号自媒体聊过,其中不乏篇篇10万+的大号,目前他们遇到了一个很大的难题就是,选题,以及围绕选题的素材获取,行文如何组织等等,为此,甚至很多自媒体团队养了一大推兼职,成天就在网上荡,收集热点素材,最后统一加工整理。繁琐、低效,而且还未必好使。

而我们团队现在正在为微信自媒体们做的一个事就是,捕获微信生态的热点、预测热点的走势,解构热点的组成、各种要素,还原事件,提供精准的素材以及自动化的创作策略。是的,我们不提供AI创作,但是通过数据、算法提供你创作所需要的一切,让你能够在最快最合适的点,以最合适的姿势切入,吸引粉丝的注意。

基于词,我特地使用内部的系统工具,来证明及时捕获热点,是比较容易打造爆款文章的,为此还写了一篇有理有据的理科生文章《数据化自媒体决策,告别拍脑袋的时代》。

对于创作,追逐热点是所有粉丝的天性,这也就是为何现在很多自媒体很喜欢蹭热点,蹭热点没毛病,但是你需要蹭对热点,以及在合适的时机蹭,以及怎么蹭都是学问,数据+算法能够解决一部分这些问题,从而帮助自媒体提升创作的效率。

我有幸,能够带着团队做这件有意义并且更落地的事情,而为数据找到落地着陆点,是我们每一个大数据从业者需要思考的问题,我们需要做大数据的布道者、推动者,推动时代往数据时代转变!

05 SEE数平台

最后,为 我们团队正在做的东西打个广告。上面也说了,我们在试图做一个东西,来帮助微信自媒体(或者其他平台自媒体)进行高效的创作。

在昨天晚上7点的时候,我从我们尚未发布的SEE数平台中发现,携程事件估计要火爆微信了,因为虽然在彼时在微信中传的并不算很多(那个点应该说很少很少),但在我们的系统中,该热点的预测潜力已经位居第三了。

Image
Image

然后我在一个群里,提醒我一个做民生类新媒体的朋友。

这个热点可以蹭一下,趁没有大范围传播,估计明天马上会是个大热点,矛盾冲突也足够,适合民生类的。

很多类似的本地号已经在跟进了。

Image

在今天(已过凌晨,应该说昨天上午到中午),这个热点彻底爆了,迅速被刷屏,但在我们的系统中,携程事件的热点潜力已经降下来了,因为,此时再跟进,也就只能喝汤了。

在昨天(9号)晚上7点的时候,我们系统给出的创作评级是:

虽然该热点目前热度较低,但潜力巨大且走势较好,将大概率会持续火爆,建议快速切入,跟进热点。

而在今天中午12点左右,我们系统自动给出的针对该热点的评级是:

该热点已经具有一定的传播规模效应,虽然仍具有一定的潜力,但热点新奇度被压缩,视其影响范围考虑是否需要跟进。

我的系统不止能够捕获热点,预测热点,还有很多其他手段帮助提升创作效率。

  • 捕获热点,小时级更新热点变化情况

  • 预测热点,在热点拐点处进行通知,找到热点切入点

  • 关联事件,还原热点对应的话题事件

  • 解构热点,告诉你热点适合什么类型的公众号,以什么情绪态度进行行文、适合什么粉丝群体,例如年龄、性别,帮你判断是否属于你的热点

  • 提供热点对应的素材,看看别人是怎么写的

  • 提供围绕热点的音乐、视频素材

  • 提供自动化的创作策略,甚至你都不用看其他的,看策略输出就知道要不要跟进了

我们的SEE数平台将于11月20号启动内测,邀请感兴趣的自媒体加入内测,身边有做新媒体的朋友,欢迎介绍,参与内测的自媒体在SEE数正式上线时,将获得3个月的VIP。

有任何感兴趣的,以及有帮忙介绍的,欢迎后台留言找我。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK