1

从seo原创策略聊到短视频内容:瞬间量产1000个原创

 2 years ago
source link: https://zhuanlan.zhihu.com/p/389391574
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

从seo原创策略聊到短视频内容:瞬间量产1000个原创

前言

用宏观的角度思考内容,为内容制定一个标准的框架,进而可以打造一条内容生产的“流水线”。

问题

随便在某个关键词挖掘工具里拓展一批“seo 原创”的长尾词可以发现,“伪”这个字眼占据了总词数50%以上的频次。

可以发现,其实很多人并不真正理解搜索引擎眼里的“原创”。

大部分刚入门的seoer总爱寻找“优质伪原创”工具,然而即使伪原创可行,直到目前为止市面上也基本没有好用的工具。


网站seo需要大量新鲜内容,海量长尾词流量更需要大量“优质内容”来承载,怎么凭空“变”出内容是考验seo人员能力的重要标准之一。

观点

在聊具体的seo原创策略之前,我们先来明确几个观点。

1:为什么说很多寻找伪原创工具的seo人员并没有真正理解原创呢?

首先,“内容”并非只指文章,图片、视频、音频、文件,这些都是内容,所以原创内容并不意味着要整一篇别人没有看过的文章出来。

v2-29cb3aed2ca495c296cb5d84c4a5fbc9_720w.jpgv2-765920f06d2705969a77174f314e6528_720w.jpgv2-ea55b42d11b5fbaf11d61042f4c7f493_720w.jpgv2-74487aaa9a9fcad7c1f0cefdd594b623_720w.jpg

其次,我们一般认为原创的主要对象是页面里的“主体内容”,但其实“主体内容”也不一定是具体某个内容(文、图片、音视频),它可以是一片信息的组合:

最后,在搜索引擎眼里,“原创”背后的目标应该是“有价值的新页面”,这包含页面的各个角落,各种元素,而非只看页面里的“主体内容”。

2:比大量同质化页面更伤害用户的是狗屁不通的文章

我们可能在搜索结果里会看到一些同质化很严重的排名页面:

甚至他们的“标题”和“主体内容”根本是一模一样的,这是多家站点采集的结果。

但这对搜索引擎和用户来说,影响不大,因为有你需要的就好,搜索引擎可以根据策略选择收录或丢弃,收录之后可以选择隐藏或展示。

但如果搜索下去,经常看到的是一大批“狗屁不通的文章”:

我们可想而知用户的搜索体验,这是搜索引擎需要竭力避免的事情。

因为用户“更换搜索引擎”这种行为,是更换所有互联网产品里最不需要成本的行为了。

日常生活中我们在搜索百度谷歌时,搜到那些“伪原创”、“近义词替换”、甚至用AI写的“狗屁不通的文章”的比例我们自己可以评估一下,频率应该是很低的。

3:辛苦原创却不被收录、排名不靠前,这不要委屈

原创,是搜索引擎的手段,但不是目的,搜索引擎的目的是把人和信息正确连接起来。

用户根本不在乎这个让ta受益的内容是不是这个站长独家的,如果内容没能满足用户的检索需求,用户第一个骂的不是站长而是搜索引擎。

所以搜索引擎不为原创负责,它只为用户需求负责。

其次,很多东西也根本没办法要求原创:

做一个“天气预报”网站:

要是数据都跟其他人不一样,不用想,一定是我们错了,这东西的数据来源大家都一样。

“贝多芬第N交响曲 曲谱”:

这东西用户要找的就是贝多芬写的那一份,搜索引擎总不能为了原创要我们现编一段吧?

如果我有一份自己瞎编的曲谱,说是贝多芬交响曲,搜索引擎因为我是原创,所以给我更好排名,然后把正确的曲谱往后靠?这合适吗?

最后,还得考虑饱和度,天气预报,这东西大家都一样,有几个权威的可以给用户看即可,搜索引擎何必收录这么多同样服务的站点,即使收录也不一定要有排名。

其他也是一样的,当某类内容搜索引擎当下数据库里已经有足以应对用户搜索的数据之后,就没必要再收录太多同样的网站,有些事情基本是有标准答案的,新的再来也是一样的内容。

4:不是原创也没关系,不是原创不代表就是错误的

你做曲谱站,我也做曲谱站,几大名家的那些作品曲谱都一样,凭什么你发布了就好像原创,我发布了就好像采集?

歌词、图片、音乐等,还有很多也是同理!

所以,复制没关系,只要我们会整合资源,使资源可以满足用户需求的同时还能提供其他附加价值就可以。

5:关于原创度

这几年时不时会听到这个,我认为不存在什么原创度的概念,检测更是无从说起。

关于这一点,首先技术上我就很怀疑,毕竟你要计算一个“度”,你就需要大量的样本,数据才是科学的。

其次搜索引擎不可能去给内容计算这样一个数值,难道原创度60%的文章就比原创度55%的文章来得优质?

ps:有兴趣的朋友可以去了解下搜索引擎几种网页去重的算法。


综上,面向搜索引擎创造内容,应该把内容视为一种待检索的价值资源,基于此,在“创造原创”的这个问题上,思路就变得很宽了。

所以,我们现在的方向应该是:基于对搜索引擎原创的正确理解,大批量创造出“具有检索价值的新页面”。

策略

以下方法仅我个人过往经验,根据行业不同,方法有其适用性,仅供参考,发散思维!

策略1:挖掘具有变量属性的同质需求

这个东西有些抽象,不太好描述,我举一个例子:

福建XX大学简介

从这个关键词我们可以看到“福建XX大学”,这是一个变量,由此我们可以联想到:

XX大学简介

那么全国有多少大学、大专、学院,甚至高中、职专,我们就可以罗列出多少个同质化的需求,因为有人搜索A学校的简介就必然会有人搜索B学校的简介,任何事情在达到一定量级的情况下必然都会出现规律

既然用户搜索大学简介,我们可以针对性的“炮制”一张页面出来。

首先我们要知道想了解一个大学,需要哪些信息,如果不知道可以看看那些大学官网即可,又或者竞品网站、关键词挖掘也能分析。

这里只是举例,所以不深入探讨,大概我们知道关于一个学校有这些属性:

名称、简介、专业、师资、场地、报名相关简章等,甚至每个学校有自己的动态、资讯、评价。

那我们就可以为每一个学校制作这样一个页面:

随意画了一个原型,我们其实可以看到这是一个“制式”的页面,是格式化的,按照一定标准的,里面的每个区块都是变量,根据具体学校而变更。

这样一个看似首页的页面,其实就一个单页,它的特点是:

有多少个学校,就可以人为创造出多少个这样的页面,我们只需要让相关人员去把数据收集到位,给产品下需求,让技术按照规则展现出来即可。

这样一个页面,它能说是抄袭谁的吗?显然不行,有没有价值?当然有,更不存在刻意“伪原创”的情况。

我相信看到这里有些朋友会发现生活中其实有很多类似的需求,比如:公司

XXXX网络科技有限公司

这个搜索词放到百度里,我们可以看到常见的“天眼查”、“企查查”、“启信宝”、“爱企查”这些网站,页面大概都是这样:

不过百度自己推出“爱企查”后,其他同类产品排名就靠后了。

公司,跟学校一样,它会有很多属性,把这些属性整合到一起就是一个页面,而根据公司不同就可以创造不同的页面。

说到底,这是一种 种类对象,随着时间的推移会人为的出现越来越多的名词,这些千千万万的名词会和其他固定词缀组合成同质需求,形成海量的长尾流量。

我们要做的就是挖掘出这种流量来(如果有),再针对性的制作出“格式化”的页面,这类页面永远都有新内容可以更新

我在前几年有接手一个网站,就是挖掘到竞品有这样一块流量占比很大的页面,我们如法炮制,大概有上万个对象词是在首页,每天这个版块带来了3000+IP(大概吧)。

这种流量的特性是长尾,内容好生产,单个竞争低,量大,有很多网站都有这样的流量,比如58、赶集这类网站。

城市 + 小区名称 + 房源

这就可以组合出非常多的长尾词,全国有多少小区名称可想而知。

如果说我们的行业不存在这样的流量,那就可以考虑第二种方案。


策略2:根据搜索词批量创造页面

http://www.youku.com

这是优酷官网地址,把它拿到百度里搜索,可以看到:

而这个页面其实就是爱站里搜索目标域名“综合权重”的页面:

这个页面的固有地址是:

https://www.aizhan.com/cha/www.youku.com/

https://www.aizhan.com/cha/ 是固定的,后面部分就是我们检索的目标域名,在这里其实就是爱站这个搜索框当下的搜索词。

它的标题也是固定格式:

http://www.youku.com的综合查询_优酷 - 这世界很酷_爱站网

域名和标题是变量。

也就是说这其实就是一个搜索结果页面,用户在百度搜索的具体某个网址,对爱站来说都是一个个长尾流量词。

那么同样的:域名何止千千万?

有多少个域名,爱站就可以有多少个这样的页面,甚至不需要等用户搜索,不需要等百度发现抓取,爱站的流量负责人只需要让技术导出一份现有数据库里存在的域名,然后:

https://www.aizhan.com/cha/

批量与这段链接结合,直接把这批链接通过sitemap或接口提交给百度即可,好处在于:

每发现一个域名,对爱站来说都是新增了一个页面,这个页面里展现的是爱站自己产品设计出来的关于网站的各种信息,原则上来讲:每一个页面都是原创,而这一切都是自动化的。

可别看网址平时几乎只有站长自己查,且不说还有个别其他人,千千万万的网址本身就是一批恐怖的长尾流量,很多腰部以下的站点,搜索下去在首页都能看到爱站身影。

而且爱站网这个产品里,还有很多其他搜索框,也是一样的形式,也就是说爱站本身根本不生产任何文章,就是靠数据库里的数据以各种形式组合成千千万万的页面。

这种策略在效率上就天然的对那些辛苦原创的网站形成降维打击,没人规定信息的形式一定是一篇文章


但是这有一个问题啊,就是爱站的很多搜索是以网址作为“搜索词”的,搜索结果是以具体目标网址的相关数据为结果呈现,属于精准且单一。

那么就会存在一个情况:爱站数据库本身必须有收录过这个网址,才能查询到结果数据,反之这个页面就不应该存在(想存在也可以)。

这种情况下尽管网址有千千万,但没有的数据你不能乱上,所以理论上这有局限性(理论上,事实上爱站或5118这类工具现有的数据是很庞大的)。

这就要引来另一种形式:

爱站的这种精准且单一的搜索形式对应着另一种形式:模糊且复杂,典型的就是百度这类搜索引擎。

它们不是以目标网址,而是以短文本作为搜索词,短文本可以分词并对目标数据进行模糊匹配,呈现出来的结果一般是一条以上的。

这里我们以5118的长尾词挖掘工具作为例子:

下面这条链接是这个页面的:

https://www.5118.com/seo/newwords/b125f935f6l56l37l/

同刚才一样,前面一段是固定格式,“b125xxxxxx”这段就是对应的搜索词,在数据库它们可能是ID或者经过编码的字符串,不重要,总之与搜索词是一一对应的关系。

我们看下面的搜索结果:

首先这是多条的,搜索下去可能匹配出一条,也可能匹配出几十万条,更可能匹配出0条(请注意,尽管是0条,原则上它也可以是一个页面,只要你愿意)。

其次它是模糊的,不是像爱站查询网址那样非0即1的结果,也就是说大概率可以查询到一些结果。

那么我们把这里的搜索词换成上面的网址,道理其实是一样的:我们可以找到多少长尾词,就可以批量生成多少个“长尾词搜索结果页面”,这又是一个个原创页面,然后把这些页面链接提交给百度即可。

ps:有些网站的搜索结果数据的加载方式可能是ajax的,那样搜索引擎会看不到。

之后流量能不能上来,要看长尾词搜索量和排名竞争程度,但这样做了之后5118这个网站在第三方站长工具平台里的“权重值”大概率会快速上去。

因为这些站长工具平台统计流量的方式是依据词的搜索量和具体排名位置来计算预估流量和权重值的,我们把这些批量生成的页面提交给百度并被收录后,那些搜索量极低的长尾词一般就可以查询到排名(也就是虽然不一定有人搜索,但你搜索会看到)。

一下增加这么多长尾词排名,这些工具在批量查询时会发现,在更新“权重值”和“预估流量”时就会因为这些新增数据导致计算结果被拉高,尽管真实流量可能没有那么多。

ps:以前就有这样的套路,自己编一个词,花50块给它买个百度指数,不停刷,把指数刷高,而这个词没人跟他竞争,所以它一定排第一,爱站这类工具统计到后,结合两者数据就以为网站会获得很大搜索流量,然后权重值升高,再把这个给不懂的人看,高价卖。

我们试想一下:5118是一个全行业长尾词挖掘平台,同时是一个有着亿万长尾词数据的平台,也就是说任何词都可以作为这个搜索页面的流量词,它不存在什么产品业务上的限制,任何词大概率都可以在这个工具里搜索到类似词。

只要他们愿意,可以分分钟根据不同长尾词生成各种各样的页面提交给百度,这个量级可以是百万级千万级,这就一下子又这么多的原创页面了。

当然5118还是有产品操守的,他们不一定这么做,做了也不一定什么垃圾词都做,但是一些专做垃圾站群的网站就不一定了。

大批量采集目标领域的各种文章作为底层数据,大批量挖掘目标领域的各种长尾词,然后用长尾词搜索这些文章匹配出一堆页面出来去竞争流量。

总的来说:我猜想5118长尾词挖掘这个版块的页面的搜索流量应该在整个网站里是占比比较高的。

最后,对于搜索结果是0的页面,如果我们仍然希望展示给用户(事实上很多网站就是这么蹭流量的,大量根本没有结果的页面),作为seo人员,应该考虑什么策略来应对呢?这个问题留给大家思考。

现在,如果我们的网站没有提供搜索引擎呢?


策略3:聚合页面

聚合页面,可能很多人都听过,有些会叫专题页面、标签页,意思差不多。

所谓的聚合页面,避免一些基础薄弱的朋友不懂,这里简单说下逻辑:

假设我们的网站数据库里有一批减肥相关的文章数据,既然是文章就有标题,这个时候我们挖掘了一个关键词:减肥健身操教程

然后把这个词拿到数据库里查找文章,可以找到:

这样一个页面就聚合了“减肥健身操教程”这个长尾词的很多相关内容,由于是通过检索匹配得到的,所有这些数据标题都会命中目标长尾词的词根词缀,这就跟上面的策略2的结果其实是一样的。

这样一个以目标长尾词为主词,内容高度相关的专题页面去参与排名时会相对有竞争力。

有时候出于技术原因或产业架构,我们的网站不一定给用户提供搜索框,这个时候就没办法按照上面的方式来新增页面。

但其实本质上,搜索不过就是前端提供一个搜索框,后台把数据返回到前端而已,所以即使没有搜索框,我们也可以在后台把这个事完成,再把结果页面显示出来即可,效果其实是一样的。

seo人员只需要挖掘长尾词、策划页面结构再提交给产品技术生成即可,最后把链接提交给搜索引擎。

其实聚合页面我们平时在搜索时会经常见多,如果有技术的朋友会发现典型的有:csdn、脚本之家、腾讯云社区、阿里云社区,这些让人有些讨厌的站点。

这就是他们的聚合页:

https://www.csdn.net/tags/MtzaggysMzg1NDAtYmxvZwO0O0OO0O0O.html

tags,标签的意思,就是聚合页面的链接目录了,后面那串字符就是关键词编码后的。

我们可以从爱站看到tags这个目录的排名数据:

这还只是爱站统计到的排名top数据,还有更多没有统计到的,这些词都在首页,大大小小的长尾词贡献着各种流量。

csdn有海量的技术相关文章,技术类的关键词又是非常复杂的各种组合,所以他们可以挖掘很多长尾词生成很多这种页面,可以看到它的标题只有对应长尾词,就是为了给它最大的权重参与竞争。

但老实说,这种页面的价值有待商榷,可以说这是面向搜索引擎制作的页面,用户能不能从这些页面里找到目标内容不好说。

csdn还算好啦,腾讯云社区、阿里云社区(我一下找不到)更可恶,经常是一些不相干的结果,整个页面就一个长尾词是刻意做的。

在你因为一些技术问题(没办法,比较菜)百度谷歌苦苦找不到结果时,它们时不时跟你出来凑热闹,点进去啥也不是。

接下来,如果你的网站没有那么多的数据量呢?


策略4:媒介转移或二次创作

这点其实很好理解,对内容进行传播媒介的更换,但是有一点是要注意版权风险,尽量不去做会侵犯别人给自己带来法律风险的内容。

并不是每个行业都有海量数据、结构化的数据可以运营,当我们在数据量上没有优势的时候,那就要考虑如何把一些现有行业数据适当的二次创作,形成新的有价值的数据。

有些朋友看到这点,那不就是伪原创嘛!

可以这么理解,但是不同于传统意义上的替换词语、更换段落这些骚操作,而是在现有数据的前提上增加不一样或更多的价值。

这次之所以会写这篇文章,是看到了生财有术一位叫“刘小排”的老师,也是一位行业老玩家了,他在生财分享了一篇seo原创内容的制作策略。

挺有意思的,而且你会觉得他分享的方式很科学化,比如:

利用国外大站官方api接口获取海量数据、对有相关协议(比如无商业限制)的数据做优化、利用GitHub的新型技术改造多媒体文件形成新的内容等等。

这些方式都是健康的、科学的方式,同时避免了法律问题,相对来说我们早年在做类似操作时都是比较粗暴的,不会考虑那么多。

这里列举一些建议的方式来给大家发散思维,所谓的媒介转移:

视频内容 -> 文字,或反过来

音频内容 -> 文字,或反过来

图片 -> 文字,或反过来

文档 -> 文字,或反过来

翻译:国内外文字互译

这是几种比较常见的,可以这么做的原因是:在技术层面上,很难去分析原创与否,因为机器甚至不一定能正确识别多媒体文件的所有信息。

这么做并不仅仅只是搬运而已,撇开版权来说,实际上这也是一种内容优化过程。

比如视频相对文字来说,看起来会更加轻松,但是对于急切寻找信息的人来说,无疑文字内容更容易快速获取需要的信息。

一堆难以理解的文字,可能用图片 + 注释的方式更合适表达,所谓一图胜千言。

我们也不是时时刻刻都有兴致看很多书籍,把他们用音频的形式表达出来,这就出现了喜马拉雅这样的APP。

至于英文不懂翻译成中文这样的需求在很多时候更是直观且刚需,只要我们能解决版权问题,或者避免掉版权问题,这样的操作都有价值和意义。

我们还可以在过程中增加一些元素,使内容表达更有价值,比如一篇难以理解的文章,我们在转移成视频时可以在适当位置加入更多的解释或理解,一篇段落混乱的文章我们包装成一份样式鲜明的文档供别人下载等等。

上图是csdn的一个文档付费下载页面,偌大一个页面,其实只有这一小块是主体内容,也就是这个页面的核心价值。

问题是:搜索引擎根本不可能知道文档里的内容是什么,这对搜索引擎来说就像一个资源下载页面,是原创吗?不好说,起码不能确定是伪原创。

而最大的问题在于:很多人会认为页面的信息越丰富越有价值,其实不然,信息的价值是相对的,信息的价值和体量无关,就像战争时期,一句话只有几个字,却可以卖几个亿,本质上信息的价值在于需不需要。

对搜索引擎来说,是把人和信息正确连接起来,不管这个信息是什么形式、多大多长,只要是ta需要的就是好的信息。

所以对有需要的用户来说:这依然是一个高质量页面,那么有多少个文档是不是就有多少个页面。


媒介转移应该是很多人都会干的事情,只不过在做的过程中经常是简单粗暴的搬运,不考虑平台规则和用户体验,没有做一些适当的优化。

这里也顺带说一下采集:

采集其实没关系,这个事吧,在搜索引擎面前或多或少有些“窃钩者贼 盗国者侯”的意义,采集一点点数据,不过就是一个采集站。

但是当你采集的数据量已经是行业top前的大站,这个行业的数据你基本都有,涉及到的需求你基本都能有合适内容满足,那意义就不一样了,搜索引擎不得不考虑你的价值,因为你能稳定、全面的贡献内容。

这也是诸如:脚本之家、个人图书馆、一大堆文档站会存在的原因。

即使知道我们是一个采集站,除了特别算法以外,一般情况下搜索引擎也不会针对我们,谁也不知道其他站什么时候随时不能访问了,我们还能替补一下,反正不损害搜索引擎的用户体验。

当然了,如果我们在采集的过程中能够更好的结构化数据、更好的链接相关的资源,那是最好了。


二次创作其实也差不多,比如生财那位刘小排老师举的几个例子:

给图片做一些风格转化、抠图、添加描述标签等。

比如我认为:

给视频优化质量、给音频调不同风格的音调、给图片大小质量做优化、给文档做一些格式处理等等,亦或是这些操作的组合搭配。

最后,所有的媒介转移或二次创作,一定要尽力建立在机器自动化的前提上,这样才能看到规模效益。

策略5:花钱

在正确理解了行业内容,对站点的变现方式有了正确的方向,那么付费生产原创内容可能是最正确的方式。

无论如何,在当下环境下,搜索引擎能够收录到的高质量原创总是少的,如果一个站点可以源源不断生产原创,那它只需要配合一些基本的seo优化手段,就应该可以带来不错的流量。

重点是:思考现在搜索引擎相对缺少的内容,这需要一些数据统计辅助分析。

花钱生产原创的成本其实没有想象的高,毕竟只是原创,没有要我们写高考作文,市面上的写手千字不要太便宜。

对比网站后期可以带来的价值,这笔投入其实是一次性的,会在后面慢慢抵消掉。

延伸

梳理了一些常见的内容生产策略,那应该来实际应用一下。

带着这些思维,在下一篇文章里,我简单来演示一个批量创作短视频的案例,这个案例是因为目前已经有看过抖音上挺多人做出了不错的账号,所以我用自己的方式来生成视频试试。

这个演示是想给大家一个参考,明白如何理解内容,什么样的整合才是有效的,应该怎么借用工具。

ps:根据撰写情况,可能考虑付费。

最后,有些朋友可能是公司里的seo人员,上面聊到的一些方式会感觉好像不能用,这是因为受限于公司业务和产品框架,很多时候seo人员没办法擅自更改。

毕竟老板总是会给你一个词叫你凭空变到第一名,然后什么都不提供。

但是,这也没办法,为什么seo会慢慢消失在公司里,很多时候就是因为各种限制,上述策略更多是面向自己运营的站点,可以随心所欲做测试。

另外想运用这些策略整改却没有方向,很多时候可能是自己还没有收集足够的数据,没有发现目标行业里特殊的那块流量。

说到底,我们要想办法生成与众不同的内容,同时要明白站在技术或平台的角度,什么内容是与众不同,什么内容可以理直气壮的相同。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK