20

中文独立博客的年化“腐烂率”——8%

 2 years ago
source link: https://blog.othing.xyz/archives/chinese-independent-blogs-link-rot-2022.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

中文独立博客的年化“腐烂率”——8%

统计了1000个中文独立博客,我算出了他们的“腐烂率”

数据来源:https://github.com/saveweb/rss-list
总计:965个博客
托管于 Github Page 的博客:182个(不包含使用了 CDN 代理 Github Page 的博客)
腐烂的博客数:113个(不管网站是否删过内容,换过域名,只要博客主体存在,就不算腐烂)
统计持续时间:17个月
中文独立博客定义:
    - 包含:独立域名 和 eu.org、github.io、gitlab.io、gitee.io 的三级域名。
    - 不包含:wordpress.com、网易博客、blogger.com 等的三级域名。

经过简单计算,中文独立博客的年站点腐烂率为8.26% ,换句话说,每年约有8%的中文博客会消失(被其他网站采集,如 archive.org,也算消失)。

以此类推,现在这一批中文独立博客在9年之后,会有 50% 消失(0.9174^8)——半衰期是9年。15年之后,现在这一批中文独立博客将有 70% 消失(0.9174^14)。但互联网日新月异,未来腐烂率的数值是多少谁也说不准。

不过中文独立博客的年链接腐败率暂时难以量化统计(需分析收集到的59447个博文链接,要花上一些时间,有时间我会统计一下),但只会比站点年腐烂率更高。因为很多博客会出现数据库丢失、更换域名、博主主动删除文章、迁移博客程序等一系列导致永久链接失效的情况。所以我主观估计中文独立博客的年链接腐败率在 20~30% 左右。

同时,我们发现越来越多的中文博客选择使用静态博客程序并托管到 Github、Gitlab、Cloudflare 等 Pages 服务上,这一趋势无疑对减小腐烂率有益。且用户友好的低技术托管平台有助于中文独立博客数量的提升(网上一堆静态博客入门教程)。但需要指出的是,选择 Pages 服务托管静态网站本质上和选择 Blogspot、 Wordpress.com 等第三方博客托管平台并无区别,仍然面临平台倒闭或事故导致数据丢失的集中隐性风险(假如 Github Page 现在停止服务,我们将瞬间丢失至少 20% 的中文独立博客)。

而短期来看,自托管(self-host)博客仍然是风险、成本、技术要求较高的选项,比集中化的平台更容易发生链接腐烂的情况。


优质中文独立博客的年化"腐烂率"

「十年之约」项目有较高的博客收录要求 (https://www.foreverblog.cn/treaty.html)。

生活记录类:需已建立 一年以上,并有15篇以上的文章,其中原创文章占 75%以上。
学习记录类:需已建立 一年以上,并有30篇以上的文章,其中原创文章占 60%以上。

所以他们的数据一定程度上能代表高质量中文独立博客的情况。

我从「十年之约」管理员那里得到了他们的数据:

2017-08-31-2022-02-05,总收录量999,异常量149。
注:149个异常博客中有相当一部分是因为网站内容问题被标记异常,而不是网站关闭。

算出来「十年之约」收录博客的年腐烂率为 3.31%,但考虑到异常的博客不一定是关战的博客,且高质量博客有更大概率会“复活”,实际腐烂率会低于计算值。所以,优质中文独立博客的平均寿命比一般博客更长,“保鲜度”更好!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK