10

原语云 - 一台超级计算机梦和Filecoin的火花

 2 years ago
source link: https://www.r9it.com/20210707/yuanyu-cloud.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

原语云 - 一台超级计算机梦和Filecoin的火花

一个人最大的幸运,某过于在他还年富力强的时候发现了自己使命。--茨威格

本文转载于原语科技 CEO 在原语云平台上线那天写个原语全体员工的一封信,首发于原语公微信服务号。

一个长假回来后,陆陆续续的和合伙人Rock布置了下办公室,各自把自己的电脑搬到了办公室,买了个会议桌,旁边摆了把吉他就开始了原语的运营之路。 经营不到一个月迎来了第一批的种子用户,产品还尚在上线的最后流程,有的客户就已经给我们支付了一个季度的产品使用费,也有之前互联网/AI创业旅途中接触过的一些资本投来了关注和青睐,感恩你们的选择和信赖。

image-d95fca0d0e354e3422b18085cdfa5bee.png

作为原语云的创始人和CEO,在此写下这个故事的来源、伊始以及TA的发展和目标。

一、梦想的萌芽

12年暑假,退学之后,我在自己的工作室痴迷于NLP技术的学习,那会从网络上爬了400多GiB的网页文本数据,准备构建一个模型对其中的文本进行聚类。 那会我有一台2核4G的台式机以及一台2核4G的Acer笔记本,以及差不多10台给学生上课用的台式机,我写了个聚类程序用了差不多一周的时间才让我的台式机完成这400多GiB数据的计算, 因为内存不够我不得不让我的程序反复将计算后的数据写入用了2年多的机械硬盘里面然后又将结果载入到内存进行下一轮计算,慢得失去耐性的冲动让我第一次有了这个想法:

“能否写一个系统让有计算能力的硬件都连接起来,合并他们的计算和存储能力组成一台超级计算机呢?”

二、机缘巧合的alpha版本

18年我机缘巧合的加入了星际鑫航,当时我的主要工作就是写一个系统监控大量的服务器以确保这些机器是在正常的工作或者通知机房管理员哪些机器有问题让他们去处理上线。

当时也不知道要做成什么样,同事建议直接用PHP或者Python之类的脚本读取一下系统参数推送到服务器进行一下展现就好了,也有建议使用Zabix的。因为这个系统是为后期的Filecoin集群管理开发的,那会Filecoin还在测试阶段,主网上线还遥遥无期,经过我一番思考,我决定不再控制我的大脑,让其自由发挥。

不到一个月我就完成了第一个版本,用C语言写了一个客户端,用PHP写了web管理层,结合Java补足持久化通信以及数据结构化的计算服务。每台服务器向console注册自己并且定时推送统计数据,console做数据存储、分析和展现。

第二个版本我给客户端嵌入了Bash和Lua脚本引擎,方便console推送Bash和Lua代码让其执行,这样可以给注册的机器批量推送代码去执行并且返回计算的结果到console进行反馈和分析,为了方便后期功能的扩展我顺便给客户端增加了一个自动更新的功能。

第三个版本为了让推送的代码服务能够产生更灵活的计算我对嵌入的Lua语言进行了扩展,增加了进程管理、HTTP、JSON、HASH计算、信号捕获处理等很多的功能函数,还引入了本地so扩展以及远程包管理机制便于实现类包管理和动态的功能扩展,为了便于在线编码集成了一个简单的IDE便于lua语法的基础检验。

第四个版本我在console增加了应用中心,可以在云端直接创建应用,然后批量的部署到海量的服务器并且进行启动、更新、停止和卸载等基础管理,第一次实现了AasS(Application As Service)。

第五个版本我计划将嵌入一个 Map/Reduce 分布式计算模型,以流程图的形式绘制计算逻辑然后使用lua生成任务的拆解逻辑,便于对管理的机器进行大型任务的自定义拆解和并行计算,最后再实现计算结果的自动聚合,无奈于一些现实问题,这个版本就被搁置了。

后面我将星际鑫航的 Filecoin 的方案以应用的形式刻在了这个系统的应用中心,也得利于这些技术的沉淀,在“太空竞赛”期间我和 Rock 两个人管理了近10个集群参与比赛, 也获得了还不错的成绩,其中最大的一个客户有近200台机器参与,一边改lotus的代码一边管理集群,我们还能空出一些时间弹琴说笑。机器的初始化,部署和版本升级等这些最费力的重复工作,我们只需要多单击几次鼠标就可以了。

三、旅途的开始和目标

从星际鑫航离职后,纠结了很久是否将之前累积的AI纳入原语云、最后还是觉得轻囊方能远行。用了一个月的时间我完成了核心产品的第一个版本的开发, 除了那些用到的开源的组件、我重写了之前写过的全部的核心代码,保留了之前类似的体验形式、将核心基础产品取名为 QarkOS:“一个轻量级、可视化、可编程、智能化的硬件资源管理平台,可对海量的不同体系的硬件资源进行统一的监测、高效的管理和调度”, 并将Filecoin集群的一站式云平台作为第一个商业落地解决方案,目标是降低Filecoin参与的成本和技术投入,提供Filecoin的集群方案/代码优化/可视化管理/应用生态等一站式云解决方案。

image-0420c71cdbe28f4342e2ca7aa50b4c0c.png

四、为什么先是Filecoin的云解决方案?

作为一个互联网、机器学习和人工智能的工程老兵,加上17年年底刻骨铭心的炒币经历让我对区块链曾经一度不屑。入行区块链几年了我还是如此的想法,区块链行业频率最高的商业模式就是销售矿机和云算力,我用了两年多的时间才理解接受这个模式,这是行业的发展规律,任何一个行业初期估计都是如此,都必先会被资本轮割几番后才会开始行业基础的沉淀和技术落地的探索。

真正让我放下对区块链行业的偏见还是之前团队对IPFS读写性能的对比测试以及我对Filecoin源码的深入研究,我发现他们确实在很认真的为区块链存储落地做准备。

Web 3.0确实在逐步兴起,就拿3.0的分布式存储来说,未来存储需求的供应不再是Google Cloud或AWS等的对象存储,而是一个开放的基于区块链共识的市场,任何个人和企业都可以以矿工的角色参与其中转身为一个对外提供存储服务的供应商,数据的验证以及交易的细节全部交给共识程序自动维护,任何个人和企业都可以从中购买存储空间存储自己的数据。

无论是分布式计算还是存储,要工程落地都离不开行业基础的沉淀,原语云将专注于web 3.0的基础云平台建设,提供硬件资源高效、可视化的管理和调度,先降低矿工的参与成本尤其是琐碎的技术运维投入,同时将为原语云上管理的全部的Filecoin集群提供统一的落地技术实现和行业对接,真正去打造一站式解决方案。

目前原语云的1.0版本即将上线,只要给你的服务器都安装上原语的客户端,登录原语云即可以可视化的方式远程的部署和管理你的Filecoin集群,还能直接无缝的使用我们久经战场的集群方案和深度优化过的lotus代码。丰富的应用,自动化的配置,可视化的批量安装/更新/停止/卸载让Filecoin大型集群的部署和管理从所未有的简洁方便;实战中的lotus代码优化沉淀,智能质押调度、PC1/PC2/C2计算加速、PC2/C2多卡并行、时空证明/爆快证明/worker管理分离的分布式多miner方案。多维度的可视化监控面板和警报推送让集群管理更为高效简单。

image-597377c677cfd6cc022fe4bbcf14735d.png

千里之行,始于足下,梦想已经扬帆起航,随喜有缘者携手同行!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK