37

MLSQL 1.2.0 新增的一些功能(1)

 5 years ago
source link: http://www.jianshu.com/p/3bb7ac280f93?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

excel的支持

我一直期待MLSQL能成为一个真正的数据中台,但是推广一段时间,发现产品和运营体系的同学好像还没有接进来。当然这个有多方面原因,比如用户界面不够易用,对非编程人员不够友好等等。其实最大问题在于,他们发现这个东西没有他们使用的场景,因为他们真正处理的最多的数据格式其实是excel,而你的平台不支持。其次是,一般excel我都是各种渠道搞到的,不会默认在集群上,我需要上传才能使用。但是直接上传到HDFS是不被允许的(安全问题),所以需要一个新的设计来解决这个问题。

有了上传功能(支持目录上传),也有了excel支持,那么比如运营同学弄到了一批用户名,这个时候他想要获取这些用户的邮箱,他可能关联一个信息有限的hive表,mysql表等等,然后写一条join语句就能搞定,并且能够在界面完成邮件发送等等,这样他的工作就都可以在数据中台完成了。

假设我有个目录test2,然后里面有三个文件,一个excel文件:

mURZfaZ.png!web

image.png

我可以把整个目录上传上去:

rq6VvuR.png!web

image.png

现在显示成功:

qMFJnmJ.png!web

image.png

这些文件其实是被上传到了web服务器的一个临时目录里,如果希望在MLSQL中使用,你需要再下载下来,用户只能下载自己上传的文件。因为这里我没有配置用户主目录,所以用户可以自己指定目录:

AVRvQfB.png!web

image.png

我们看到数据被上传到了hdfs的/tmp/jack目录里。接着我就可以加载excel数据了,当然,你还可以报结果保存成excel文件,之后把Mail ET把结果通过邮件等发送出去,从而通过一个简单的脚本完成一个完整的流程。

nEjUvaQ.png!web

image.png

流式计算更好的图形化支持

流和批都被统一成了相同的任务,可以通过 mlsql . jobs 查看:

NjaYR3z.png!web

image.png

你可以看到流的进度详情:

iymEfyy.png!web

image.png

当然我这都变成直线了,因为没有数据持续进来。

点击RawData标签,可以看到每个周期详细信息:

r2QFJva.png!web

image.png

资源占用更好的图形展示

当你运行一个复杂的任务时,你可以实时看到这个任务的资源消耗以及进度。

yyYVRnz.png!web

image.png


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK