通过视频标题分析国人 xp
source link: https://www.v2ex.com/t/897558
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。
文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/
LZSZ 5 小时 13 分钟前 2 大大的 X 狗引起不适
|
eason1874 5 小时 6 分钟前 我的印象跟这数据差不多
真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的 |
hover 5 小时 5 分钟前 via Android 期待再分析下老外们的 xp
|
Frankcox 4 小时 58 分钟前 1 guro 爱好者路过
|
hsfzxjy 4 小时 55 分钟前 via Android “眼镜”还是小众
|
Alexonx 4 小时 52 分钟前 好奇下这是啥网站...俺也想试试
|
ArianX 4 小时 32 分钟前 |
sleeepyy 4 小时 31 分钟前 只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
|
KevinDo2 4 小时 30 分钟前 标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
|
GeruzoniAnsasu 4 小时 27 分钟前 有点意思,期待一手各地区 /国家的对比数据
|
JustSong 4 小时 25 分钟前 via Android 图表很漂亮,请问用什么画的呀
|
LxExExl 4 小时 25 分钟前 楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
|
cnrting 4 小时 24 分钟前 via iPhone 求最后一张原图
|
vigack 4 小时 19 分钟前 @sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。 |
ninickck 4 小时 12 分钟前 |
kqij 4 小时 11 分钟前 身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
|
HugoChao 4 小时 8 分钟前 |
vigack 4 小时 7 分钟前 1 @kqij
我的思路是这样的: - 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况 - 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好 |
nu11ptr 3 小时 50 分钟前 最后一张人皮唐卡让我笑出声 要下地狱了
|
WOLFRAZOR 3 小时 42 分钟前 这都能研究,太厉害了
|
Williamwang 3 小时 42 分钟前 好奇,是 91 吗
|
quan01994 3 小时 41 分钟前 emmm,看来我的 XP 还是小众啊。
|
Felldeadbird 3 小时 28 分钟前 牛逼,这都可以进行数据分析。
|
retrocode 3 小时 19 分钟前 果然嗨丝才是王道啊, 占比那么高
|
zhangshine 3 小时 16 分钟前 不应该是视频发布者的 XP 吗?
|
vigack 3 小时 5 分钟前 @zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。 |
wanacry 3 小时 5 分钟前 via iPhone xp 是什么
|
silasamiseaf94 2 小时 54 分钟前 @vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
|
lamesbond 2 小时 51 分钟前 黑丝高跟😍😍😍
|
vigack 2 小时 43 分钟前 @silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。 其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。 最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。 |
dzdh 2 小时 42 分钟前 我要最后一张图的高清大图
|
vigack 2 小时 38 分钟前 @dzdh
😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。 原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。 |
marc2017 2 小时 30 分钟前 我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
|
lambdaq 2 小时 20 分钟前 那个年龄,应该是默认年龄分类吧。。
|
AshenOneOrz 2 小时 15 分钟前 原来是老哥的博客,文章写的真不错
|
Tanf 2 小时 12 分钟前 |
zek 2 小时 10 分钟前 你分析的是哪个网站
|
shanyuhai123 2 小时 7 分钟前 感觉是最近的关键词,去年的还不是这样 :doge:
|
vigack 1 小时 48 分钟前 @shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。 现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了.... |
daweii 1 小时 45 分钟前 via iPhone 有意思。
楼主可以考虑把数据放出下载吗。 我也想分析一下。 |
ThomasKim 1 小时 41 分钟前 数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
|
xinyu98 1 小时 40 分钟前 有没有女性向的
|
jdhao 1 小时 33 分钟前 via Android 可视化工具用的哪个
|
hushs 1 小时 20 分钟前 有没有考虑做个小工具,我想看一下自己的数据。
|
hoky 1 小时 6 分钟前 有意思的尝试。
|
redtree 1 小时 1 分钟前 |
gwbw 55 分钟前 针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
|
libaokai 2 分钟前 |
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK