1

通过视频标题分析国人 xp

 1 year ago
source link: https://www.v2ex.com/t/897558
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

V2EX  ›  分享发现

通过视频标题分析国人 xp

  vigack · 5 小时 21 分钟前 · 3598 次点击

我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。

文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/

61 条回复    2022-11-24 17:33:06 +08:00
LZSZ

LZSZ      5 小时 13 分钟前   ❤️ 2

大大的 X 狗引起不适
eason1874

eason1874      5 小时 6 分钟前

我的印象跟这数据差不多

真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的
hover

hover      5 小时 5 分钟前 via Android

期待再分析下老外们的 xp
Frankcox

Frankcox      4 小时 58 分钟前   ❤️ 1

guro 爱好者路过
hsfzxjy

hsfzxjy      4 小时 55 分钟前 via Android

“眼镜”还是小众
Alexonx

Alexonx      4 小时 52 分钟前

好奇下这是啥网站...俺也想试试
ArianX

ArianX      4 小时 32 分钟前

sleeepyy

sleeepyy      4 小时 31 分钟前

只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
KevinDo2

KevinDo2      4 小时 30 分钟前

标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
GeruzoniAnsasu

GeruzoniAnsasu      4 小时 27 分钟前

有点意思,期待一手各地区 /国家的对比数据
JustSong

JustSong      4 小时 25 分钟前 via Android

图表很漂亮,请问用什么画的呀
LxExExl

LxExExl      4 小时 25 分钟前

楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
cnrting

cnrting      4 小时 24 分钟前 via iPhone

求最后一张原图
vigack

vigack      4 小时 19 分钟前

@sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。
vigack

vigack      4 小时 16 分钟前

@cnrting 搜索 西藏唐卡,排 google 第一位的维基图片就是
ninickck

ninickck      4 小时 12 分钟前

kqij

kqij      4 小时 11 分钟前

身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
vigack

vigack      4 小时 10 分钟前

@KevinDo2 所以标题其实是和观众的 xp 强关联的
HugoChao

HugoChao      4 小时 8 分钟前

vigack

vigack      4 小时 7 分钟前   ❤️ 1

@kqij
我的思路是这样的:
- 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况
- 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好
nu11ptr

nu11ptr      3 小时 50 分钟前

最后一张人皮唐卡让我笑出声 要下地狱了
WOLFRAZOR

WOLFRAZOR      3 小时 42 分钟前

这都能研究,太厉害了
Williamwang

Williamwang      3 小时 42 分钟前

好奇,是 91 吗
quan01994

quan01994      3 小时 41 分钟前

emmm,看来我的 XP 还是小众啊。
Felldeadbird

Felldeadbird      3 小时 28 分钟前

牛逼,这都可以进行数据分析。
retrocode

retrocode      3 小时 19 分钟前

果然嗨丝才是王道啊, 占比那么高
zhangshine

zhangshine      3 小时 16 分钟前

不应该是视频发布者的 XP 吗?
vigack

vigack      3 小时 5 分钟前

@zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。
wanacry

wanacry      3 小时 5 分钟前 via iPhone

xp 是什么
vigack

vigack      3 小时 2 分钟前

@quan01994 关键词的集合是我拍脑瓜想出来的,因此可能遗漏了一些我不知道的 xp 😂
silasamiseaf94

silasamiseaf94      2 小时 54 分钟前

@vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
EthanCYQ

EthanCYQ      2 小时 53 分钟前

@wanacry windows xp (
lamesbond

lamesbond      2 小时 51 分钟前

黑丝高跟😍😍😍
vigack

vigack      2 小时 43 分钟前

@silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。

其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。

最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。
dzdh

dzdh      2 小时 42 分钟前

我要最后一张图的高清大图
vigack

vigack      2 小时 38 分钟前

@dzdh
😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。

原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。
marc2017

marc2017      2 小时 30 分钟前

我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
vigack

vigack      2 小时 23 分钟前

@marc2017 😃中文圈貌似没有比较大的视频网站,推上比较多,我常常的关键词大概是直男、体育生、白袜(什么鬼)
lambdaq

lambdaq      2 小时 20 分钟前

那个年龄,应该是默认年龄分类吧。。
AshenOneOrz

AshenOneOrz      2 小时 15 分钟前

原来是老哥的博客,文章写的真不错
Tanf

Tanf      2 小时 12 分钟前

zek

zek      2 小时 10 分钟前

你分析的是哪个网站
vigack

vigack      2 小时 7 分钟前

@zek 虽然不能明说,不过中文圈应该就那一个“知名网站”吧……
shanyuhai123

shanyuhai123      2 小时 7 分钟前

感觉是最近的关键词,去年的还不是这样 :doge:
vigack

vigack      1 小时 48 分钟前

@shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。

现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了....
daweii

daweii      1 小时 45 分钟前 via iPhone

有意思。
楼主可以考虑把数据放出下载吗。
我也想分析一下。
ThomasKim

ThomasKim      1 小时 41 分钟前

数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
xinyu98

xinyu98      1 小时 40 分钟前

有没有女性向的
jdhao

jdhao      1 小时 33 分钟前 via Android

可视化工具用的哪个
hushs

hushs      1 小时 20 分钟前

有没有考虑做个小工具,我想看一下自己的数据。
hoky

hoky      1 小时 6 分钟前

有意思的尝试。
redtree

redtree      1 小时 1 分钟前

gwbw

gwbw      55 分钟前

针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
vigack

vigack      52 分钟前

@gwbw
我尝试过通过词性进行分词,但是效果不好,还得自己一个个地添加关键词,如果有这方面现成的词典的话就好了。
vigack

vigack      51 分钟前

@LZSZ 考虑到会引起不适,所以我想了想把那张图删掉了
woscaizi

woscaizi      39 分钟前

@woscaizi 我来分享一下之前爬取的一些标题
cnrting

cnrting      33 分钟前 via iPhone

@vigack 不是要原版,是要你这里的🐶
vigack

vigack      15 分钟前

@cnrting
文章里就是原图啊,没有经过压缩,右键另存为就可以了。
不过你可能要的是和 #36 一样的图,我已经在 #37 里回答了……
libaokai

libaokai      2 分钟前


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK