35

美团的反爬虫太厉害了,各种下毒😭

 2 years ago
source link: https://www.v2ex.com/t/787555
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

V2EX  ›  Python

美团的反爬虫太厉害了,各种下毒😭

  ifsclimbing · 2 天前 · 7651 次点击
41 条回复    2021-07-07 10:43:56 +08:00

Jwyt

Jwyt   2 天前

具体说下?

lawsiki

lawsiki   2 天前

具体说下?

Jooooooooo

Jooooooooo   2 天前

大公司都是一个大团队专门搞这个

youngce

youngce   2 天前

给美团点赞,最近烦死爬虫了

leido

leido   2 天前

@youngce 美团自己也爬别人

youngce

youngce   2 天前

@leido #5 那就只给美团反爬的团队点赞

Cyen

Cyen   1 天前

没有具体的了?

no1xsyzy

no1xsyzy   1 天前

@youngce 正因为别人反爬技术强,导致反反爬技术越来越强。
假设一个几乎没有人会反爬的世界,那是不是你会点基础的反爬就能把所有爬虫拦截在外了?
所以好像你也不该感谢反爬团队(

kidult

kidult   1 天前   ❤️ 2

正常的用户都跟贼一样防着,别说爬虫了

photon006

photon006   1 天前

用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。

arthas2234

arthas2234   1 天前

矛和盾的关系,打不过就加入

paradoxs

paradoxs   1 天前   ❤️ 1

其实美团完全可以直接让法务部处理的,还是太善良了。

paradoxs

paradoxs   1 天前

最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。

TomVista

TomVista   1 天前

面向牢饭编程.dog

zhengfan2016

zhengfan2016   1 天前

zocome

zocome   1 天前

@kidult #10 淘宝:有被冒犯到

akira

akira   1 天前

只要普通用户可以正常访问,就一定有方案可以爬

pwelyn

pwelyn   1 天前

道高一尺 魔高一丈 继续做对抗

littlewing

littlewing   1 天前

之前看过一个帖子,数字部分用字体做反扒的

Zhancha

Zhancha   1 天前   ❤️ 1

@no1xsyzy 你这逻辑是典型的 zz 逻辑,如果没有黑客是不是所有的系统就安全了。

zjmdp

zjmdp   1 天前

我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽

yangyifan

yangyifan   1 天前

@zjmdp chromeDriver 的 特征 修改了吗?

zjmdp

zjmdp   1 天前

@yangyifan 是下面两个设置吗?
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_argument("disable-blink-features=AutomationControlled")

zjmdp

zjmdp   1 天前

@yangyifan 还有下面这段
self.driver.execute_cdp_cmd(
"Page.addScriptToEvaluateOnNewDocument",{
"source":'''
Object.defineProperty(navigator,'webdriver',{
get: () => undefined
})
'''
}
)

Cielsky

Cielsky   1 天前

@no1xsyzy 什么逻辑啊,反爬技术强说明他们爬虫技术也强啊。

no1xsyzy

no1xsyzy   1 天前

@Zhancha 没有被我绕进去,这很好;但是缺乏一些专(bī)业(gé)性。

coolmenu

coolmenu   1 天前

用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。

Canace

Canace   1 天前

具体说下?

karatsuba

karatsuba   1 天前

@coolmenu 龟龟,每人给一快钱也十万了

yangyifan

yangyifan   22 小时 20 分钟前

@zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。

zjmdp

zjmdp   17 小时 19 分钟前

@yangyifan 我是按网上的写法,直接二进制替换了字符串,看来坑不止这些。

ml1344677

ml1344677   15 小时 55 分钟前

曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。

HashV2

HashV2   1 小时 15 分钟前

@youngce #6 反爬团队和爬虫团队可能是同一拨人

TheBestSivir

TheBestSivir   17 分钟前

美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
起码在美团外卖,很早就不搞爬虫了爬别人了

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK