專注高難度數(shù)據(jù)采集,精通JavaScript逆向(AST反混淆/WebAssembly解析),24小時(shí)內(nèi)破解京東動態(tài)Token、抖音X-gorgon簽名等加密體系。獨(dú)創(chuàng)瀏覽器指紋模擬技術(shù),對抗Canvas/字體檢測,有效請求率保持95%+。構(gòu)建分布式代理池與智能調(diào)度系統(tǒng),日均處理千萬級請求,支持B站彈幕、抖音直播等實(shí)時(shí)抓取,延遲低于300ms。自研自動化爬蟲框架,集成動態(tài)規(guī)則解析、流量偽裝(TLS指紋修正/鼠標(biāo)軌跡模擬)及異常自愈機(jī)制,數(shù)據(jù)準(zhǔn)確率超99%。長期穩(wěn)定突破主流平臺反爬策略,存活周期60天+,適用于電商價(jià)格監(jiān)控、輿情分析等場景,技術(shù)閉環(huán)覆蓋采集至清洗全流程。
3天完成Hadoop+Spark大數(shù)據(jù)可視化平臺搭建,支撐日均TB級數(shù)據(jù)處理,通過Kafka實(shí)時(shí)采集、Superset可視化實(shí)現(xiàn)毫秒級響應(yīng),提升業(yè)務(wù)決策效率30%+。專注高難度逆向工程,24小時(shí)破解京東動態(tài)Token反爬體系,采用AST反混淆+分布式集群技術(shù),實(shí)現(xiàn)百萬級商品數(shù)據(jù)毫秒級捕獲,解析準(zhǔn)確率99%。累計(jì)攻破B站protobuf加密、抖音X-gorgon簽名、豆瓣IP檢測等200+個反爬案例,自研智能爬蟲框架支持動態(tài)規(guī)則解析,日均穩(wěn)定采集千萬級數(shù)據(jù)。技術(shù)棧覆蓋Hadoop/Spark生態(tài)鏈、Selenium自動化及Wasm逆向,具備全鏈路數(shù)據(jù)閉環(huán)交付能力,擅長電商監(jiān)控、輿情分析等場景。
角色 | 職位 |
負(fù)責(zé)人 | python工程師 |
隊(duì)員 | 后端工程師 |
【京東商業(yè)數(shù)據(jù)智能采集系統(tǒng)】 基于深度逆向工程構(gòu)建高并發(fā)企業(yè)信息采集解決方案,核心技術(shù)突破: 風(fēng)控對抗體系:破解動態(tài)Token生成算法+環(huán)境檢測機(jī)制,通過請求指紋混淆(TLS指紋偽裝/Header熵值平衡)實(shí)現(xiàn)請求特征隱身 億級并發(fā)架構(gòu):分布式節(jié)點(diǎn)集群(500+節(jié)點(diǎn)
【大數(shù)據(jù)可視化平臺建設(shè)】 基于Hadoop+Spark構(gòu)建實(shí)時(shí)分析引擎,集成ClickHouse實(shí)現(xiàn)毫秒級OLAP查詢,日均處理TB級企業(yè)數(shù)據(jù)。設(shè)計(jì)多維度數(shù)據(jù)管道,通過Kafka實(shí)時(shí)接入京東店鋪/商品數(shù)據(jù)流,利用Flink進(jìn)行實(shí)時(shí)清洗聚合,數(shù)據(jù)呈現(xiàn)延遲壓降至3秒內(nèi)。前端采用Su