熟悉機器學習常用算法模型。LR,SVM,決策樹,樸素貝葉斯等。
熟悉常用深度學習模型等。RNN,LS" />
熟悉 Linux 系統,Python,shell,Hadoop 等。了解并可以使用 c++,Java,PHP,MySQL。
熟悉機器學習常用算法模型。LR,SVM,決策樹,樸素貝葉斯等。
熟悉常用深度學習模型等。RNN,LSTM,BERT等。
熟悉 NLP 中文本分類相關算法,熟悉文本相關性算法等。熟悉文本數據處理流程。
熟悉廣告算法相應術語,搜索廣告流程等。
熟悉搜索算法整體流程,各個模塊涉及算法等。
一、查詢分類升級
項目簡介:查詢分類是將查詢詞進行自動化分類的過程,由于目前線上查詢分類為樸素貝葉斯模型+相應規則,模型較為陳舊,需要對現有的模型進行更新升級。
個人工作:
1、模型訓練。根據標注數據,利用 TextCNN 進行模型訓練,并調整相應的一些參數,得到模型。
2、微調。根據分類得到的結果,加入相應的規則,提高其預測準確率。
3、工具封裝。將 textCNN 模型參數進行提取,利用 c++編譯成可以執行的 bin 文件,當做日常查詢分類工具。
4、上線。將模型進行上線,并觀察效果。 成果收益:完成查詢分類模塊升級,使最終分類準確率絕對值提升 5%,并將模型進行封裝,作為組內公共工具使用。
二、華章:查詢詞-文章內容相似性模型開發
項目簡介:華章項目是泛搜索場景的一種,旨在提高搜索廣告整體收入。當用戶搜索特定詞匯時,為用戶推薦相應的文章并展示在頁面,當 用戶點擊該文章時,在跳轉頁為用戶展示相關廣告。
個人工作:
1、文本相關性模型獲取。根據已有標注訓練數據,利用 bert 模型進行相關性模型訓練,最終得到相關性模型工具。
2、query 文章配對。利用 bert 模型對 query 和文章相關信息,包括標題等信息,進行相關性結果獲取,并進行排序處理,得到 查詢詞和文章集合的配對。
3、多路召回。根據原始詞表進行推薦文章召回,根據反向切詞進行推薦文章召回。 成果收益:完成華章新產品項目,使總體消耗提升 2%,并將 bert 相關性模型進行封裝,作為組內公共工具使用。
三、下方推薦廣告:以詞推詞模塊開發
項目簡介:為了提升搜索廣告整體的廣告覆蓋率(PVR)等,需要對上方未出現廣告的情況下,對查詢詞進行詞語推薦,并利用推薦詞進行 廣告召回,并展示在下方,故稱為下方推薦廣告。
個人工作:
1、推薦詞獲取。利用向量傳播算法,利用網頁側 query 和點擊 URL 數據,進行迭代求取,最終得到查詢詞和推薦詞集合。
2、進行多路召回。根據原始詞表進行詞匯召回,根據反向切詞進行推薦詞召回。 成果收益:完成下方推薦廣告開發,整體廣告覆蓋率提升 4%,總消耗提升 8%。
四、文章向量獲取服務搭建
項目簡介:搭建輿情系統文章向量獲取服務,以供上游任務使用。例如相似文章獲取,熱點事件發現等。
個人工作:
1、調研文章向量獲取服務方式,并選擇相應模型進行實驗開發。
2、使用 bert 和 fasttext 模型進行實驗分析,并利用相應數據訓練模型。
3、使用 python diango 框架進行服務搭建,并利用 uwsgi 和 nginx 提供服務并發請求數量。 成果收益:完成整體服務搭建,bert 和 fasttext 實驗結果滿足線上可用,其中 fasttext 并發請求量可以達到 4000,bert 并發請求量可以達 到 1000 左右。
五、相似文章獲取服務搭建
項目簡介:針對業務需求,需要從文章庫中獲取最相似的 topk 文章,由于庫文章數量較多,需要一種快速獲取相似文章的方式,故需要調研 并開發快速獲取相似文章的服務。
個人工作:
1、調研相似文章獲取相關方法。
2、使用 facebook 的 faiss 框架進行文章索引的存儲,使用其中 indexIVFFlat 方法和 IndexIVFPQ 索引進行存儲。
3、使用 python diango 框架進行服務搭建,提供 4 種不同索引的增刪查的方式,并利用 uwsgi 和 nginx 提供服務并發請求數量。 成果收益:完成整體服務搭建,使用 faiss 框架進行構建的方式可以由原來分鐘級別的時長縮短到毫秒級別,并支持批量文章同時訪問,時間 依然為毫秒級別,并發搜索請求量可以達到 4000 左右。