亚洲 国产精品 日韩-亚洲 激情-亚洲 欧美 91-亚洲 欧美 成人日韩-青青青草视频在线观看-青青青草影院

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > 大數據面試題:用戶畫像、推薦系統、Flink實時數倉、準實時數倉中常見問題都有什么?

大數據面試題:用戶畫像、推薦系統、Flink實時數倉、準實時數倉中常見問題都有什么?

來源:千鋒教育
發布人:syq
時間: 2022-06-29 16:24:20 1656491060

  用戶畫像、推薦系統、Flink實時數倉、準實時數倉中,遇到的棘手的問題都有什么?

  用戶畫像

  1. 我們在選擇如何存儲用戶標簽時,遇到了問題(標簽查詢速度慢,并且構建不夠靈活,標簽更新和刪除比較麻煩),比如之前用HDFS或者ES存儲,后來切換為ClikcHouse,并用BitMap存儲,原因如下

  針對標簽的表示形式,存儲方式有很多,結構為`寬表,BitMap` 都可以,存儲選擇`HDFS,ES,ClickHouse 等` 也都可以,需要衡量的有兩點`1.標簽構建的靈活性和構建速度 2.標簽的查詢效率 ` `HDFS [Presot,Impala]:` 標簽的增加,刪除,更新不友好, 一個小變動,要重寫整個`Parquet`, 寫放大問題。 查詢效率還可以,但是不夠優秀。 支持查詢并發較小。 `ES:`標簽的構建的寫入速度一般, 新增和修改標簽需要對ES文檔結構更新,ES的DSL語法不友好,有一定學習成本。查詢效率還算優秀,同時支持高并發。 ES資源占用高,需要較好的硬件配置。 `ClickHouse[BitMap]` 標簽可以并行構建,查詢效率優秀,標簽的增加非常方便,標簽的更新和刪除可以實現,但是并不高效,并發查詢支持比Presto,Impala要好,但同樣不支持高并發,能夠滿足大部分場景需求。注意兩點`1. BitMap存儲的是用戶ID 2. BitMap使用了RoaringBitMap, 解決BitMap空間占用問題,不然1億這一個數也要占用11.9M空間`

  2. 如何構建用戶的稠密向量的問題

  如果我們直接將用戶的標簽轉換為稀疏向量來存儲,對于類別標簽使用`one-hot`編碼,但這樣會出現維度爆炸的問題,向量過于稀疏,向量之間的余弦相似度計算結果基本沒有意義,根本無法實現用戶相似度的計算。所以就開始思考如何將用戶表示為轉換為稠密向量,經過調研發現,Word2Vec可以將詞轉換為稠密向量,同時借助Word2Vec思想,也可以將物品轉換為向量Item2Vec,比如將一個Session內,用戶購買的物品或者點擊的物品列表,看成是一句話,每個物品看成是一個單詞,就可以借助Word2Vec的思想將物品轉換為稠密向量表示。(這里注意如果是文章,可以使用分詞,然后抽取關鍵詞,將詞通過Word2Vec轉換為向量的方式) ,我們再將用戶點擊或者購買的物品列表中物品向量加和求平均,就可以得到用戶的稠密向量。后來發現通過ALS模型`矩陣分解`的方式也可以得到用戶的稠密向量,兩者`表達的用戶向量含義`是不同的,一個是有濃重的物品屬性特征的,一個是有協同特征的向量。但是都可以作為用戶的向量表示方式。

大數據面試題

  推薦系統

  1. SparkML Pipline 訓練模型通過PMML跨平臺部署時字符串轉向量的問題

  由于我們通過Pipline訓練出來的排序模型,模型的輸入是之前存入HBase中向量(用戶和物品)字符串,當我們使用`jpmml-sparkml` 這個類庫去生成PMML模型,進行擴平臺部署時,發現無法正常生成PMML。 原因是因為對于字符串轉向量這種`transformer操作` jpmml沒有支持,我們參照jpmml源碼的實現方式,做了自定義transformer的實現。原理是先自定義一個Spark ML的transform,然后再擴展一個jpmml對應的converter即可。

  2. 特征向量Load到HBase慢的問題

  我們構建出來的用戶特征向量和物品特征向量,最終是存儲到HBase中的,最初是使用HBase API寫入數據,但是太慢了,整個數據的寫入要耗費5~6個小時,之后我們`使用了bulkLoad的方式`,直接通過使用Spark生成將數據`生成HFile文件`寫入到HDFS,然后使用blukLoad直接生成好的HFile文件mv過去即可,15分鐘完成。 更具體點,首先我們把我們將要寫入hbase的rdd,按照設定的行鍵排序,之后將行鍵和值構造一個HFile的KeyValue結構,設定outputformat 為HFileOutputFormat2,將生成的hfile數據寫入到hdfs,之后通過doBulkLoad方法將寫到HDFS上hfile數據移動到hbase目錄中。(這些項目的代碼中都有)

  3. 多路召回結果如何如何統一排序的問題

  因為我們采用了多種召回算法,比如ItemCF,ALS, 基于熱門,基于地域 等召回算法。 沒有召回算發的結果集我們是無法直接排序的,因為各個召回算法表達的含義是不同的,最開始不知道該怎么做,因此就是各個召回算法設定一個人為比例去取。 之后學習了解到可以加`一個排序模型`做這個事情,原理就是用戶向量和物品向量作為基礎特征,用戶是否點擊物品作為標簽,訓練一個排序模型(LR),只有將各路召回策略輸入排序模型重新排序即可。 # 注意如果你同時說1,3問題,注意順序

  數倉問題

  1. Flink Watermark激增的問題

  參考:http://coder.yihongyeyan.com/question/7, `里面有watermark 激增的場景說明`。從這上面的我舉的例子,你應該知道這種情況發生的原因,是因為我們抽取事件事件直接減去延遲時間造成,解決方式就是我們再抽取watermark時,判斷一下事件中的時間和上次watermark的時間,如果兩者時間相差很大,我們就不更新watermark或者將watermark加上一個小值就可以了,一般選擇不更新。

  2. 實時作業和離線作業的資源競爭問題

  因為我們統一用Yarn做資源調度,實時作業Flink(Spark Streaming)和離線作業會調度到同一個機器上,集群相對空閑時沒什么問題,但是當集群負載較高時,尤其是晚上大批離線任務啟動,就會造成我們實時作業的某些Container所在機器負載過高,同時我們實時作業中如果有重計算邏輯,Flink計算不過來,背壓產生,Kafka消費延遲,數據積壓。解決這個問題的方法是,YARN Label,給YARN管理的機器打上標簽,離線和實時分開,提交作業時指定Lable。

  3. 實時作業調度集中的問題

  問題產生的背景是,當提交一個作業時(Flink,Spark),作業不大,YARN上申請10個Container,發現10個Container都調度到一個節點上,或者大部分調度到一個節點上,幾個調度到另一個節點,資源分配傾斜。 這樣造成如果我的作業是一個重計算的作業,10Container都在一個節點上,CPU load過高,計算延遲。 當時出現這個問題,比較苦惱,不知道什么原因,也沒有search到解決方案,最后只能去看源碼了(我們用的是Fair調度器),發現Container的分配策略是在一個NodeManger心跳中盡可能多的分配Container,這是為了提升調度的吞吐,但是源碼中有參數可以控制,是否一個心跳允許分配多個Container,以及一次心跳最大分配多少個Container給當前的NodeManager.這個參數Yarn已經暴露給用戶了`yarn.scheduler.fair.assignmultiple` 默認是true。`yarn.scheduler.fair.max.assign` 默認是-1,就是無限制。 解決的方式是`yarn.scheduler.fair.max.assign` 設置為一個較小的值,比如2.

  更多關于大數據培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經驗,采用全程面授高品質、高體驗培養模式,擁有國內一體化教學管理及學員服務,助力更多學員實現高薪夢想。

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
人妻人人添人妻人人爱| 久久亚洲精品中文字幕| 久久国产成人精品国产成人亚洲| 毛茸茸的撤尿正面BBW| 人妻熟妇乱又伦精品视频APP| 撕开奶罩揉吮奶头免费视频| 亚洲国产精品一区二区第一页| 中文字幕AV一区中文字幕天堂| 波多野42部无码喷潮| 国产亚洲曝欧美不卡精品| 久久五月丁香综合中文亚洲| 人妻系列无码专区无码中出| 午夜一区欧美二区高清三区| 一面膜上边一面膜下边视频| 差差差软件大全APP推荐免费| 国产免费AV一区二区三区| 久久99热这里只有精品国产| 欧美熟妇成人大片性爽| 无码人妻精品一区二区三区99仓| 亚洲综合蜜臀AV| 成人无码H免费动漫在线观看| 黑人巨大超大VIDEOSGRA| 农民人伦一区二区三区| 天天躁日日躁狠狠躁退| 亚洲色婷婷综合久久| 成年丰满熟妇午夜免费视频| 黄 色 视 频 在 线 免费观| 欧美老熟妇乱大交XXXXX| 午夜福利1000集无码| 2021av在线视频| 国产乱子伦农村叉叉叉| 女人被弄高潮视频免费| 亚欧成人无码AV在线播放| 99国内精品久久久久久久漫画| 国产麻豆精选AV| 男人进入女人下部图| 干了快生了的孕妇| 香港三级精品三级在线专区 | 少妇人妻真实偷人精品视频| 午夜精品久久久久久毛片| 午夜亚洲国产理论片中文飘花 | AV天堂东京热无码专区| 亚洲欧美日韩国产精品一区二区| 亚洲18色成人网站WWW| 无码国内精品人妻少妇蜜桃视频| 人和畜禽CROPROATION| 女性の乳頭を凸起しています | 极品婬荡少妇XXXX欧美| 欧美日韩一区精品视频一区二| 亚洲成AV人最新无码| 成 人 H动 漫在线播放日本| 久久久久无码精品国产AV蜜桃1| 视频在线一区二区| 真实国产乱子伦精品一区二区三区 | 亚洲成A人片在线观看无码专区| 波多野结衣放荡的护士| 老头巨大挺进莹莹的体内免费视频 | 成人国内精品视频在线观看| 快拨出去我是你老师啊作文| 性色AV一区二区三区| 办公室撕开奶罩吮奶在线观看| 久久精品国产亚洲AV麻| 我和闺蜜在公交被八个人挤倒| 91人妻超碰亚洲| 黄 色 网 站 免 费 涩涩屋 | 一本久道视频无线视频| 国产精品一区理论片| 日本熟妇色熟妇在线视频播放| 一区二区三区无码AV不卡| 国产免费永久精品无码| 日韩精品无码一本二本三本| 18禁美女裸体无遮挡免费观看国 | 国产熟女高潮精品视频区| 日韩成人无码AV| 97久久香蕉国产线看观看| 精品人妻暴躁一区二区三区| 污污网站18禁在线永久免费观看 | AAAA级少妇高潮大片在线观看| 精品久久久久中文字幕APP| 无码精品国产VA在线观看| 宝贝你的奶好大我想吃| 蜜桃AV不卡无码三区| 亚洲人成无码网站| 国内精品伊人久久久久影院对白| 少妇性XXXXXXXXX色武功| 八戒八戒WWW资源网在线观看| 老公和小三在车上做我想卖了车| 亚洲精品国产成人AV蜜臀| 国产美女视频国产视视频| 视频一区欧美日韩| 成人做受120视频试看| 欧美亚洲综合另类色妞网| 最新国产成人AB网站| 久久人人爽人人爽人人片AV超碰| 亚洲成A人片在线观看无码不卡| 国产精品国三级国产AV| 少妇下蹲露大唇无遮挡| 成 人色 网 站 欧美大片在线| 欧美精品黑人粗大| 43417大但人文艺术| 裸体丰满白嫩大尺度尤物| 亚洲午夜无码久久| 久久AV伊人蜜臀一区二区| 亚洲精品国产AV成拍色拍婷婷| 国产真人无码作爱免费视频APP| 我是你亲妈呀你爸知道死你| 国产成人乱色伦区| 特级XXXXX欧美| 国产成人无码A区视频在线观看| 色欲精品国产一区二区三区AV| 成年女人天堂香蕉网| 日产精品乱码卡一卡2卡三网站| 啊灬啊灬啊灬高潮了听书最新章节| 欧美成人精品一区二区综合| 4D肉蒲团之性奴大战奶水| 嫩草欧美曰韩国产大片| 97人人澡人人爽人人模亚洲| 女人天堂亚洲AⅤ在线观看| 99精品又大又爽又粗少妇毛片| 能让我流水水的一千字| 18禁成人黄网站免费观看| 女人高潮娇喘抽搐喷水动态视频| 2020国产精品久久久久精品| 女人被狂躁到高潮视频免费软件| 97久久欧美极品少妇XXXXⅩ| 欧美老熟妇又粗又大| WWW亚洲精品自慰一区二区三| 人妻无码不卡中文字幕在线视频 | 日韩精品卡2卡3卡4卡5| 高清国产天干天干天干| 无码精品黑人一区二区三区| 国产精品无码一二区免费 | 日木AV无码专区亚洲AV毛片| 大香伊蕉人在播放2019| 特级AAAAAAAAA毛片免费| 国产情侣疯狂作爱系列| 亚洲AV伊人久久综合密臀性色 | 黑人巨茎大战欧美白妇| 亚洲女久久久噜噜噜熟女| 久久综合给合久久狠狠狠88| 337P西西人体大胆瓣开下部 | 猫咪AV最新永久网址无码| 50岁熟妇大白屁股真爽| 人妻中文字幕制服丝袜| 国产AV丝袜熟女AV一区| 亚洲AV无码精品狠狠爱| 久久九九有精品国产23百花影院| 在线天堂免费观看.WWW| 秋霞电影高清完整版| 东北妓女激情普通话对白| 无遮无挡爽爽免费毛片| 精品视频国产香蕉尹人视频| 中文乱码在线中文字幕中文乱码 | 天天躁日日躁狠狠躁人妻| 黑料不打烊隐藏入口GITHUB| 野花香电视剧全集免费观看高清| 内射极品少妇一区二区av| 成人亚洲一区二区三区在线 | CHINESE熟女老女人HD视频| 僧侣と交わる色欲の夜に| 国产又粗又猛又黄又爽无遮挡| 亚洲中文字幕无码中文字| 欧美亚洲国产成人一区二区三区| 国产94在线 | 亚洲| 亚洲XXX午休国产熟女屁| 美女肛交视频蜜桃国产一二区| 被青梅竹马的学弟给锁定了林擎霄 | 菠萝蜜视频在线观看入口| 无码国产精品一区二区免费久久| 精品人妻伦一二三区久久| 8Ⅹ8X擦拨擦拨成人免费视频| 色欲欲WWW成人网站| 狠狠色丁香婷婷久久综合不卡| 中文人妻熟妇乱又伦精品| 色噜噜人体337P人体| 精品 亚洲 无码 自拍 另类| 999精品国产人妻无码系列| 天堂资源中文最新版在线一区| 精品亚洲国产成人AV制服| A级毛片在线观看| 小雪被老汉玩遍各种方式电影| 久久久久久精品免费免费HD| 差差漫画免费页面漫画在线观看 | 无码AV动漫精品专区| 久久久久久亚洲AV无码专区| JIZZJIZZ少妇亚洲水多| 性一交一乱一性一在线观看| 蜜芽VA亚洲VA欧美VA天堂| 国产成人高清精品亚洲| 曰本女人牲交视频视频免费| 涩爱AV挺进少妇张开双暴躁| 久久精品国产99久久香蕉| 成人毛片女18免费| 亚洲色欲综合一区二区三区| 日本少妇XXX做受| 久久精品成人无码观看免费| 短篇公交车高H肉辣全集目录 | 久久久久久国产精品免费无码| 成人无码A区在线观看视频| 亚洲午夜无码片在线观看影院百度|