亚洲 国产精品 日韩-亚洲 激情-亚洲 欧美 91-亚洲 欧美 成人日韩-青青青草视频在线观看-青青青草影院

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時隨地免費學(xué)

千鋒教育

掃一掃進入千鋒手機站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時隨地免費學(xué)習(xí)課程

當(dāng)前位置:首頁  >  技術(shù)干貨  > 數(shù)據(jù)分析之異常值和重復(fù)值的處理

數(shù)據(jù)分析之異常值和重復(fù)值的處理

來源:千鋒教育
發(fā)布人:wjy
時間: 2022-08-12 15:18:00 1660288680

在進行數(shù)據(jù)分析的時候除了有缺失值之外,還可能遇到異常值和重復(fù)值。

#### 異常值

異常值:

> 偏離正常范圍的值,不是錯誤值。
> 出現(xiàn)的頻率很低,但是會對數(shù)據(jù)分析造成偏差

常采用蓋帽法或者數(shù)據(jù)離散化進行處理

屏幕快照 2021-06-03 下午6.48.12

**1、異常值的判斷**

也叫n個標(biāo)準(zhǔn)差法,**均值±n個標(biāo)準(zhǔn)差內(nèi)的數(shù)據(jù)叫做正常值**,一般為2-3個標(biāo)準(zhǔn)差

屏幕快照 2021-06-03 下午6.57.02

計算均值和標(biāo)準(zhǔn)差

```
import numpy as np
import pandas as pd

data = pd.read_excel('university.xlsx')
jz = data['報名人數(shù)'].mean()
print(jz)
bzc = data['報名人數(shù)'].std()
print(bzc)
```

結(jié)果:

> ```
> 1525.2222222222222
> 4975.899109579891
> ```

搭配any(),查看是否有超過上下限的數(shù)據(jù),這種數(shù)據(jù)為異常值

```
top = data['報名人數(shù)'].mean() + 2 * data['報名人數(shù)'].std()
bottom = data['報名人數(shù)'].mean() - 2 * data['報名人數(shù)'].std()
```

結(jié)果:

> ```
> 11477.020441382005
> -8426.57599693756
> ```

是否有超過下限的情況

```
any(data.報名人數(shù) < bottom) # 結(jié)果:False
```

是否有超過上限的情況

```
any(data.報名人數(shù) > top) # 結(jié)果: True
```

查看【報名人數(shù)】為正常值的數(shù)據(jù)

```
data[data['報名人數(shù)'].between(bottom,top)]
```

可以看出少了索引為4和12的數(shù)據(jù),該數(shù)據(jù)報名人數(shù)分別為17388和20000,超出上限11477.020441382005

屏幕快照 2021-06-03 下午7.08.28

也可以畫個直方圖看一下數(shù)據(jù)的分布情況,感受一下:

```
data.報名人數(shù).plot(kind ='hist')
```

屏幕快照 2021-06-03 下午7.12.13

**箱線法**

> 上四分位數(shù):取3/4位置的數(shù)
> 下四分位數(shù):取1/4位置的數(shù)
> 分位差 = 上四分位數(shù)- 下四分位數(shù)
>
> 上界 = 上四分位數(shù) + 1.5*分位差
> 下界= 下四分位數(shù) - 1.5*分位差

**上界 、下界范圍之內(nèi)的數(shù)據(jù)叫做正常值,范圍之外的叫做異常值。**

```
# 下四分位數(shù)
Q1 = data.報名人數(shù).quantile(0.25)
print(Q1)
# 上四分位數(shù)
Q3 =data.報名人數(shù).quantile(0.75)
print(Q3)
# 分位差
IQR = Q3 - Q1
print(IQR)
# 上界
print(Q3 + 1.5 * IQR)
# 下界
print(Q1 - 1.5 * IQR)
# 是否有超出上界的數(shù)據(jù)
print(any(data.報名人數(shù) > Q3 + 1.5 * IQR))
# 是否有低于下界的數(shù)據(jù)
print(any(data.報名人數(shù) < Q1 - 1.5 * IQR))
```

結(jié)果:

> ```
> 134.5
> 206.5
> 72.0
> 314.5
> 26.5
> True
> True
> ```

箱線圖看一下:

```
data.報名人數(shù).plot(kind = 'box')
```

屏幕快照 2021-06-03 下午7.17.21

說明有超出上限和下限的值

**2、異常值的處理**

方法一:

> 用小于上限最大值去替換超出上限的異常值
> 用大于下限最小值去替換低于下限的異常值

數(shù)據(jù)準(zhǔn)備:
(新增一列【new_報名人數(shù)】數(shù)據(jù),是為了替換異常值后做對比)

```
data['new_報名人數(shù)'] = data['報名人數(shù)']
```

計算小于上限的最大值,作為替換值

```
# 計算小于上限的最大值,作為替換值
UL = Q3 + 1.5 * IQR
# 低于上限的最大值
replace_value = data.new_報名人數(shù)[data.new_報名人數(shù) < UL].max()
# 用替換值替換超出上限的數(shù)據(jù):
data.loc[data.new_報名人數(shù)>UL,'new_報名人數(shù)'] = replace_value
data
```

最終:

屏幕快照 2021-06-03 下午7.23.45

方法二:

> 低于百分之一分位數(shù)的數(shù)據(jù)用百分之一分位數(shù)替換
> 高于百分之九十九分位數(shù)的數(shù)據(jù)用百分之九十九分位數(shù)替換

計算百分之一分位數(shù)、百分之九十九分位數(shù)

```
# 百分之一分位數(shù)
P1=data.new_報名人數(shù).quantile(0.01)

# 百分之九十九分位數(shù)
P99=data.new_報名人數(shù).quantile(0.99)

```


進行替換

```
data.loc[data['new_報名人數(shù)']>P99,'new_報名人數(shù)'] = P99

data.loc[data['new_報名人數(shù)']<P1,'new_報名人數(shù)'] = P1
```

屏幕快照 2021-06-03 下午7.29.22

#### 重復(fù)值

一般保留第一條重復(fù)數(shù)據(jù),對其他重復(fù)數(shù)據(jù)進行移除。

> `判斷重復(fù)值 df.duplicated`
>
> df.duplicated(subset=None, keep='first')
>
> 參數(shù)說明:
> subset:列標(biāo)簽,默認(rèn)使用所有列,若只考慮用某些列來識別重復(fù)項,可指定列
> keep,默認(rèn)first,保留重復(fù)值的第一項,也可以指定last,保留最后一項重復(fù)值數(shù)據(jù)
>
> 返回的是一個視圖

```
data.duplicated()
```

True為重復(fù)數(shù)據(jù)

屏幕快照 2021-06-03 下午7.33.10

取出重復(fù)值

```
data[data.duplicated()]
```

結(jié)果:

屏幕快照 2021-06-03 下午7.34.34

按照指定列判斷重復(fù)數(shù)據(jù)

```
data[data.duplicated(subset=['學(xué)院','報名人數(shù)'])]
```

屏幕快照 2021-06-03 下午7.36.17

**`刪除重復(fù)數(shù)據(jù) df.drop_duplicates`**

一般有重復(fù)數(shù)據(jù)后可以刪除

> df.drop_duplicates(subset=None, keep='first', inplace=False)
>
> subset:默認(rèn)全部列,可以指定特定列來判斷重復(fù)數(shù)據(jù)
> keep:保留重復(fù)數(shù)據(jù)的第一條數(shù)據(jù)
> inplace:是否就地操作,默認(rèn)False,返回一個視圖
> True,就地操作,直接在原數(shù)組數(shù)據(jù)上刪除重復(fù)值

```
data.drop_duplicates(inplace=True)
data
```

刪除后無重復(fù)數(shù)據(jù)。

 

tags:
聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強師集結(jié),手把手帶你蛻變精英
請您保持通訊暢通,專屬學(xué)習(xí)老師24小時內(nèi)將與您1V1溝通
免費領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT
反欺詐中所用到的機器學(xué)習(xí)模型有哪些?

一、邏輯回歸模型邏輯回歸是一種常用的分類模型,特別適合處理二分類問題。在反欺詐中,邏輯回歸可以用來預(yù)測一筆交易是否是欺詐。二、決策樹模...詳情>>

2023-10-14 14:09:29
軟件開發(fā)管理流程中會出現(xiàn)哪些問題?

一、需求不清需求不明確是導(dǎo)致項目失敗的主要原因之一。如果需求沒有清晰定義,開發(fā)人員可能會開發(fā)出不符合用戶期望的產(chǎn)品。二、通信不足溝通問...詳情>>

2023-10-14 13:43:21
軟件定制開發(fā)中的敏捷開發(fā)是什么?

軟件定制開發(fā)中的敏捷開發(fā)是什么軟件定制開發(fā)中的敏捷開發(fā),從宏觀上看,是一個高度關(guān)注人員交互,持續(xù)開發(fā)與交付,接受需求變更并適應(yīng)環(huán)境變化...詳情>>

2023-10-14 13:24:57
什么是PlatformIo?

PlatformIO是什么PlatformIO是一個全面的物聯(lián)網(wǎng)開發(fā)平臺,它為眾多硬件平臺和開發(fā)環(huán)境提供了統(tǒng)一的工作流程,有效簡化了開發(fā)過程,并能兼容各種...詳情>>

2023-10-14 12:55:06
云快照與自動備份有什么區(qū)別?

1、定義和目標(biāo)不同云快照的主要目標(biāo)是提供一種快速恢復(fù)數(shù)據(jù)的方法,它只記錄在快照時間點后的數(shù)據(jù)變化,而不是所有的數(shù)據(jù)。自動備份的主要目標(biāo)...詳情>>

2023-10-14 12:48:59
人妻精品一区二区| 久久久久亚洲AV无码专区网站 | 西西人体大胆午夜啪啪| 亚洲欧洲日产国码中文字幕| 中文字幕乱码亚洲∧V日本| 成本人H无码播放私人影院| 成人亚洲一区无码久久| 饭桌上故意张开腿让公H| 国精品99久9在线 | 免费| 免费人妻AV无码专区| 四虎一区二区成人免费影院网址| 天美传媒MV免费观看| 午夜男女无遮挡啪拍视频 | 四虎影视国产精品久久| 婷婷五月深深久久精品| 玉蒲团之玉女心经| 国产成人午夜精品影院| 国内精品伊人久久久久AV影院| 蜜桃av中文字幕在线| 色偷偷888欧美精品久久久| 亚洲色成人WWW永久在线观看| 大肉大捧一进一出视频出来呀| 老狼一区忘忧草欢迎您大豆男男| 亚洲AV无码国产综合专区 | A级毛片毛片免费观看久潮喷| 国内精品视频一区二区三区八戒| 日本COSME大赏美白| 无码人妻AV免费一区二区三区| 亚洲无人区码一码二码三码四码| 成人爽A毛片免费网站| 久久久久久A亚洲欧洲AⅤ| 色综合久久88色综合天天| 野花社区韩国视频WWW了| 丰满妇女强高潮18ⅩXXX| 久久久亚洲熟妇熟女ⅩXXXH| 日韩成人无码专区一视频| 伊人久久大香线蕉综合5G| 国产乱码卡二卡三卡老狼| 人扒开女人添高潮的视频嗯啊| 亚洲人成无码网WWW| 国产激情久久久久影院老熟女免费| 美女裸体A级毛片| 亚洲国产成人AV在线电影播放| 干了快生了的孕妇| 琪琪网三级伦锂电影| 伊人久久大香线蕉AV仙人| 国产无遮挡又黄又爽奶头| 色婷婷日日躁夜夜躁| 8x8x熟妇一区二区三区| 久久精品国产精品国产精品污| 野花日本HD免费高清版7| 国产精品亲子乱子伦XXXX裸| 欧美人妻精品一区二区在线| 亚洲午夜国产精品无码| 国产精品久久久久秋霞鲁丝| 久久午夜夜伦鲁鲁片免费无码影视 | 亚洲成a人片8888一在线观看| 多毛BGMBGMBGM胖在| 军人暴力性强迫RAPE| 亚洲精品夜夜夜妓女网| 国内精品久久久久久中文字幕| 婷婷5月女内射AV| а√在线中文网新版地址在线| 久久久久久无码AV成人影院| 亚洲男人第一AV网站| 国产深夜男男口爆Gay| 无码专区人妻系列日韩精品少妇| 国产成人免费ā片在线观看老同学| 日本漂亮妈妈7在观有限中子| 中国在线观看免费高清完整版| 狂野AV人人澡人人添| 在线观看成人无码中文AV天堂不 | 成人午夜福利免费无码视频| 人妻无码一区二区三区视频| 成 人 黄 色 网 站 视 频| 三上悠亚SSⅠN939无码播放| 国产AV麻豆MAG剧集| 小12国产萝裸体视频福利| 国产成人无码精品XXXX| 午夜天堂精品久久久久| 国产精华AV午夜在线观看| 性中国少妇熟妇XXXX农村| 国产成人AV无码精品天堂| 日日摸夜夜添夜夜添亚洲女人 | 中文字幕无码日韩AV| 久久国产劲爆∧V内射| 亚洲码国产精品高潮在线| 老男人把舌头伸进我下面| FREE性丰满白嫩白嫩的HD| 色综合久久成人综合网五月| 厨房里抱着岳丰满大屁股| 日本不卡一区二区三区| 国产精品久久久久久久福利| 亚洲国产天堂久久综合226| 美女把尿口扒开让男人桶| 爱丫爱丫影院在线观看免费| 乌克兰ZOOMKOOL| 精品国产乱码久久久久久下载 | 性XXXⅩ俄罗斯女人| 久久精品无码中文字幕老司机| 97人人添人澡人人爽超碰| 日本丰满岳乱妇在线观看| 国产精品自产拍在线18禁| 校园H学长含着粉嫩小奶| 久久久久久久波多野结衣高潮| А√天堂资源地址在线| 色综合色欲色综合色综合色综合R| 好硬啊一进一得太深了A片69| 一进一出一爽又粗又大| 女人高潮喷水毛片免费| 国产精品久久这里只有精品 | 无码人妻久久久久一区二区三区91| 精品人亚洲成A人片在线观看无码专区| 亚洲欧美在线综合色影视| 免费精品一区二区三区第35| 国产成人精品亚洲一区二区三区| 亚洲AV永久无码精品蜜芽| 欧美人与性动交a欧美精品| 国产亚洲精品A在线无码| 又粗又黄又爽视频免费看| 日本老熟妇人妻妇毛多多| 久久久国产精品VA麻豆| 97人人超碰国产精品最新o| 无码少妇一区二区三区浪潮AV| 人妻丰满AV无码久久不卡| 国产精品不卡无码AV在线播放| AV在线播放无码线| 亚洲中文字幕精品一区二区三区 | 无码人妻精品一区二区三区下载| 欧美人与动牲交A欧美精品Z| 久久久久久久精品无码Av少妇| 韩日综合成人中文字幕| 国产成 人 黄 色 网 站 小说| J日本成熟IPHONE69| 在线 | 一区二区三区| 亚洲欧洲日产国码无码APP| 亚洲成A人片77777KKKK| 亚洲成AV人片天堂网| 亚洲成A人V欧美综合天堂| 驯服小挗子2韩语中字| 无码中文字幕人妻在线一区二区三| 色8激情欧美成人久久综合电| 人妻丰满熟妇A无码区| 欧亚专线欧洲S码W MY| 欧美成人片在线观看网站| 男人猛躁进女人免费播放| 里面也请好好疼爱第5话在哪| 精品国际久久久久999波多野 | 国产精品视频永久免费播放| 国产成人亚洲综合无码18禁禁 | 大肉大捧一进一出好爽视频| 车后车座的疯狂的做的视频| YY111111少妇无码影院| 办公室狂肉校花H陈舒| 各种女BBWBBWBBW么| 国产精品国产三级在线专区| 国产精品亚洲一区二区无码| 国产又爽又粗又猛的视频 | 灌醉国产猛男GAY1069| 公交车上拨开她湿润的内裤| 国产精品亚洲成在人线| 精品国产一区二区三区AV性色| 久久婷婷五月综合丁香人人爽| 免费 黄 色 人成 视频 在| 秋霞网一区二区三区| 天天天天躁天天爱天天碰2018| 无人区码一码二码高高| 亚洲乱码尤物193YW最新地址| 中文字日产幕码三区的做法步| chinese熟女老女人hd视频| 成人国产精品一区二区网站公司 | 久久精品人人看人人爽| 么公的粗大挺进了我的密道| 漂亮人妻被强玩波多野结衣| 四虎成人精品在永久免费| 亚洲丰满少妇XXXXX高潮对白| 在公交车上弄到高C了怎么办| 成 人 黄 色 网 站 ·大| 激情伊人五月天久久综合| 妺妺窝人体色WWW婷婷| 四虎WWW成人影院观看| 野花香高清视频在线观看免费 | 国产对白videos麻豆高潮| 精品 日韩 国产 欧美 视频| 免费看永久不收费下载软件| 日韩人妻无码精品一专区| 亚洲 欧美 国产 制服 动漫| 亚洲欧洲无码精品ⅤA| CHINESE熟女熟妇2乱| 国产精品国产三级国产AV中文| 精品亚洲自慰AV无码喷奶水| 人妻精品久久久久中文字幕69| 四川少妇XXXX内谢欧美| 亚洲一区二区三区无码影院| YY8090理论三级在线观看| 国产九九99久久99大香伊| 麻豆精品久久久久久中文字幕无码| 女人被暴躁C到高潮容易怀孕| 欧美性爱在线视频| 婷婷丁香六月激情综合啪 |