首页 > 其他 > 详细

深圳福彩加盟网:数据预处理

时间:2019-03-13 00:44:51      阅读:103      评论:0      收藏:0      [点我收藏+]

深圳风采开奖直播 www.nskjr.cn 标签:src   ref   pan   sim   如果   ket   rain   http   有时   

## 数据预处理
相关参考链接:
1.[Titanic总结](https://blog.csdn.net/han_xiaoyang/article/details/49797143)
2.[别人Titanic的总结](https://blog.csdn.net/u013240812/article/details/78289466)
3.[关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化](https://www.cnblogs.com/chaosimple/p/4153167.html)
### 1.数据缺失
  通常遇到缺值的情况,我们会有几种常见的处理方式:
1.如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了
2.如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
3.如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
  有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。
  我们这里用scikit-learn中的RandomForest来拟合一下缺失的年龄数据

### 2.将属性都转成数值型属性
  以Cabin为例,原本一个属性维度,因为其取值可以是[‘yes’,’no’],而将其平展开为’Cabin_yes’,’Cabin_no’两个属性:
  原本Cabin取值为yes的,在此处的”Cabin_yes”下取值为1,在”Cabin_no”下取值为0
  原本Cabin取值为no的,在此处的”Cabin_yes”下取值为0,在”Cabin_no”下取值为1

  我们使用pandas的”get_dummies”来完成这个工作,并拼接在原来的”data_train”之上,如下所示。

```
dummies_Cabin = pd.get_dummies(data_train[‘Cabin‘], prefix= ‘Cabin‘)

dummies_Embarked = pd.get_dummies(data_train[‘Embarked‘], prefix= ‘Embarked‘)

dummies_Sex = pd.get_dummies(data_train[‘Sex‘], prefix= ‘Sex‘)

dummies_Pclass = pd.get_dummies(data_train[‘Pclass‘], prefix= ‘Pclass‘)

df = pd.concat([data_train, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop([‘Pclass‘, ‘Name‘, ‘Sex‘, ‘Ticket‘, ‘Cabin‘, ‘Embarked‘], axis=1, inplace=True)
df

---------------------

技术分享图片

 


![在这里插入图片描述](https://img-blog.csdn.net/20180926203932312?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIyNzAzMjA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

## 3.scaling:将一些变化幅度较大的特征化到[-1,1]之内。

数据预处理

标签:src   ref   pan   sim   如果   ket   rain   http   有时   

原文:https://www.cnblogs.com/sharryling/p/10520524.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
? 2014 深圳风采开奖直播 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号

  • 价值-热门标签-华商生活 2019-05-19
  • 以古鉴今,习近平多次提及屈原 2019-05-18
  • 候选企业:内蒙古蒙草生态环境(集团)股份有限公司 2019-05-18
  • 埃里克森:中国将成为足球大国 15年内能进四强 2019-05-17
  • 审计署:19万套房子空置 数百亿元资金闲置 2019-05-17
  • 广东清远黑臭水体整治弄虚作假 6名责任人被立案调查 2019-05-16
  • 推动实现更高质量和更充分就业 2019-05-15
  • 暴雨突袭石泉 干部背群众转移到安全地带 2019-05-15
  • 人体-热门标签-华商生活 2019-05-14
  • 改革开放40载,互联网的发展风云激荡 2019-05-14
  • 杭州高新区(滨江):“智慧社区”助推社区治理服务创新 2019-05-13
  • 法治中国,走向更美好的明天(砥砺奋进的五年·全面依法治国) 2019-05-13
  • 斯柯达速派2017年上半年累计销量同比上涨36% 2019-05-12
  • 浙江台州副市长出庭应诉民告官案 称要作表率 2019-05-12
  • 罗品禧的专栏作者中国国家地理网 2019-05-11
  • 809| 486| 793| 786| 772| 260| 82| 829| 669| 36|