首页 > 其他 > 详细

深圳彩票网:数据预处理

时间:2019-03-13 00:44:51      阅读:54      评论:0      收藏:0      [点我收藏+]

深圳风采开奖直播 www.nskjr.cn 标签:src   ref   pan   sim   如果   ket   rain   http   有时   

## 数据预处理
相关参考链接:
1.[Titanic总结](https://blog.csdn.net/han_xiaoyang/article/details/49797143)
2.[别人Titanic的总结](https://blog.csdn.net/u013240812/article/details/78289466)
3.[关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化](https://www.cnblogs.com/chaosimple/p/4153167.html)
### 1.数据缺失
  通常遇到缺值的情况,我们会有几种常见的处理方式:
1.如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了
2.如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
3.如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
  有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。
  我们这里用scikit-learn中的RandomForest来拟合一下缺失的年龄数据

### 2.将属性都转成数值型属性
  以Cabin为例,原本一个属性维度,因为其取值可以是[‘yes’,’no’],而将其平展开为’Cabin_yes’,’Cabin_no’两个属性:
  原本Cabin取值为yes的,在此处的”Cabin_yes”下取值为1,在”Cabin_no”下取值为0
  原本Cabin取值为no的,在此处的”Cabin_yes”下取值为0,在”Cabin_no”下取值为1

  我们使用pandas的”get_dummies”来完成这个工作,并拼接在原来的”data_train”之上,如下所示。

```
dummies_Cabin = pd.get_dummies(data_train[‘Cabin‘], prefix= ‘Cabin‘)

dummies_Embarked = pd.get_dummies(data_train[‘Embarked‘], prefix= ‘Embarked‘)

dummies_Sex = pd.get_dummies(data_train[‘Sex‘], prefix= ‘Sex‘)

dummies_Pclass = pd.get_dummies(data_train[‘Pclass‘], prefix= ‘Pclass‘)

df = pd.concat([data_train, dummies_Cabin, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop([‘Pclass‘, ‘Name‘, ‘Sex‘, ‘Ticket‘, ‘Cabin‘, ‘Embarked‘], axis=1, inplace=True)
df

---------------------

技术分享图片

 


![在这里插入图片描述](https://img-blog.csdn.net/20180926203932312?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIyNzAzMjA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

## 3.scaling:将一些变化幅度较大的特征化到[-1,1]之内。

数据预处理

标签:src   ref   pan   sim   如果   ket   rain   http   有时   

原文:https://www.cnblogs.com/sharryling/p/10520524.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
? 2014 深圳风采开奖直播 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号

  • 清华同衡规划设计院副院长、景观中心主任胡洁精彩发言 2019-03-22
  • 湖州南浔:“文体惠民”送进村 2019-03-22
  • 世界献血日:走近无名英雄“熊猫侠” 2019-03-21
  • iPad也陷降速门?苹果已引发17起集体诉讼 2019-03-20
  • 它从未改变 人民网试驾广汽本田第十代雅阁 2019-03-20
  • 世界杯夜不眠 合肥万达乐园打造霸都球迷首选集结地 2019-03-19
  • 走近土掌房文章中国国家地理网 2019-03-18
  • 北京:走进高考阅卷现场 2019-03-17
  • 火车南站能多设置几个停车和上下车提示牌吗? 2019-03-17
  • 浙江消防志愿者小区“巡防” 携手居民共建“安全网” 2019-03-16
  • 对话川美前院长罗中立:揭秘《父亲》创作历程 2019-03-15
  • “长城新媒体”官方微信、微博 2019-03-14
  • 不怕玩阴的就怕来真的,小金的真威震四方,他那核弹是真敢甩啊,老特都惧 2019-03-14
  • 人民体育《大咖说》:破风骑行董事长董超谈自行车运动现状 2019-03-13
  • 百度地图春运出行大数据:年轻人返乡晚离家早 上班到最后一天 2019-03-13
  • 194| 713| 17| 898| 889| 627| 768| 233| 129| 199|