import numpy as np
import pandas as pd
df = pd.read_csv('双十一淘宝美妆数据.csv')
df.head() #查看数居前五行
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 update_time 27598 non-null object
1 id 27598 non-null object
2 title 27598 non-null object
3 price 27598 non-null float64
4 sale_count 25244 non-null float64
5 comment_count 25244 non-null float64
6 店名 27598 non-null object
dtypes: float64(3), object(4)
memory usage: 1.1+ MB
update_time id title price sale_count comment_count 店名
27507 2016/11/5 A535642405757 SK-II【11-11】全新大眼眼霜skii放大双眼眼部修护精华紧致 590.0 NaN NaN SKII
27508 2016/11/5 A535911851408 SK-II 11-11预售skii大眼眼霜sk2眼部修护精华霜淡化黑眼圈 590.0 NaN NaN SKII
27509 2016/11/5 A537027211850 SK-II 11-11预售skii前男友护肤面膜sk2精华面膜贴密集修护 1740.0 NaN NaN SKII
27510 2016/11/5 A538212160126 SK-II 11-11预售skiisk2神仙水护肤精华油面部套装滋润补水密集修 1190.0 NaN NaN SKII
27511 2016/11/5 A538677326709 SK-II【11-11】神仙水护肤精华油面部套装滋润补水密集修 1190.0 NaN NaN SKII
##使用jieba包对title进行分词,进一步了解每一个商品的特征
import jieba
subtitle=[]
for each in data['title']:
k=jieba.lcut_for_search(each) ##搜索引擎模式
subtitle.append(k)
data['subtitle']=subtitle
data[['title','subtitle']].head()
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ASUS\AppData\Local\Temp\jieba.cache
Loading model cost 0.895 seconds.
Prefix dict has been built succesfully.
Out[8]:
sub_type = [] #主类
main_type = [] #次类
for i in range(len(data)):
exist = False
for j in data['subtitle'][i]:
if j in dcatg:
sub_type.append(dcatg[j][1])
main_type.append(dcatg[j][0])
exist = True
break
if not exist :
sub_type.append('其他')
main_type.append('其他')
data['sub_type']=sub_type
data['main_type']=main_type
data.loc[data['sub_type'] == '其他'].count() ##查看分类为其他的有多少商品
update_time id title price sale_count comment_count 店名 subtitle sub_type main_type 是否男士专用 销售额
0 2016/11/14 A18164178225 CHANDO/自然堂 雪域精粹纯粹滋润霜50g 补水保湿 滋润水润面霜 139.0 26719.0 2704.0 自然堂 [CHANDO, /, 自然, 堂, , 雪域, 精粹, 纯粹, 滋润, 滋润霜, 50g... 面霜类 护肤品 否 3713941.0
1 2016/11/14 A18177105952 CHANDO/自然堂凝时鲜颜肌活乳液120ML 淡化细纹补水滋润专柜正品 194.0 8122.0 1492.0 自然堂 [CHANDO, /, 自然, 堂, 凝, 时鲜, 颜肌活, 乳液, 120ML, , 淡... 乳液类 护肤品 否 1575668.0
2 2016/11/14 A18177226992 CHANDO/自然堂活泉保湿修护精华水(滋润型135ml 补水控油爽肤水 99.0 12668.0 589.0 自然堂 [CHANDO, /, 自然, 堂, 活泉, 保湿, 修护, 精华, 水, (, 滋润, 型... 精华类 护肤品 否 1254132.0
3 2016/11/14 A18178033846 CHANDO/自然堂 男士劲爽控油洁面膏 100g 深层清洁 男士洗面奶 38.0 25805.0 4287.0 自然堂 [CHANDO, /, 自然, 堂, , 男士, 劲爽, 控油, 洁面膏, , 100g... 清洁类 护肤品 是 980590.0
4 2016/11/14 A18178045259 CHANDO/自然堂雪域精粹纯粹滋润霜(清爽型)50g补水保湿滋润霜 139.0 5196.0 618.0 自然堂 [CHANDO, /, 自然, 堂, 雪域, 精粹, 纯粹, 滋润, 滋润霜, (, 清爽,... 面霜类 护肤品 否 722244.0