Skip to content

LogicJake/tuling-video-click-top3

Repository files navigation

tuling-video-click-top3

图灵联邦视频点击预测大赛线上第三

2020-TURING-TOPIA-Video-Click-SINGLE-LightGBM-top3

===============================================================================================================
图灵联邦视频点击预测大赛线上第三(LightGBM单模)

主办方: 图灵联邦

赛道:2020-视频点击预测大赛

赛道链接https://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch
赛程时间2019.11.11-2020.03.09
参与人第一次打比赛小兔子乖乖Freakluweihai
方案文档文档链接
百度云盘下载链接:为避免数据丢失,提供数据集下载地址链接: https://pan.baidu.com/s/1YPtg4QyiAdhRAMoxjis_Gw 密码: 0a3r

1.数据说明

train.csv

字段 中文名 数据类型 说明
id 用户ID VARCHAR2(50) 代表数据集的第几条数据,从1到11376681
target 是否点击 VARCHAR2(50) 代表该视频是否被用户点击了,1代表点击,0代表未点击。
timestamp 修改时间戳 VARCHAR2(50) 代表改用户点击改视频的时间戳,如果未点击则为NULL。
deviceid 设备ID VARCHAR2(50) 用户的设备id
newsid 视频ID VARCHAR2(50) 视频的id。
guid 注册ID VARCHAR2(50) 用户的注册id。
pos 推荐位置 VARCHAR2(50) 视频推荐位置
app_version app版本 VARCHAR2(50) app版本。
device_vendor 设备厂商 VARCHAR2(50) 设备厂商
netmodel 网络类型 VARCHAR2(50) 网络类型。
osversion 操作系统版本 VARCHAR2(50) 操作系统版本。
lng 经度 VARCHAR2(50) 经度。
lat 维度 VARCHAR2(50) 维度。
device_version 设备版本 VARCHAR2(50) 设备版本。
ts 用户ID 时间戳 视频暴光给用户的时间戳。

test.csv

字段 中文名 数据类型 说明
id 用户ID VARCHAR2(50) test_1到test_3653592
deviceid 设备ID VARCHAR2(50) 用户的设备id
newsid 视频ID VARCHAR2(50) 视频的id。
guid 注册ID VARCHAR2(50) 用户的注册id。
pos 推荐位置 VARCHAR2(50) 视频推荐位置
app_version app版本 VARCHAR2(50) app版本。
device_vendor 设备厂商 VARCHAR2(50) 设备厂商
netmodel 网络类型 VARCHAR2(50) 网络类型。
osversion 操作系统版本 VARCHAR2(50) 操作系统版本。
lng 经度 VARCHAR2(50) 经度。
lat 维度 VARCHAR2(50) 维度。
device_version 设备版本 VARCHAR2(50) 设备版本。
ts 用户ID 时间戳 视频暴光给用户的时间戳。

app.csv

字段 中文名 数据类型 说明
id 用户ID VARCHAR2(50) test_1到test_3653592
deviceid 设备ID VARCHAR2(50) 用户的设备id
applist deviceid 视频ID VARCHAR2(50) 用户所拥有的app,我们已将app的名字设置成了app_1,app_2..的形式。

test.csv

字段 中文名 数据类型 说明
id 用户ID VARCHAR2(50) test_1到test_3653592
deviceid 设备ID VARCHAR2(50) 用户的设备id
guid 注册ID VARCHAR2(50) 用户的注册id。
outertag 用户画像 VARCHAR2(50) 用户画像用竖号分隔,冒号后面的数字代表对该标签的符合程度,分数越高代表该标签越符合该用户。
tag 用户画像 VARCHAR2(50) 同outertag
level 用户等级 VARCHAR2(50) 用户等级。
personidentification 是否优劣 VARCHAR2(50) 1表示劣质用户 0表示正常用户。
followscore 徒弟分 VARCHAR2(50) 徒弟分(好友分)。
personalscore 个人分 VARCHAR2(50) 个人分。
gender 性别 VARCHAR2(50) 性别

2.配置环境与依赖库

  • python3
  • scikit-learn
  • gensim
  • Ubuntu
  • LightGBM
  • notebook

3.运行代码步骤说明

分别按照代码顺序
运行1,2,3,4

1 feature.ipynb 特征工程
2 fold_model.ipynb
3 offline_model.ipynb 离线模型
4 online_model.ipynb 线上模型

4.特征工程

  • 原始特征
  • 穿越特征
  • 统计特征
  • embedding特征

5.模型训练

单模,初赛最终榜:0.83695 线上第三