Releases: PaddlePaddle/PaddleRec
Releases · PaddlePaddle/PaddleRec
PaddleRec v2.3.0
PaddleRec v2.3.0 Release Note
重要更新
- 新增在线运行功能,支持用户零成本使用PaddleRec
- 新增paper目录,追踪推荐系统前沿进展
- 新增16个经典数据集,17个模型
- 新增外部开发者贡献列表
- 新增主页最新动态模块,方便用户快速获取PaddleRec最新信息
功能新增及优化
- 新增飞桨训推一体认证流程
- 新增AI Studio一键在线运行功能
- 新增前沿推荐顶会论文的分析模块
- 新增16个经典数据集,提供稳定的数据下载地址
- 支持CPUPS稀疏参数统计量自动统计、稀疏参数增量保存等功能
- 支持新硬件NPU、XPU运行
- 适配DataLoader多线程加载数据功能
- 修复多任务多instag场景下精度计算不准确的问题
- 修复PaddleRec在动态图infer阶段计算auc没有reset的问题
- 修复部分文档链接失效问题
- 修复MMoE和PLE参数初始化方式
模型新增及优化
- 新增多任务模型 MMoE Dselect_K AITM ESCM2
- 新增排序模型 BERT4Rec FAT_DeepFFM DeepRec AutoFIS DCN_V2 SIGN DSIN IPRec
- 新增召回模型 ENSFM TiSAS MHCN
- 新增匹配模型 KIM
- 新增元学习模型 MetaHeac
教程更新
- 新增CPUPS流式训练优化文档教程
- 新增短视频场景下多任务学习应用教程
- 新增外部开发者贡献列表
论文复现赛
- 感谢jinweiluo 贡献BERT4Rec模型
- 感谢LinJayan 贡献FAT_DeepFFM FLEN DCN_V2模型
- 感谢chenjiyan2001 贡献DeepRec模型
- 感谢renmada 贡献ENSFM TiSAS AutoFIS KIM IPRec AITM模型
- 感谢Andy1314Chen 贡献Dselect_K MHCN模型
- 感谢BamLubi 贡献SIGN模型
- 感谢simuler 贡献MetaHeac模型
- 感谢yoreG123 chenjiyan2001 贡献FGCNN模型
- 感谢Li-fAngyU 贡献DSIN模型
PaddleRec v2.2.0
PaddleRec v2.2.0 Release Note
重要更新
- 提供面向产业应用的推荐系统全流程的解决方案
- 新增17个经典数据集,9个模型
- 支持GpuPS训练
功能新增及优化
- 支持流式训练、特征重要性、在离线一致性等推荐全流程相关功能
- 支持c++ 实现的Paddle Serving部署
- 支持c++,java,python,go四种语言进行推理
- 支持GpuPS训练
- 新增17个经典数据集,提供稳定的数据下载地址
- 新增PGL图模型支持,以deepwalk模型作为示例
模型新增及优化
- 新增图算法模型 deepwalk
- 新增排序模型 bst,din,dien,dcn,dmr,deepfefm,dlrm
- 新增元学习模型 maml
教程更新
- 新增GpuPS的分布式文档教程
- 新增单机转分布式教程
- 新增用户贡献代码教程
- 新增推荐全流程教程,包括流式训练、特征重要性、在离线一致性检查相关功能教程
论文复现赛
- 感谢thinkall 贡献DMR模型 DeepFEFM模型
- 感谢hrdws 贡献MAML模型
- 感谢Andy1314Chen 贡献DLRM模型
PaddleRec v2.1.0
PaddleRec v2.1.0 Release Note
重要更新
- 支持inference预测库和serving部署
- 支持Paddle/Perf的Benchmark功能
- 支持单机多卡,多机多卡训练
- 新增召回模型MIND,升级PLE, FFM等5个模型到2.0API和支持动态图
- 新增12个经典数据集,提供稳定的数据下载地址
功能新增及优化
- 支持inference预测库和serving部署
- 支持单机多卡,多机多卡训练
- 支持开源工具Milvus用于向量存储和召回服务
- 支持Paddle/Perf的Benchmark功能
- 新增12个经典数据集,提供稳定的数据下载地址
- 新增可视化支持,引入VisualDL
- 优化LOG打印规范,统一动静打印信息的方式和输出格式
- 修复gpu静态图auc无法置空的问题
模型新增及优化
- 新增召回模型MIND
- 升级PLE, ShareBtm, FFM, xdeepfm,NCF个到2.0API和支持动态图
- 修复LR动态图精度
- 未支持动态图的模型保留在release/1.8.5分支下
教程更新
- 新增Milvus教程
- 新增完善动转静,预测部署,可视化等文档
PaddleRec v2.0.0
PaddleRec v2.0.0 Release Note
重要更新
- 此版本适配飞桨版本为v2.0.0,框架模型全面升级到2.0API
- 支持动态图功能,重构为动静统一的模型结构,方便用户调研和上线
- 重构框架,无需进行安装,支持多环境直接使用python在任意目录下一键启动
- 新增经典数据集,提供稳定的数据下载地址
功能新增及优化
- 运行无需安装,支持linux/windows/mac在任意目录下一键启动
- 新增动态图训练模式,支持单机CPU、GPU训练和预测
- 新增动转静功能,支持将动态图保存的参数转化为静态图参数
- 新增调试功能,动静都支持在运行中打印中间结果
- 新增数据集datasets目录,包含经典数据集的预处理和数据下载地址
- 新增流式训练trainer
- 优化目录结构,由models、tools、datasets和doc构成
- 优化LOG打印规范,统一规范打印信息的方式和输出格式
- 修复多任务多个auc无法置空的问题
- 修复windows,linux,macos平台数据处理命令不同可能需要手动转化的问题
模型新增及优化
- 新增模型排序模型GateDnn和NAML
- 新增dnn, deepfm, textcnn, mmoe等15个模型的动态图模式,动静一致的2.0API组网和全量数据的复现yaml配置
- 优化wide&deep, deepfm, fm的模型组网
- 未支持动态图的模型保留在release/1.8.5分支下
教程更新
- 新增aistudio上的电影推荐教程
- 更新入门教程、进阶教程的全套文档
PaddleRec v1.8.5
PaddleRec v1.8.5 Release Note
重要更新
- 此版本适配飞桨版本为v1.8.5
- 框架升级,支持更加灵活的reader及模型适配, 支持更加灵活的训练模式定义及数据读取定义
- 新增9个模型,并对多个已支持模型进行了优化
- 取消内置
paddlerec.models.rank.
等模型的内置配置方法, 统一由用户根据yaml的路径进行配置 - 支持Kubernetes、PaddleCloud一键提交飞桨分布式训练
- 支持CPU/GPU下进行飞桨分布式训练, 支持GPU下collective模式训练,支持GPU下parameter server模式训练及CPU下parameter server模式训练
功能新增及修复
- 新增collective模式支持GPU多卡训练、parameter server模式支持GPU-PS训练、单机多卡训练等
- 新增分布式训练任务提交功能,支持在MPI/Kubernetes/PaddleCloud上一键启动训练
- 新增多个指标的计算和分布式计算功能,包括AUC、Recall_k(召回topk的准确率)、PN(正逆序)、Precison_Recall等
- 新增BatchReader功能, 可由用户在Reader中自行组batch
- 新增预训练Trainer及流式训练Trainer,可支持用户对预训练及流式训练的需求
- 新增本地文件列表shuffle的功能,在训练前进行数据文件粒度的shuffle支持
- 新增batch级别模型保存
- 数据读取优化,加入SlotReader, 用户只需要按照要求生成好数据并配置好数据格式即可使用飞桨高效训练
- 修复LOG打印,规范log级别及log输出格式
- 修复Windows下安装出错的bug
- 修复数据读取读取隐藏文件的bug
- 修复collective多卡数据不均匀划分导致训练异常的bug
- 修复learning rate不支持科学计数法的bug
模型新增及修复
- 新增模型DIEN、BST、AutoInt、FGCNN、Fibinet、FLEN、RALM、Match-pyramid、TDM 等模型
- 新增预训练模型TextCNN
- 为Fibinet、FLEN、youtubednn、gnn、word2vec等模型加入Readme,数据处理,运行结果展示等功能,修复模型效果问题
- 修复Rank目录下DNN、LR、FM、DeepFM等多个模型的Readme
- 修复Recall目录下多个Readme中模型配置及路径问题
- TDM加入完整训练流程,包括训练、建树、聚类及在线预测
教程更新
- 新增单机训练、分布式训练、流式训练及英文教程、 预训练模型教程
release v0.1.0
PaddleRec 0.1.0发布
功能:支持一键启动训练,四大可插拔组件,多种训练模式自动兼容
- Engine:覆盖不同运行平台,含cpu/gpu;单机、分布式(单机PS、单机多卡;PaddleCloud/MPI/K8S下的多机ps、多机多卡);支持不同操作系统(ubuntu/centos/macos/windows)
- Trainer: 支持组件化自定义训练流程,含ps-transpiler、ps-pslib、collective
- Model: 支持快速构建新组网,已预置几十种经典模型
- Reader: 支持高效灵活的数据处理,含slot-feasign数据读取、自定义reader
模型库:
- 31+推荐算法,基本覆盖推荐各个模块的主流算法:内容理解模型(2),召回模型(7),排序模型(15),多目标模型(3),重排序模型(1),树模型(1),匹配模型(2)
文档:
- 快速开始:十分钟上手PaddleRec(AIStudio教程) 使用了MovieLens 1M数据集训练了召回+推荐模型,并模拟了在线推荐的全流程。使得用户通过该简单示例能够快速使用PaddleRec的数据处理、训练、预测等功能。
- 入门教程:数据准备、模型调参、启动训练、启动预测、快速部署
- 进阶教程:自定义数据处理、自定义模型、自定义训练流程
PaddleRec release 0.1.0
Major Features and Components:
- Start training with one-line command
- Training framework with four extensible modules supported
- Engine: local training and distributed training supported on CPU/GPU on multiple platforms
- Trainer: support user-defined training logics
- Model: easy to develop user-defined models and plugin models
- Reader: high performance data processing with user-defined processing functions.
Model zoos:
- more than 30 plugin deep learning algorithms in recommendation system pipelines, such as content understanding models, recall models, ranking models, multi-task models, reranking models, tree-based models and matching models, etc.
Documentation
- Quick start: 10 minutes hands on tutorial with movielens 1M dataset. Users can understand what is going on in recommender system offline training through data processing, training, validation.
- Basic tutorials, covering data preprocessing, model hyper-parameter tuning, training, prediction, deployment
- Advanced tutorials, including how to do user-defined data preprocessing, how to write a user-defined network, training pipeline customization.
Special Thanks to our Contributors
xiexionghang (for initial commit contribution)