智能选股因子分析系统
主要目的:在探究长期持股的影响因子的项目研究下,开发系统,辅助业务人员通过人工智能深度学习或机器学习的方式,进行数据分析,选取可以长期持有的股票或股票特征。 业务人员通过配置文件或者界面等方式,实现对特征的添加、特征的处理、特征的训练等投资经理可以通过界面化操作,将自己想要尝试的特征数据按照一定格式,放入到本系统中,动态的进行特征的清洗、特征预处理等操作,转化成可以直接输入到模型中的数据格式。并且可以通过界面化操作进行模型的建立、训练、回撤等。对模型进行保存,方便后边进行使用。 本系统最大程度减少业务人员在人工智能分析中所有的工作流程,全部依靠界面化动态进行特征数据的分析,帮助投资经理进行特征分析、选股等操作。
数据的生成主要是包括了训练数据的生成。该过程将从数据库中下载来的文件,进行初始化,进行整理。合并成一个文件供后期特征工程和训练。
通过读取配置文件,获取所有下来过来的数据,该过程需要实现:去除没必要的列(ID),去除相同的列,根据主键进行合并到训练文件。
该模块还包括对股票关键信息的获取,根据选取的股票池信息,生成该股票
数据预处理的主要功能是进行数据的清洗,将数据进行初步整理。主要过程如下:
- 根据业务去掉不需要的列
- 去除所有行以及所有的列均为nan的数据
- 去除缺失率高的特征,默认超过0.99则不考虑
- 去除特征中包含实例类别太多的特征,默认包含1000个实例则不考虑
- 对于数值型,如果标准差太小的,则不考虑该特征
- 样本在重要特征缺失情况如果比较多,则把这些行去掉
- 文本字符的处理(对于标称值,进行归类,比如大小写归并,同词义的不同的词汇归并,将有空格的去掉等;)
- 按业务逻辑完全不可解释的变量直接剔除
- 对缺失值的多维度处理
- 对离散点的处理 该过程是所有人工智能处理数据的不需要的流程。该过程需要的一些数据可以通过配置文件进行配置。