Skip to content

a20180502/chooseStock

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

chooseStock

智能选股因子分析系统

场景描述

主要目的:在探究长期持股的影响因子的项目研究下,开发系统,辅助业务人员通过人工智能深度学习或机器学习的方式,进行数据分析,选取可以长期持有的股票或股票特征。 业务人员通过配置文件或者界面等方式,实现对特征的添加、特征的处理、特征的训练等投资经理可以通过界面化操作,将自己想要尝试的特征数据按照一定格式,放入到本系统中,动态的进行特征的清洗、特征预处理等操作,转化成可以直接输入到模型中的数据格式。并且可以通过界面化操作进行模型的建立、训练、回撤等。对模型进行保存,方便后边进行使用。 本系统最大程度减少业务人员在人工智能分析中所有的工作流程,全部依靠界面化动态进行特征数据的分析,帮助投资经理进行特征分析、选股等操作。

功能模块

数据生成

数据的生成主要是包括了训练数据的生成。该过程将从数据库中下载来的文件,进行初始化,进行整理。合并成一个文件供后期特征工程和训练。
通过读取配置文件,获取所有下来过来的数据,该过程需要实现:去除没必要的列(ID),去除相同的列,根据主键进行合并到训练文件。
该模块还包括对股票关键信息的获取,根据选取的股票池信息,生成该股票

数据预处理

数据预处理的主要功能是进行数据的清洗,将数据进行初步整理。主要过程如下:
  1. 根据业务去掉不需要的列
  2. 去除所有行以及所有的列均为nan的数据
  3. 去除缺失率高的特征,默认超过0.99则不考虑
  4. 去除特征中包含实例类别太多的特征,默认包含1000个实例则不考虑
  5. 对于数值型,如果标准差太小的,则不考虑该特征
  6. 样本在重要特征缺失情况如果比较多,则把这些行去掉
  7. 文本字符的处理(对于标称值,进行归类,比如大小写归并,同词义的不同的词汇归并,将有空格的去掉等;)
  8. 按业务逻辑完全不可解释的变量直接剔除
  9. 对缺失值的多维度处理
  10. 对离散点的处理 该过程是所有人工智能处理数据的不需要的流程。该过程需要的一些数据可以通过配置文件进行配置。

About

智能选股因子分析系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages