PaddlePaddle · Yancey1989 · Jul 26, 2017 · Jul 26, 2017 · Jul 26, 2017 · Jul 26, 2017
diff --git a/doc/tutorial_cn.md b/doc/tutorial_cn.md
@@ -148,3 +148,6 @@ paddlecloud file get /pfs/dlnel/home/[email protected]/jobs/fit_a_line/output/pas
 ```back
 paddlecloud kill fit-a-line
 ```
+
+---
+详细使用文档见：[中文使用文档](./usage_cn.md)
diff --git a/doc/usage_cn.md b/doc/usage_cn.md
@@ -68,6 +68,47 @@ scp -r my_training_data_dir/ user@tunnel-server:/mnt/hdfs_mulan/idl/idl-dl/mydir
 
 在训练任务提交后，每个训练节点会把HDFS挂载在`/pfs/[datacenter_name]/home/[username]/`目录下这样训练程序即可使用这个路径读取训练数据并开始训练。
 
+### 使用[RecordIO](https://github.com/PaddlePaddle/recordio)对训练数据进行预处理
+用户可以在本地将数据预先处理为RecordIO的格式，再上传至集群进行训练。
+- 使用RecordIO库进行数据预处理
+```python
+import paddle.v2.dataset as dataset
+dataset.convert(output_path = "./dataset",
+                reader = dataset.uci_housing.train(),
+                num_shards = 10,
+                name_prefix = "uci_housing_train")
+```
+  - `output_path` 输出路径
+  - `reader` 用户自定义的reader
+  - `num_shards` 生成的文件数量
+  - `num_prefix` 生成的文件名前缀
+
+执行成功后会在本地生成如下文件：
+```bash
+.
+./dataset
+./dataset/uci_houseing_train-00000-of-00009
+./dataset/uci_houseing_train-00001-of-00009
+./dataset/uci_houseing_train-00002-of-00009
+./dataset/uci_houseing_train-00003-of-00009
+...
+```
+
+- 编写reader来读取RecordIO格式的文件
+```python
+import cPickle as pickle
+def cluster_creator(filename):
+    import recordio
+    def reader():
+        r = recordio.reader("./dataset/uci_housing_train*")
+        while True:
+            d = r.read()
+            if not d:
+                break
+            yield pickle.loads(d)
+    return reader
+```
+
 ### 使用paddlecloud上传训练数据
 
 paddlecloud命令集成了上传数据的功能，目前仅针对存储系统是CephFS的环境。如果希望上传，执行：