关于UIE信息抽取，你遇到了什么难题、还有哪些需求？欢迎反馈。也欢迎分享实践经验！ #3316

chenxiaozeng · 2022-09-20T04:08:53Z

chenxiaozeng
Sep 20, 2022
Collaborator

PaddleNLP发布通用信息抽取技术UIE后，收到众多用户的积极反馈。欢迎各位提出在信息抽取场景下面临的各种问题，在此讨论当中将会有来自诸多专业团队的人员的讨论和回复，也欢迎各位参与此讨论当中来。特开此贴：

【FAQ】收集常见问题，沉淀FAQ，供大家使用。
【Feature】收集需求、难题，以迭代功能。
【Others】收集使用反馈、实践经验，开放交流。

大家可按照以下格式来发起讨论topic：

FAQ/Feature/Others

想要咨询问题（FAQ）、还是提出新需求（Feature）、或者反馈使用情况、分享实践经验（Others）？

详细说明

无论是需求还是难题，都可在此处作详细描述，需说明项目背景、数据集描述（语言、规模等）、采用的模型、达成的精度和性能、预期效果等。

chenxiaozeng · 2022-09-20T04:43:14Z

chenxiaozeng
Sep 20, 2022
Collaborator Author

UIE FAQ

Schema、Prompt相关

如何设置UIE的schema，有什么经验？
A: 因为是开放域信息抽取，UIE的schema设置没有特殊限制，标签名称符合自然语言语义即可。不同任务的schema设置可以参考UIE主文档里面的说明和具体例子：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
UIE做事件抽取的时候，事件论元的实体类型会影响抽取的结果吗？
A：zero shot的方式会有一些影响，加数据微调定制后影响不大。

训练

关系抽取的finetune数据格式？
A：可以参考这个项目：https://aistudio.baidu.com/aistudio/projectdetail/4371345。
UIE 可以用多块cpu训练吗？是否支持分布式训练？
A：预测是支持多核的，训练阶段目前还不支持多核，可以参考这个issue 使用CPU对UIE进行finetune时只能利用单核 #2815
用uie-base做事件抽取任务，用daccano标注50条，用fitune.py微调，看上去f1有0.89，然后训练集数据用taskflow预测看看结果，一条都测不出来，感觉比较奇怪。
A：可以确认下是否是调用的best model。一般模型的目录都会自动生成一个static目录，这里放着是静态图模型，best_model模型如果被overwrite了可以把目录里面static目录删除，重新导出一次静态图模型。

部署及加速

UIE推荐什么部署方式？
A：参考https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie#%E6%A8%A1%E5%9E%8B%E9%83%A8%E7%BD%B2
在CPU上，UIE如何加速？
A：CPU上MKLDNN和多核加速策略已经内置到PaddleNLP taskflow里了。

PaddleNLP/paddlenlp/taskflow/task.py

Line 157 in baf0247

def _prepare_static_mode(self):

调用Taskflow即可进行加速。
在GPU上，UIE如何加速？
A：如果GPU满足算力和环境要求，可以尝试使用混合精度FP16推理，速度更快，显存占用也更少。
用uie预测数据结果，2MB，5万条数据预测要十几分钟。看了一下GPU处理推理是几乎瞬间算完，cpu一直占用率100%。有没有办法提升一下这个预测时间？
A：如果GPU显存足够的话可以试试起多个Taskflow实例并发处理来缓解一些IO瓶颈。

标注工具

现在PaddleNLP有没有针对NER打标签的工具，doccano这种太慢了，只能标30几个类，我这边是80多个类。因为doccano支持的类别太少，导致一个文本得标注多次。
A：我们评估下这个需求。
Auto Labeling功能？
A：我们评估下这个需求。

UIE Pretrain

PaddleNLP中开源的UIE和Paper中的UIE有什么区别，有什么优劣势？为什么把原论文的生成式任务变为抽取式任务，以及模型层面的改进和考虑？
A：开源的UIE模型和paper的生成式的UIE模型用的不是同一种方式，开源UIE的底座预训练模型是ERNIE 3.0系列模型，微调上使用的的金融、法律、医疗这些domain领域的数据。
PaddleNLP的UIE是基于固定prompt的判别式模型，在零样本、小样本和推理速度上表现更好些。
原论文是生成式，代码也已经开源：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuUIE。
生成式任务在模型预测速度、模型蒸馏上相对来说抽取任务没有优势，在工业场景抽取式的任务相对来说速度更快，小样本效果更好。
UIE中文不管什么任务的prompt都是用 “的” 组合起来吗？很好奇pretrain是怎样训练的?
A：是的，预训练阶段prompt的构造也是按照这个方式。

其它

uie模型支持嵌套实体识别吗？
A：同类别嵌套不支持，不同类别之间的嵌套是可以的。
待预测文本明明不包含某个实体，但是确抽取出了不相关的内容作为该实体值。这种情况要怎么优化？
A：可以通过输出的置信度做下筛选。
UIE负例如何构造?在那个阶段构造的？构造方法是？
A：UIE负例构造是在doccano标注数据转为UIE训练数据格式的时候构造完成的，即执行doccano.py脚本的时候进行的。负例构造的方式可以参考这篇文章：如何理解UIE中的负例数据？
UIE支持不连续实体吗？
A：目前不直接支持，但是可以转换成关系抽取任务试试。举个例子，

不连续实体『手脚.....浮肿』可以标注为症状『浮肿』+部位『手脚』关系抽取的形式。理论上模型可以支持不连续实体，但是不连续数据太少了，并且只有少数场景能用上。换一个更复杂的任务层大多数情况得不偿失。

UIE对空格好像比较困惑，遇到空格很容易判断出错，需要我们自己用逗号替换空格吗？
A：模型在初次微调的时候都是以句号结束的，因此微调训练的样本也是以句号结束的话，需要的微调样本会少点。除了空格，如果一句话以换行符结尾而不以句号等符号结尾，也可以尝试做个预处理。
windows上，uie微调训练没开始训练就结束了？

A：windows机器上可固定一下scipy的版本 scipy<=1.3.1 or scipy>=1.7.3。
PaddleNLP模型可以在安卓上跑吗?
A：可以通过两种方式来做部署，一种是将模型转成onnx，通过onnxruntime来做部署，另外一种方式是通过paddlelite来做部署，https://github.com/PaddlePaddle/Paddle-Lite
UIE能对表单，表格，简历，申请书之类的图片做信息抽取吗？
A：跨模态文档版UIE打算解答这个需求，正在研发中。
UIE训练的时候，输入的文本长度有限制吗。假如我有个文本是超过512，但是我的标签在512之后，训练的时候被截断，那么标签也对不上，这种情况怎么办呢
A：UIE训练最大长度是512，超过的文本可以手动截成多段文本重新进行标签映射
UIE输出结果中start、end是什么含义？
A：start、end表示要抽取的目标片段（我们称为span）在原文本中的起始位置和终止位置，例如原文本为2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌！，实体标签时间对应的抽取结果为2月8日上午，那么对应的start、end分别是0和6。
UIE对于长文本的抽取能力如何？例如抽取招标文件中的资质要求（有好几段话）？这种情况推荐用UIE么，还是文本分类呢？
A：UIE会对输入的长文本按照设定的最大长度（例如512）自动切分为多个片段，在返回结果时会自动合并结果。在具体业务场景上，如果要抽取的目标片段较短可以考虑用UIE来抽取；如果要抽取的目标片段比较长，例如招标文件中的招标内容通常会是一段比较长的文本，如果要识别不同性质的招标内容，我们推荐采用文本分类来做，对不同招标内容进行分类。

0 replies

yuansky · 2022-09-20T05:25:09Z

yuansky
Sep 20, 2022

UIE是否未来有支持小语种的可能性（日语，韩语，泰语，法语等）

1 reply

linjieccc Sep 29, 2022
Collaborator

目前小语种的语料在UIE预训练阶段还没有加入，所以zero-shot模型不支持小语种的预测，主要是因为这部分语料的收集标注成本比较高。如果业务上有比较多的语料，可以直接基于uie-m-large来训练。

dingidng · 2022-09-20T07:29:54Z

dingidng
Sep 20, 2022

希望在蒸馏版本基础上，后续也支持量化、剪枝、NAS等方案，以及cpu多核多进程处理，多卡推理部署
在目前GPU推理下：Taskflow传入device_id来实现，希望可以有多进程方案提速

1 reply

linjieccc Sep 29, 2022
Collaborator

感谢关注~

UIE量化功能目前已经开发中，后续会在仓库中开源出来，Taskflow CPU下目前默认是多核推理加速的。

dingidng · 2022-09-21T05:03:21Z

dingidng
Sep 21, 2022

优化一下UIE关系抽取evaluate.py输出 #3224

1 reply

linjieccc Sep 29, 2022
Collaborator

目前针对关系抽取的debug模式已优化，可以拉最新的develop代码试试，示例如下：

[2022-09-14 03:13:58,877] [    INFO] - -----------------------------
[2022-09-14 03:13:58,877] [    INFO] - Class Name: 疾病
[2022-09-14 03:13:58,877] [    INFO] - Evaluation Precision: 0.89744 | Recall: 0.83333 | F1: 0.86420
[2022-09-14 03:13:59,145] [    INFO] - -----------------------------
[2022-09-14 03:13:59,145] [    INFO] - Class Name: 手术治疗
[2022-09-14 03:13:59,145] [    INFO] - Evaluation Precision: 0.90000 | Recall: 0.85714 | F1: 0.87805
[2022-09-14 03:13:59,439] [    INFO] - -----------------------------
[2022-09-14 03:13:59,440] [    INFO] - Class Name: 检查
[2022-09-14 03:13:59,440] [    INFO] - Evaluation Precision: 0.77778 | Recall: 0.56757 | F1: 0.65625
[2022-09-14 03:13:59,708] [    INFO] - -----------------------------
[2022-09-14 03:13:59,709] [    INFO] - Class Name: X的手术治疗
[2022-09-14 03:13:59,709] [    INFO] - Evaluation Precision: 0.90000 | Recall: 0.85714 | F1: 0.87805
[2022-09-14 03:13:59,893] [    INFO] - -----------------------------
[2022-09-14 03:13:59,893] [    INFO] - Class Name: X的实验室检查
[2022-09-14 03:13:59,894] [    INFO] - Evaluation Precision: 0.71429 | Recall: 0.55556 | F1: 0.62500
[2022-09-14 03:14:00,057] [    INFO] - -----------------------------
[2022-09-14 03:14:00,058] [    INFO] - Class Name: X的影像学检查
[2022-09-14 03:14:00,058] [    INFO] - Evaluation Precision: 0.69231 | Recall: 0.45000 | F1: 0.54545

hy2632 · 2022-12-01T07:48:27Z

hy2632
Dec 1, 2022

UIE有没有针对指代消解的设计？如果没有、需要额外预处理，有没有最佳实践？

1 reply

linjieccc Feb 22, 2023
Collaborator

可以试下，将每个代词和指代的东西打上关系标签，转换为关系抽取的形式

zhangluustb · 2022-12-30T06:56:15Z

zhangluustb
Dec 30, 2022

UIE预训练对多实体效果不佳，是否在预训练中多实体语料稀少导致的？有计划改进吗？ @chenxiaozeng

1 reply

xxllp Jan 17, 2023

啥叫多实体

meditations · 2023-01-20T23:32:57Z

meditations
Jan 20, 2023

UIE抽取英文信息的时候，比如一个长的地址，中间所有的空格都被删除了，出来就是一团字符，因为中文是没有空格的，但是英文是依赖空格去分词的，能否检测到如果是英文，就不用去除中间的空格呢？@chenxiaozeng

1 reply

linjieccc Feb 22, 2023
Collaborator

可以举个例子吗？UIE只预测实体在原始文本的起始和终止位置，不会对原始文本进行其他处理

weilong-chen · 2023-02-06T12:53:10Z

weilong-chen
Feb 6, 2023

uie-sent-base语句级情感分类任务,能否支持: 正向、负向、中性，三种分类？

0 replies

BrightXiaoHan · 2023-02-23T12:24:30Z

BrightXiaoHan
Feb 23, 2023

请问有没有可能批量进行schema不同的实体抽取呢？
关联issue：#4789

0 replies

MyStarting · 2023-02-27T06:39:24Z

MyStarting
Feb 27, 2023

【FAQ】你好，我用的是finetune.py对模型进行微调，为什么在./checkpoint/model_best下只有运行日志vdlrecords.1677479107.log，没有模型信息，训练好的模型数据不是在output_dir 里吗？
!python finetune.py \ --device gpu \ --logging_steps 10 \ --save_steps 10 \ --eval_steps 10 \ --seed 50 \ --model_name_or_path ./uie-base \ --output_dir "checkpoint/model_best" \ --overwrite_output_dir True\ --train_path data/train.txt \ --dev_path data/dev.txt \ --max_seq_length 512\ --per_device_train_batch_size 64 \ --per_device_eval_batch_size 64 \ --num_train_epochs 100 \ --learning_rate 1e-5 \ --do_train True \ --do_eval True \ --do_export True \ --evaluation_strategy "epoch"\ --save_strategy "epoch" \ --logging_strategy "epoch" \ --export_model_dir ./checkpoint/model_best \ --metric_for_best_model eval_f1 \ --metric_for_best_model eval_accuarcy \ --report_to all \ --load_best_model_at_end True

4 replies

1ZhangMR Jun 26, 2023

您好，请问您找到问题了吗？我也是这种情况

MyStarting Jun 26, 2023

我的是显卡太小了，后面在百度aistudio上运行下就没问题了。

MyStarting Jun 26, 2023

本地的话可以考虑把batch_size 调小，或者换成cpu

1ZhangMR Jun 27, 2023

好的，感谢您的回复！

yycoolsam · 2023-04-24T04:43:20Z

yycoolsam
Apr 24, 2023

【FAQ】你好，我用的是finetune.py对模型进行微调，使用cpu运行后能正常生成模型，但是使用gpu后模型无法生成，仅生成运行日志。
python：3.8.10
paddlenlp: 2.5.2
paddlepaddle-gpu : 2.4.2.post117
numpy: 1.21.6
pandas : 1.2.4
scipy : 1.7.3
显卡的信息
GTX1060
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_19:00:59_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0

这是运行使用参数
finetune.py 运行时cmd提示信息，没有后续信息，只有提示开始训练的信息。 [2023-04-24 10:57:46,552] [ [2023-04-24 10:57:46,553] [ [2023-04-24 10:57:46,554] [ [2023-04-24 10:57:46,555] [ [2023-04-24 10:57:46,555] [ [2023-04-24 10:57:46,556] [ [2023-04-24 10:57:46,556] [ [2023-04-24 10:57:46,557] [ [2023-04-24 10:57:46,557] [ [2023-04-24 10:57:46,558] [ [2023-04-24 10:57:46,558] [ [2023-04-24 10:57:46,559] [ [2023-04-24 10:57:46,560] [ [2023-04-24 10:57:46,561] [ ... [2023-04-24 10:57:46,592] [ "attention_probs_dropout_prob": "enable_recompute": false, "fuse": false, "hidden_act": "gelu", "hidden_dropout_prob": 0.1, "hidden_size": 768, "initializer_range": 0.02, "intermediate_size": 3072, "layer_norm_eps": 1e-12, "max_position_embeddings": 2048, "model_type": "ernie", "num_attention_heads": 12, "num_hidden_layers": 12, "pad_token_id": 0, "paddlenlp_version": null, "pool_act": "tanh", "task_id": 0, "task_type_vocab_size": 3, "type_vocab_size": 4, "use_task_id": true, "vocab_size": 40000 } W0424 10:57:48.045794 W0424 10:57:48.051805 [2023-04-24 10:57:49,103] [ --device "gpu" --logging_steps 100 --save_steps 100 --eval_steps 100 --seed 42 --model_name_or_path uie-base --output_dir model/paddlepaddle/model_best --train_path data/train.txt --dev_path data/dev.txt --max_seq_length 512 --per_device_eval_batch_size 16 --per_device_train_batch_size 16 --num_train_epochs 20 --learning_rate 1e-4 --label_names "start_positions" "end_positions" --do_train --do_eval --do_export --export_model_dir model/paddlepaddle/model_best --overwrite_output_dir --disable_tqdm True --metric_for_best_model eval_f1 --load_best_model_at_end True --save_total_limit 1
INFO] - ============================================================
INFO] - Model Configuration Arguments
INFO] - paddle commit id :0e92adceae06b6b7463f2dc7790ffb0601730009
INFO] - export_model_dir :model/paddlepaddle/model_best
INFO] - model_name_or_path :uie-base
INFO] - multilingual :False
INFO] -
INFO] - ============================================================
INFO] - Data Configuration Arguments
INFO] - paddle commit id :0e92adceae06b6b7463f2dc7790ffb0601730009
INFO] - dev_path :data/dev.txt
INFO] - dynamic_max_length :None
INFO] - max_seq_length :512
INFO] - train_path :data/train.txt
INFO] - Model config ErnieConfig {
0.1,
8648 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 6.1, Driver API Version: 12.1, Runtime API Version: 11.7
8648 gpu_resources.cc:91] device: 0, cuDNN Version: 8.8.
INFO] - All model checkpoint weights were used when initializing UIE.

[2023-04-24 10:57:49,104] [ INFO] - All the weights of UIE were initialized from the model checkpoint at uie-base.
If your task is similar to the task the model of the checkpoint was trained on, you can already use UIE for predictions without further training.
[2023-04-24 10:57:49,198] [ INFO] - ============================================================
[2023-04-24 10:57:49,199] [ INFO] - Training Configuration Arguments
[2023-04-24 10:57:49,200] [ INFO] - paddle commit id :0e92adceae06b6b7463f2dc7790ffb0601730009
[2023-04-24 10:57:49,201] [ INFO] - _no_sync_in_gradient_accumulation:True
[2023-04-24 10:57:49,202] [ INFO] - activation_quantize_type :None
[2023-04-24 10:57:49,202] [ INFO] - adam_beta1 :0.9
[2023-04-24 10:57:49,203] [ INFO] - adam_beta2 :0.999
[2023-04-24 10:57:49,203] [ INFO] - adam_epsilon :1e-08
[2023-04-24 10:57:49,204] [ INFO] - algo_list :None
[2023-04-24 10:57:49,204] [ INFO] - batch_num_list :None
[2023-04-24 10:57:49,205] [ INFO] - batch_size_list :None
[2023-04-24 10:57:49,205] [ INFO] - bf16 :False
[2023-04-24 10:57:49,206] [ INFO] - bf16_full_eval :False
[2023-04-24 10:57:49,206] [ INFO] - bias_correction :False
[2023-04-24 10:57:49,207] [ INFO] - current_device :gpu:0
[2023-04-24 10:57:49,207] [ INFO] - dataloader_drop_last :False
[2023-04-24 10:57:49,208] [ INFO] - dataloader_num_workers :0
[2023-04-24 10:57:49,208] [ INFO] - device :gpu
[2023-04-24 10:57:49,209] [ INFO] - disable_tqdm :True
[2023-04-24 10:57:49,210] [ INFO] - do_compress :False
[2023-04-24 10:57:49,211] [ INFO] - do_eval :True
[2023-04-24 10:57:49,211] [ INFO] - do_export :True
[2023-04-24 10:57:49,212] [ INFO] - do_predict :False
[2023-04-24 10:57:49,212] [ INFO] - do_train :True
[2023-04-24 10:57:49,213] [ INFO] - eval_batch_size :16
[2023-04-24 10:57:49,213] [ INFO] - eval_steps :100
[2023-04-24 10:57:49,214] [ INFO] - evaluation_strategy :IntervalStrategy.STEPS
[2023-04-24 10:57:49,214] [ INFO] - flatten_param_grads :False
[2023-04-24 10:57:49,215] [ INFO] - fp16 :False
[2023-04-24 10:57:49,215] [ INFO] - fp16_full_eval :False
[2023-04-24 10:57:49,216] [ INFO] - fp16_opt_level :O1
[2023-04-24 10:57:49,216] [ INFO] - gradient_accumulation_steps :1
[2023-04-24 10:57:49,217] [ INFO] - greater_is_better :True
[2023-04-24 10:57:49,217] [ INFO] - ignore_data_skip :False
[2023-04-24 10:57:49,218] [ INFO] - input_dtype :int64
[2023-04-24 10:57:49,218] [ INFO] - input_infer_model_path :None
[2023-04-24 10:57:49,220] [ INFO] - label_names :['start_positions', 'end_positions']
[2023-04-24 10:57:49,221] [ INFO] - lazy_data_processing :True
[2023-04-24 10:57:49,221] [ INFO] - learning_rate :0.0001
[2023-04-24 10:57:49,222] [ INFO] - load_best_model_at_end :True
[2023-04-24 10:57:49,222] [ INFO] - local_process_index :0
[2023-04-24 10:57:49,223] [ INFO] - local_rank :-1
[2023-04-24 10:57:49,223] [ INFO] - log_level :-1
[2023-04-24 10:57:49,224] [ INFO] - log_level_replica :-1
[2023-04-24 10:57:49,224] [ INFO] - log_on_each_node :True
[2023-04-24 10:57:49,225] [ INFO] - logging_dir :model/paddlepaddle/model_best\runs\Apr24_10-57-46_yjb-server
[2023-04-24 10:57:49,225] [ INFO] - logging_first_step :False
[2023-04-24 10:57:49,226] [ INFO] - logging_steps :10
[2023-04-24 10:57:49,226] [ INFO] - logging_strategy :IntervalStrategy.STEPS
[2023-04-24 10:57:49,227] [ INFO] - lr_scheduler_type :SchedulerType.LINEAR
[2023-04-24 10:57:49,227] [ INFO] - max_grad_norm :1.0
[2023-04-24 10:57:49,228] [ INFO] - max_steps :-1
[2023-04-24 10:57:49,228] [ INFO] - metric_for_best_model :eval_f1
[2023-04-24 10:57:49,229] [ INFO] - minimum_eval_times :None
[2023-04-24 10:57:49,231] [ INFO] - moving_rate :0.9
[2023-04-24 10:57:49,231] [ INFO] - no_cuda :False
[2023-04-24 10:57:49,232] [ INFO] - num_train_epochs :20.0
[2023-04-24 10:57:49,232] [ INFO] - onnx_format :True
[2023-04-24 10:57:49,233] [ INFO] - optim :OptimizerNames.ADAMW
[2023-04-24 10:57:49,233] [ INFO] - output_dir :model/paddlepaddle/model_best
[2023-04-24 10:57:49,234] [ INFO] - overwrite_output_dir :True
[2023-04-24 10:57:49,234] [ INFO] - past_index :-1
[2023-04-24 10:57:49,234] [ INFO] - per_device_eval_batch_size :16
[2023-04-24 10:57:49,235] [ INFO] - per_device_train_batch_size :16
[2023-04-24 10:57:49,235] [ INFO] - prediction_loss_only :False
[2023-04-24 10:57:49,236] [ INFO] - process_index :0
[2023-04-24 10:57:49,237] [ INFO] - prune_embeddings :False
[2023-04-24 10:57:49,237] [ INFO] - recompute :False
[2023-04-24 10:57:49,238] [ INFO] - remove_unused_columns :True
[2023-04-24 10:57:49,238] [ INFO] - report_to :['visualdl']
[2023-04-24 10:57:49,239] [ INFO] - resume_from_checkpoint :None
[2023-04-24 10:57:49,240] [ INFO] - round_type :round
[2023-04-24 10:57:49,241] [ INFO] - run_name :model/paddlepaddle/model_best
[2023-04-24 10:57:49,242] [ INFO] - save_on_each_node :False
[2023-04-24 10:57:49,242] [ INFO] - save_steps :100
[2023-04-24 10:57:49,243] [ INFO] - save_strategy :IntervalStrategy.STEPS
[2023-04-24 10:57:49,243] [ INFO] - save_total_limit :1
[2023-04-24 10:57:49,244] [ INFO] - scale_loss :32768
[2023-04-24 10:57:49,245] [ INFO] - seed :42
[2023-04-24 10:57:49,245] [ INFO] - sharding :[]
[2023-04-24 10:57:49,246] [ INFO] - sharding_degree :-1
[2023-04-24 10:57:49,247] [ INFO] - should_log :True
[2023-04-24 10:57:49,247] [ INFO] - should_save :True
[2023-04-24 10:57:49,248] [ INFO] - skip_memory_metrics :True
[2023-04-24 10:57:49,248] [ INFO] - strategy :dynabert+ptq
[2023-04-24 10:57:49,250] [ INFO] - train_batch_size :16
[2023-04-24 10:57:49,251] [ INFO] - use_pact :True
[2023-04-24 10:57:49,252] [ INFO] - warmup_ratio :0.1
[2023-04-24 10:57:49,252] [ INFO] - warmup_steps :0
[2023-04-24 10:57:49,253] [ INFO] - weight_decay :0.0
[2023-04-24 10:57:49,253] [ INFO] - weight_quantize_type :channel_wise_abs_max
[2023-04-24 10:57:49,254] [ INFO] - width_mult_list :None
[2023-04-24 10:57:49,255] [ INFO] - world_size :1
[2023-04-24 10:57:49,255] [ INFO] -
[2023-04-24 10:57:49,257] [ INFO] - ***** Running training *****
[2023-04-24 10:57:49,257] [ INFO] - Num examples = 212
[2023-04-24 10:57:49,258] [ INFO] - Num Epochs = 20
[2023-04-24 10:57:49,258] [ INFO] - Instantaneous batch size per device = 16
[2023-04-24 10:57:49,260] [ INFO] - Total train batch size (w. parallel, distributed & accumulation) = 16
[2023-04-24 10:57:49,261] [ INFO] - Gradient Accumulation steps = 1
[2023-04-24 10:57:49,262] [ INFO] - Total optimization steps = 280.0
[2023-04-24 10:57:49,262] [ INFO] - Total num train samples = 4240.0
[2023-04-24 10:57:49,275] [ INFO] - Number of trainable parameters = 117946370

3 replies

yycoolsam Apr 24, 2023

paddle验证安装也是通过的：
import paddle
paddle.utils.run_check()
Running verify PaddlePaddle program ...
W0424 12:49:36.235811 1876 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 6.1, Driver API Version: 12.1, Runtime API Version: 11.7
W0424 12:49:36.240806 1876 gpu_resources.cc:91] device: 0, cuDNN Version: 8.8.
PaddlePaddle works well on 1 GPU.
PaddlePaddle works well on 1 GPUs.
PaddlePaddle is installed successfully! Let's start deep learning with PaddlePaddle now.

yycoolsam Apr 24, 2023

已经解决了。推测是显卡显存不足导致的。在使用下面的参数后能正常运行
finetune.py --device "gpu" --logging_steps 100 --save_steps 100 --eval_steps 100 --seed 42 --model_name_or_path uie-base --output_dir model/paddlepaddle/model_best --train_path data/train.txt --dev_path data/dev.txt --max_seq_length 256 --per_device_eval_batch_size 8 --per_device_train_batch_size 8 --num_train_epochs 20 --learning_rate 1e-5 --label_names "start_positions" "end_positions" --do_train --do_eval --do_export --export_model_dir model/paddlepaddle/model_best --overwrite_output_dir --metric_for_best_model eval_f1 --load_best_model_at_end True --save_total_limit 1
这里希望后续能增加错误信息返回，这样初次接触的人同时又不是很厉害的人(例如我)就能快速的找到问题所在。

1ZhangMR Jul 4, 2023

您好，请问一下您evaluate.py运行的时候有输出吗？还是运行结束了才有输出，运行的速度慢吗？

guangxin-zhang · 2023-05-22T01:56:04Z

guangxin-zhang
May 22, 2023

有大佬知道为什么用官方文档的命令在pycharm中运行只能得到.log文件，其他的模型文件没有得到吗？

2 replies

1ZhangMR Jun 26, 2023

您好，请问您的问题解决了吗，我也是这种情况

Fairdandan Jun 27, 2023

可以自己另外加命令

Fairdandan · 2023-06-27T03:43:01Z

Fairdandan
Jun 27, 2023

你好，在做实体抽取的时候可以同时输出预测的概率吗

2 replies

1ZhangMR Jun 27, 2023

请问一下model_path: 进行评估的模型文件夹路径，路径下需包含的模型权重文件model_state.pdparams及配置文件model_config.json在哪里获取？是跑finetuned_model获得的吗？

Fairdandan Jun 27, 2023

自己在funetune.py里加几行语句，
output_dir = '路径'
model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

1happyWDC · 2023-09-22T06:57:58Z

1happyWDC
Sep 22, 2023

环境为:
python3.7
paddlepaddle-gpu 2.4.2.post117
paddlenlp 2.5.2
cuda-version 11.7
GPU：A800

问题描述：在合同文本中抽取关系，合同文本长度有几千到一万字不等，由于有的关系涉及到的实体间隔比较远（该情况概率较小），在标注的时候是将整篇合同文本放进去进行标注的。在第一版的时候通过实体关系标注抽取的时候召回率和f1都有0.85左右，在第二版新增了实体种类和关系种类的时候，召回率为0.3，f1为0.4，较第一版差距比较大。同时，两版抽取schema中相同的实体和关系，第二版的效果也要远低于第一版的，不知道是不是被第二版标注的其他数据给影响到了整个的效果。

eg：全部合同文本涉及到多个类别，共有700份文件进行了标注，其中各类别分布不均匀，有的类别有100多个样本，有的类别是由10多个样本，但是部分样本在100的类别抽取效果也很不好。为了验证我尝试过将该类别样本单独提取出来做训练和推理，发现仅有该类别的情况下仍然效果不好。

eg：注释的schema是效果好一点的那一版，没注释的是效果比较差的

1 reply

1ZhangMR Oct 10, 2023

你好，我想请问一下你在预测后，输出抽取实体个数的代码吗？因为我看源码只有输出预测的实体文本，但具体个数没有输出，然后我print了results只能输出实体类的个数。

yongxinyou · 2023-10-16T02:52:05Z

yongxinyou
Oct 16, 2023

我想请问一下，我的事件抽取 schema = {"发布政策触发词": ["时间", "地点", "发布者", "政策内容"]}是这样的，最后抽取的结果中，触发词是 “发布声明。此轮制我包括六个方面，第一项是欧盟将对来自俄罗斯的每年价值48亿欧元的煤炭实施进口禁令”。就是会是一个长句子，会在正常的触发词后面在多抽取一句话。为什么会这样呢

0 replies

dinggzh-gitch · 2023-10-22T12:10:51Z

dinggzh-gitch
Oct 22, 2023

我如果想修改分词方式应该在哪里修改呢请问，因为我的数据标注后预测只有百分之74现在，调参后的最高就是准确率74但是F180，想从分词等方面进行优化，我应该在哪里写入代码？

0 replies

long0428 · 2023-10-26T09:28:26Z

long0428
Oct 26, 2023

您好，我想为一下在进行信息抽取时，我的文本是：患者意识清楚，伴头晕乏力，无胸闷胸痛，无畏寒发热，无咳嗽咳痰等不适，急诊完善血常规。
这个时候我定义schema = ['症状']，会把畏寒发热，咳嗽，咳痰都抽取到，我应该怎么调整代码去识别一些有“无”、“未“这些否定词，从而让 PaddleNLP 不去识别语句中有否定含义的畏寒发热，咳嗽，咳痰呢？
谢谢！

1 reply

nikkyyang Nov 10, 2023

我觉得你应该打两个标签，无胸闷胸痛和胸闷胸痛是两个类似"肯定"/"否定"类的标签，可能可以解决

18772247265 · 2024-01-08T10:04:38Z

18772247265
Jan 8, 2024

您好，我使用information_extraction进行实体抽取，使用的cpu，使用base的话一条出结果差不多要2s左右，tiny每条平均1s左右，请问要怎么设置才能提升推理速度

0 replies

lizhq · 2024-01-09T06:46:15Z

lizhq
Jan 9, 2024

推理速度问题 , 我微调后进行uiex 的推理, 一张4M的图片推理在 4~8s之间, 使用的是GPU , 也需要进行推理加速

0 replies

niniwai · 2024-01-10T08:37:04Z

niniwai
Jan 10, 2024

在终端运行“python doccano.py
--doccano_file ./data/doccano_ext.json
--task_type ext
--save_dir ./data
--splits 0.8 0.2 0
--schema_lang ch”
的时候报错“doccano.py: error: unrecognized arguments: \”
运行doccano.py的时候报错“ValueError: Please input the correct path of doccano file.”
代码来源网址：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
求解答

0 replies

wyx-oss · 2024-01-23T07:33:52Z

wyx-oss
Jan 23, 2024

[FAQ]我在进行模型蒸馏的时候，
python data_distill.py
--data_path ../data
--save_dir student_data
--task_type entity_extraction
--synthetic_ratio 10
--model_path ../checkpoint/model_best

python evaluate_teacher.py
--task_type entity_extraction
--test_path student_data/dev_data.json
--label_maps_path student_data/label_maps.json
--model_path ../checkpoint/model_best

python train.py
--task_type entity_extraction
--train_path student_data/train_data.json
--dev_path student_data/dev_data.json
--label_maps_path student_data/label_maps.json
--num_epochs 50
--encoder ernie-3.0-mini-zh
前两部分都能跑的通，在
python train.py
--task_type entity_extraction
--train_path student_data/train_data.json
--dev_path student_data/dev_data.json
--label_maps_path student_data/label_maps.json
--num_epochs 50
的时候出现File "/home/ysx/PaddleNLP/applications/information_extraction/text/data_distill/utils.py", line 108, in tokenize_and_align_train_labels
label = label_maps["entity2id"][e["type"]]
KeyError: 'object' 是怎么回事呢
--encoder ernie-3.0-mini-zh

0 replies

Qi0716 · 2024-03-04T02:08:29Z

Qi0716
Mar 4, 2024

为什么我在做分类任务训练的时候指标为0 只有loss有指标

0 replies

SKRY1412 · 2024-03-19T02:32:20Z

SKRY1412
Mar 19, 2024

为什么schema中输入行为、动作之类的都抽取不出来实体？这个设置的范围是否比较小呢？

0 replies

echo0218 · 2024-07-08T06:52:51Z

echo0218
Jul 8, 2024

我想从化学文献中提取化合物名称和性质数据，但用UIE提取的效果不如文心大模型，甚至训练、微调了UIE模型，但提取效果仍赶不上文心大模型。问题出在哪里？是我训练的数据量不够大(10篇文章)？如果提取效果连文心大模型都赶不上，那UIE存在的意义是什么？？

1 reply

nocodelin Jul 10, 2024

意义在于本地部署，加快响应速度。LLM想要本地部署成本很大，再说文心也不开源。

wzg-zhuo · 2024-08-01T06:45:46Z

wzg-zhuo
Aug 1, 2024

uie微调之后和文心大模型差距有多少，比如测试集上的F1-score等指标，差多少？

0 replies

yangguoer · 2024-08-12T04:02:46Z

yangguoer
Aug 12, 2024

请问训练时中断了再训练如何从中断的地方开始？

0 replies

yangguoer · 2024-08-13T08:15:07Z

yangguoer
Aug 13, 2024

训练很慢正常吗，四张卡20个epoch跑了十个小时

0 replies

ann22 · 2024-08-21T12:19:38Z

ann22
Aug 21, 2024

UIE抽取不连续实体怎么转换成关系抽取任务

0 replies

Mengyueke · 2024-10-09T09:14:06Z

Mengyueke
Oct 9, 2024

uie英文只给512个字符是否太少了，有什么方法能够进行长文本关系提取

0 replies

关于UIE信息抽取，你遇到了什么难题、还有哪些需求？欢迎反馈。也欢迎分享实践经验！ #3316

chenxiaozeng Sep 20, 2022 Collaborator

FAQ/Feature/Others

详细说明

Replies: 29 comments · 20 replies

chenxiaozeng Sep 20, 2022 Collaborator Author

UIE FAQ

Schema、Prompt相关

训练

部署及加速

标注工具

UIE Pretrain

其它

linjieccc Sep 29, 2022 Collaborator

linjieccc Sep 29, 2022 Collaborator

linjieccc Sep 29, 2022 Collaborator

linjieccc Feb 22, 2023 Collaborator

linjieccc Feb 22, 2023 Collaborator

chenxiaozeng
Sep 20, 2022
Collaborator

Replies: 29 comments 20 replies

chenxiaozeng
Sep 20, 2022
Collaborator Author

linjieccc Sep 29, 2022
Collaborator

linjieccc Sep 29, 2022
Collaborator

linjieccc Sep 29, 2022
Collaborator

linjieccc Feb 22, 2023
Collaborator

linjieccc Feb 22, 2023
Collaborator