Code for paper : LIRE: listwise reward enhancement for preference alignment (Accepted by ACL2024 findings)

The code base is built upon the RRHF paper, please refer to it for setting up the environment and generating training data. We include SFT loss, RRHF loss, Slic Loss, DPO loss, and Lire loss in the code for quick and easy use. Please modify the hyperparameter settings and other customized settings accordingly.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Code for paper : LIRE: listwise reward enhancement for preference alignment (Accepted by ACL2024 findings)

Files

README.md

Latest commit

History

README.md

File metadata and controls

Code for paper : LIRE: listwise reward enhancement for preference alignment (Accepted by ACL2024 findings)