Skill Explorer

Searching protocol for "PPO"

pufferlib

Community

High-performance reinforcement learning with vectorized environments.

Advanced

byjackspace

openrlhf-training

Community

Accelerate RLHF with Ray+vLLM

Advanced

byihatesea69

hyperparameter-optimization

Community

Unified PPO hyperparam and reward-weight tuning.

Advanced

bymzqef

openrlhf-training

Community

Accelerate RLHF training for LLMs.

Advanced

byMesferAli

openrlhf-training

Community

Accelerate RLHF training for LLMs.

Advanced

byDoanNgocCuong

openrlhf-training

Community

Accelerate RLHF training for LLMs.

Advanced

bychoice5346

openrlhf-training

Community

Accelerate LLM RLHF training

Advanced

byinformatico-madrid

openrlhf-training

Community

Accelerate RLHF training for large language models.

Advanced

byovachiever

openrlhf-training

Official

Accelerate RLHF for LLMs

Advanced

byOrchestra-Research

openrlhf-training

Community

Accelerate RLHF training for large models.

Advanced

bygagan114662

openrlhf-training

Community

Accelerate RLHF training with Ray & vLLM.

Advanced

bytianhao909

rlhf

Community

Align language models with human feedback.

Advanced

byitsmostafa