Skill Explorer

Searching protocol for "reward modeling"

reward

Community

Train reward models for RLHF pipelines.

Advanced

byatrawog

grpo-rl-training

Community

Fine-tune models with custom rewards.

Advanced

byhochoa13

grpo-rl-training

Community

Fine-tune LLMs with custom rewards.

Advanced

byGarrettRoi

grpo-rl-training

Official

Fine-tune LLMs with custom rewards.

Advanced

byOrchestra-Research

grpo-rl-training

Community

Fine-tune LLMs with custom rewards.

Advanced

byihatesea69

compression-progress

Official

Intrinsic reward from compression progress.

Advanced

byplurigrid

grpo-rl-training

Community

Master GRPO/RL fine-tuning with TRL.

Advanced

bychoice5346

grpo-rl-training

Community

Fine-tune models with custom rewards.

Advanced

byAum08Desai

grpo-rl-training

Community

Master GRPO/RL fine-tuning with TRL.

Advanced

bygagan114662

rnow-rewards

Official

Define RL rewards for ReinforceNow training.

Advanced

byReinforceNow

grpo-rl-training

Community

Fine-tune LLMs with custom rewards for complex tasks.

Advanced

byzhuangbiaowei

hooked-model

Community

Design habit-forming products users return to.

No Config

bywdavidturner