Skill Explorer

Optimize preferences with implicit reward learning.

byatrawog

objc-oauth-dpop-conformance-audit

Audit OAuth/DPoP security

byjvalinsky

unsloth-dpo

Efficient DPO for model alignment

bycuba6112

simpo-training

Efficient LLM alignment without a reference model.

byihatesea69

dpo-specialist

Automate GDPR/privacy reviews.

bymoag1000

axolotl

Official

Fine-tune LLMs with Axolotl: YAML, LoRA, DPO & more.

byOrchestra-Research

simpo-training

Efficient LLM alignment without a reference model.

byDoanNgocCuong

simpo-training

Efficient LLM alignment without a reference model.

byinformatico-madrid

tinker

Orchestrate LLM training runs on Tinker.

byAum08Desai

axolotl

Fine-tune LLMs with Axolotl

byMesferAli

simpo-training

Official

Efficient LLM alignment without a reference model.

byOrchestra-Research

rlhf

Align language models with human feedback.