Hyperparameters are configuration settings which are manually tuned to optimize efficiency or response creativity.

Los hyperparámetros son settings de configuración, los cuales se configuran manualmente para optimizar la eficiencia o la creatividad de la respuesta

Temperature (creatividad)

La temperatura controla la cuanto riesgo acepta el modelo a la hora de elegir las siguientes palabras. Controla la probabilidad de distribución de las siguientes palabras.

Low (0.2-0.3): El modelo es cauto y elige las palabras más probables. Output factual y predecible.
Medium (0.5-0.7): Un mix de confiabilidad y engagement
High (0.9-1.0): Toma riesgos y es impredecible

Respuesta posibles con la siguiente frase

Once upon a time, there was a dragon…

Temp 0.2: …who lived in a cave guarding treasure
Temp 0.7: …who dreamed of becoming friends with the villagers
Temp 1.0: …who loved baking cookies and singing karaoke

Cuanta más alta la temperatura, más imaginativo, creativo y loco es el modelo.

Top-k (candidate pool fija)

Top-k es un filtro de candidatos más probables. Fuerza al modelo a elegir el siguiente token sobre una pool k de candidatos. Límite de tamaño fijo.

Candidatos posibles con la siguiente frase

I like to drink…

small k (5): El modelo solo tiene unas pocas elecciones posibles, las cuales serán las más seguras posibles. Ej: [water, coffee, tea, juice, milk]
large k (50k): El modelo puede elegir de unas opciones muy ampliar. Amplía la variedad pero también la posibilidad de que salgan resultados inesperados Ej: […, smothies, kombucha, cocktails, hot chocolate, …]

La contra que tiene es que si el modelo está muy seguro, puede incluir tokens con una baja probabilidad solo por el hecho que tiene que llegar hasta k candidatos.

Top-p (nucleus sampling dinámica)

Alternativa a top-k. Usar uno o el otro, pero NO ambos.

Top-p es un filtro dinámico. Selecciona el grupo más pequeño de tokens cuya probabilidad acumulada supera un umbral p.

Si el modelo está muy seguro, el núcleo será muy pequeño. Si hay incertidumbre, el número de candidatos se expande. Esto previene que el modelo se atasque respondiendo siempre tokens predecibles cuando existen un gran número de candidatos.

La diferencia con top-k es que top-k es un número fijo mientras que top-p se adapta. Pocas opciones cuando la respuesta es obvia, más opciones cuando hay múltiples respuestas válidas.

Ejemplos de configuración

Coding o Q&A basado en hechos: Low temperature (0.2) y top-p moderado (0.8) hacen que el modelo sea preciso y no se disperse.
Creative writing o brainstorming: temperature alta (0.8) y top-p moderado-alto (0.95) hace que sea imaginativo y dé ideas únicas.
Bot conversacional: temperatura media (0.5) y top-p moderado (0.9) da un balance entre ser predecible y tener personalidad.

Reference(s)

Blog 5: Tuning the Tone — Temperature, Top-k, and Top-p in LLMs | by Raghunandan Gupta | Medium