BBS
(Barcenas Benchmark Spanish)
Tabla de Clasificación de Modelos
DeepSeek R1 Distill Llama 70B | 99.93 | 96.25 | 99.75 | 79.45 | 99.85 | 52.15 | 92.65 |
Acerca de BBS (Barcenas Benchmark Spanish)
Bienvenido al Barcenas Benchmark Spanish (BBS).
Objetivo: El objetivo de este benchmark es evaluar y comparar el rendimiento de diferentes modelos de lenguaje de gran tamaño (LLM) específicamente en diversas variantes del idioma español.
El benchmark se encuentra en una fase temprana de desarrollo y aún requiere mejoras en las evaluaciones, el número de LLM, entre otros aspectos. Se espera que con más recursos y tiempo se pueda desarrollar un benchmark más sólido.
Metodología:
- Se utilizaron las APIs de Groq y Gemini para estas pruebas.
- Se solicitó al LLM que generara varios Tweets predefinidos en las variantes del español evaluadas.
- Con ciertos parámetros predefinidos, se evaluó al LLM en las diferentes variantes del español y se calculó un promedio general.
Interpretación de Resultados:
- Los modelos Gemini presentan un rendimiento superior en todos los aspectos relacionados con el acento español, mostrando un nivel notablemente más alto, al menos según los resultados preliminares de este benchmark.
Actualizaciones Futuras:
- Se busca incluir en el futuro más LLM, como los de OpenAI, Anthropic, DeepSeek, Grok, etc. La falta de recursos de las APIs impidió la inclusión de estos LLM en esta etapa.
- Además, se busca mejorar la dificultad de las pruebas y obtener una visión más clara de cuál LLM es el más adecuado para cada variante del español.
Un agradecimiento especial a Ismael Medina Muñoz, Senior Microsoft Consultant, por la idea de evaluar e investigar los LLM en español.
Hecho con amor y cariño por Danielbrdz