Mixtral-8x22b.

Mistralopen-source

§ 02 · Benchmarks

Every benchmark Mixtral-8x22b has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	extraction	9.6%	#10/50	—	source ↗
02	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	writing	9.3%	#10/50	—	source ↗
03	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	roleplay	9.1%	#10/50	—	source ↗
04	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	coding	6.5%	#13/50	—	source ↗
05	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	math	6.9%	#13/50	—	source ↗
06	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	pl-score	8.2%	#14/50	—	source ↗
07	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	reasoning	6.3%	#16/50	—	source ↗
08	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	stem	9.3%	#17/50	—	source ↗
09	Polish MT-Bench	Natural Language Processing · Polish Conversation Quality	humanities	9.1%	#28/50	—	source ↗
10	GSM8K	Reasoning · Mathematical Reasoning	accuracy	88.0%	#37/48	2024-04-01	source ↗
11	PLCC	Natural Language Processing · Polish Cultural Competency	history	69.0%	#97/165	—	source ↗
12	PLCC	Natural Language Processing · Polish Cultural Competency	art-and-entertainment	45.0%	#100/165	—	source ↗
13	PLCC	Natural Language Processing · Polish Cultural Competency	grammar	50.0%	#112/165	—	source ↗
14	PLCC	Natural Language Processing · Polish Cultural Competency	average	49.8%	#117/165	—	source ↗
15	PLCC	Natural Language Processing · Polish Cultural Competency	geography	59.0%	#117/165	—	source ↗
16	PLCC	Natural Language Processing · Polish Cultural Competency	culture-and-tradition	41.0%	#123/165	—	source ↗
17	PLCC	Natural Language Processing · Polish Cultural Competency	vocabulary	35.0%	#135/165	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 03 · Strengths by area