Коли системи штучного інтелекту стають дедалі більш потужними, мова швидко перетворюється на основний спосіб комунікації з машинами. Французький стартап Mistral вийшов на ринок аудіо з першим відкритим моделем, мета якого — кинути виклик домінуванню закритих корпоративних систем шляхом запропонування альтернатив з відкритими параметрами.
У вівторок компанія Mistral анонсувала випуск Voxtral, своєї першої серії аудіомоделей, орієнтованої на бізнес.
Компанія позиціонувала Voxtral як першу відкриту модель, здатну забезпечити «досить зручний для використання розуміння мови в виробництві».
Іншими словами, розробники більше не будуть змушені обирати між дешевою відкритою системою, яка не справляється з транскрипцією та не розуміє, що говориться, та ефективною закритою системою, що передбачає вищі витрати і менший контроль над розгортанням.
Для бізнесу це означає, що Voxtral пропонує доступну альтернативу, яку компанія називає «менш ніж за половину ціни» порівняно з аналогічними рішеннями.
Mistral заявляє, що Voxtral може транскрибувати до 30 хвилин аудіо. Завдяки основі LLM, Mistral Small 3.1, вона здатна розуміти до 40 хвилин, дозволяючи користувачам ставити питання про зміст аудіо, генерувати резюме або перетворювати голосові команди на дії в реальному часі, такі як виклик API або виконання функцій. Voxtral також підтримує кілька мов, включаючи англійську, іспанську, французьку, португальську, хінді, німецьку, голландську та італійську.
Компанія пропонує два варіанти своїх «моделей розуміння мови». Перший, Voxtral Small, має 24 мільярди параметрів для впроваджень на виробничому рівні і є конкурентоспроможним з ElevenLabs Scribe, GPT-4o-mini та Gemini 2.5 Flash.
Другий варіант, Voxtral Mini, має 3 мільярди параметрів для локальних і краєвих впроваджень. Також доступна наддешева спрощена версія API 3-мільярдної моделі, названа Voxtral Mini Transcribe, яка оптимізована для транскрипції і обіцяє перевершити OpenAI Whisper за ціну, меншу ніж половина.
Користувачі можуть безкоштовно протестувати Voxtral шляхом завантаження API на Hugging Face або випробувати моделі в чат-боті Mistral Le Chat. Інтеграція API в додатки починається від 0,001 долара США за хвилину, згідно з інформацією компанії.
Випуск відбувається через місяць після того, як Mistral анонсувала Magistral, свою першу серію моделей розуміння, які вирішують завдання крок за кроком для підвищення надійності.
Mistral, одна з провідних компаній в галузі штучного інтелекту в Європі, відома своєю підтримкою відкритих моделей ШІ. Раніше цього місяця повідомлялося, що компанія веде переговори про залучення до 1 мільярда доларів США інвестицій від таких інвесторів, як фонд MGX з Абу-Дабі.