Три колишні науковці Google X прагнуть створити віртуальний «другий мозок» — не в сенсі наукової фантастики або установки чипа в голову, а через застосунок з штучним інтелектом, який слухає все, що ви кажете, в фоновому режимі. Їх стартап, TwinMind, залучив 5,7 мільйона доларів у вигляді початкового фінансування та випустив версію для Android, а також нову мовну модель штучного інтелекту. Також доступна версія для iPhone.
Стартап TwinMind
Стартап був заснований у березні 2024 року Даніелем Джорджем (генеральний директор) та його колишніми колегами з Google X — Санні Тангом та Махі Карімом (обидва — технічні директори). TwinMind працює у фоновому режимі, захоплюючи навколишню мову (за згодою користувача) для створення особистої графу знань.
Перетворюючи усні думки, зустрічі, лекції та розмови на структуровану пам’ять, застосунок може генерувати нотатки, списки справ та відповіді, підтримувані штучним інтелектом. Він працює офлайн, обробляє аудіо в реальному часі для транскрипції на пристрої та здатен записувати аудіо без перерви 16-17 годин без значного витрачання батареї. Також застосунок може резервувати дані користувача, щоб розмови було можливо відновити в разі втрати пристрою, хоч користувачі можуть відмовитися від цієї опції. Крім того, він підтримує реальний переклад більш ніж на 100 мовах.
TwinMind відрізняється від інших AI-програм для запису зустрічей, таких як Otter, Granola та Fireflies, оскільки він пасивно захоплює аудіо в фоні протягом усього дня. Для цього команда розробила сервіс низького рівня на чистому Swift, який працює безпосередньо на iPhone. У той же час багато конкурентів використовують React Native та покладаються на хмарну обробку, що Apple обмежує для тривалого фону, сказав Джордж в ексклюзивному інтерв’ю.
“Ми витратили близько шести-семи місяців минулого року на вдосконалення цього безперервного захоплення аудіо та знайшли безліч обхідних шляхів навколо обмежень Apple,” — сказав він у інтерв’ю.
Джордж залишив Google X у 2020 році і отримав ідею для TwinMind у 2023 році, коли працював у JPMorgan на посаді віце-президента та керівника з прикладного ШІ, відвідуючи щодня поспіль засідання. Щоб заощадити час, він створив скрипт, який записував аудіо, транскрибував його на iPad та передавав у ChatGPT — який почав розуміти його проекти і навіть генерувати робочий код. Вражений результатами, він поділився цим із друзями та написав про це на Blind, де інші висловили інтерес, але не бажали використовувати щось на своїх робочих ноутбуках. Це призвело до створення застосунку, який міг би працювати на особистому телефоні, тихо слухаючи під час зустрічей, щоб збирати корисний контекст.
Окрім мобільного застосунку, TwinMind пропонує розширення для Chrome, яке збирає додатковий контекст через активність у браузері. Використовуючи зоровий штучний інтелект, воно може візуально сканувати відкриті вкладки та інтерпретувати вміст з різних платформ, таких як електронна пошта, Slack та Notion.
Стартап навіть використав це розширення для відбору стажистів серед понад 850 заявок, отриманих цього літа.
“Ми відкрили всі профілі LinkedIn і резюме 854 кандидатів у вкладках браузера, а потім попросили розширення для Chrome оцінити найкращих кандидатів,” — розповів Джордж. “Це виконало чудову роботу — саме так ми найняли наших чотирьох останніх стажистів.”
Він зазначив, що сучасні AI-чат-боти, включаючи ChatGPT від OpenAI та Claude від Anthropic, не можуть легко обробляти сотні документів чи аналізувати підписки з таких інструментів, як LinkedIn або Gmail для збору контекстуальної інформації. Аналогічно, AI-переглядачі, такі як Perplexity та The Browser Company, не здатні створювати знання з ваших офлайн-розмов та особистих зустрічей.
Стартап наразі має понад 30 000 користувачів, з яких близько 15 000 активні щомісяця. Приблизно 20-30% користувачів TwinMind також користуються розширенням для Chrome, повідомив Джордж.
Хоча найбільша база користувачів TwinMind наразі знаходиться в США, стартап також отримує інтерес з Індії, Бразилії, Філіппін, Ефіопії, Кенії та Європи.
TwinMind націлений на загальну аудиторію, хоча 50-60% його користувачів — це професіонали, близько 25% — студенти, а решта 20-25% використовують його для особистих цілей.
Джордж повідомив, що його батько також є одним з користувачів TwinMind, який пише свої спогади.
Однією з суттєвих недоліків ШІ є ймовірність порушення конфіденційності користувачів. Проте Джордж стверджує, що TwinMind не тренує свої моделі на даних користувачів і спроектований так, щоб працювати без відправки записів у хмари. На відміну від багатьох інших AI-додатків для нотаток, TwinMind не надає користувачам доступ до аудіозаписів пізніше — аудіо видаляється на льоту, тоді як лише транскрибований текст зберігається локально в застосунку, зазначив він.
Досвід Google X допоміг прискорити процес
Співзасновники TwinMind провели кілька років, працюючи над різними проектами в Google X. Джордж розповів, що працював над шістьма проектами, включаючи iyO — команду, відповідальну за AI-навушники, які нещодавно потрапили в заголовки новин через судові позови проти OpenAI та Джоні Айва. Цей досвід допоміг команді TwinMind швидко перейти від концепції до продукту.
“Google X була насправді ідеальним місцем для підготовки до запуску власної компанії,” — сказав Джордж. “Там відбувається близько 30-40 проектів, схожих на стартапи, в будь-який момент часу. Ніхто інший не має можливості працювати на шести стартапах на ранніх стадіях протягом двох-трьох років, перш ніж запустити власний — принаймні, не за такий короткий час.”
Перед тим як приєднатися до Google, Джордж працював над застосуванням глибокого навчання для астрофізики гравітаційних хвиль у рамках групи LIGO, яка отримала Нобелівську премію в Національному центрі суперкомп’ютерних застосувань університету Іллінойс. Він закінчив аспірантуру з AI в астрофізиці всього за одинадцять місяців — у віці 24 років — досягнення, яке призвело до його участі в лабораторії досліджень Стівена Вольфрама в 2017 році як дослідника в галузі глибокого навчання та AI.
Це раннє знайомство з Вольфрамом згодом увінчалося успіхом — він став першим інвестором, який зробив внесок у TwinMind. Нещодавній раунд початкового фінансування очолили Streamlined Ventures, з участю Sequoia Capital та інших інвесторів, включаючи Вольфрама. Раунд оцінює TwinMind у 60 мільйонів доларів після отримання фінансування.
Модель TwinMind Ear-3
Окрім своїх застосунків та розширення для браузера, TwinMind також представив модель TwinMind Ear-3, яка є спадкоємцем Ear-2, котра підтримує понад 140 мов по всьому світу та має коефіцієнт помилок у словах 5,26%, за словами стартапу. Нова модель також може розпізнавати різних учасників розмови і має коефіцієнт помилок у діарізації спікерів на рівні 3,8%.
Нова модель штучного інтелекту є точною сумішшю кількох відкритих моделей, навчена на ретельно відібраній вибірці даних з інтернету, які були анотовані людиною — включаючи подкасти, відео та фільми.
“Ми виявили, що чим більше мов ви підтримуєте, тим краще модель розуміє акценти та регіональні діалекти, оскільки тренується на більш широкому спектрі спікерів,” — зазначив Джордж.
Модель коштує 0,23 долара на годину і буде доступна через API для розробників і підприємств протягом наступних кількох тижнів.
На відміну від Ear-2, модель Ear-3 не підтримує повний досвід офлайн, оскільки є більшою за розміром і працює в хмарі. Проте застосунок автоматично переключається на Ear-2, якщо інтернет зникає, і повертається до Ear-3, коли з’являється знову, сказав Джордж.
З новим релізом Ear-3, TwinMind тепер пропонує професійну підписку за 15 доларів на місяць, з більшим контекстним вікном до 2 мільйонів токенів та електронною підтримкою протягом 24 годин. Але також залишається безкоштовна версія з усіма існуючими функціями, включаючи необмежену кількість транскрипцій і можливість розпізнавання мови на пристрої.
Стартап наразі має команду з 11 осіб. В майбутньому планується найняти кілька дизайнерів для покращення користувацького досвіду та створити команду з бізнес-розвитку для розповсюдження свого API. Також планується виділити частину коштів на залучення нових користувачів.