下一个OpenAI来了?Mistral超大杯模型直逼GPT-4,93年创始人6人公司被微软认领
下一个OpenAI来了?
开源社区的另一个中心Mistral AI,刚刚发布了最强力的旗舰模型Mistral Large,性能直接对标GPT-4!(但可惜的是没有开源)
Mistral Large具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。
在众多主流基准测试中,Mistral Large力压Anthropic的Claude 2和谷歌的Gemini Pro,成绩仅次于GPT-4!LLM领域,格局再次改变。
同时,就在今天,AI圈又一重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下!
Mistral从诞生之初,就充满传奇的光环。成立4周,6人团队,7页PPT,8亿融资(1.05亿欧元),简直堪称爽文走进现实。
创始人Arthur Mensch是1993年出生的法国小伙,在谷歌工作3年后,在自己31岁时离开谷歌,拉拢了两位Llama模型的开发者,一起创立了这个日后可以和OpenAI、Anthropic分庭抗礼的公司。
几个人的团队,极少的融资,做出的模型却可以和GPT-4掰手腕。
如今再加上金主爸爸微软的撑腰,Mistral 「下一个OpenAI」的名头,是坐实了。
Mistral不开源?网友慌了!
现在,正处于全世界聚光灯下的Mistral,一举一动都十分引人注目。
有网友发现Mistral修改了网站内容,删除了所有提及开源社区义务的内容,这立马引发了恐慌!
之前的主页(左);现在的主页(右)
不过,大家目前还不需要太过担心。
根据外媒对Mistral CEO的采访,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。
现在他们已经完成了以规模命名的开源模型:Mistral 7B和Mistral 8 x 7B回馈社区,以「大中小」命名的闭源模型赚钱的产品线搭建。
欧洲最强大模型来了!
话说回来,这次发布的Mistral Large,可以说是最适合欧洲人体质的大模型。
简单来说:
- Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景。
- Mistral Large能够处理32K Token的上下文内容,使其能够从庞大的文档中精确快速地提取信息。
- Mistral Large在执行具体指令方面异常精准,这让开发人员可以根据自己的需求定制内容审查政策——例如,Mistral AI利用它来进行了le Chat的系统级别审查。
- Mistral Large原生支持函数调用。这个特性,结合Mistral AI在la Plateforme上实施的输出内容限制模式,极大地促进了应用程序的开发和技术栈的现代化。
目前,Mistral AI的这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。
其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。
推理能力与知识掌握
要说Mistral Large最令人印象深刻的,还是超强的推理能力。
作为旗舰模型,Mistral Large在常识、推理以及知识方面,都展现出了令人瞩目的实力。
虽然和GPT-4还有不小的差距,但Claude 2和Gemini Pro 1.0基本上已经是手下败将了。
多语言能力
作为一款欧洲人自己的大模型,Mistral Large在法语、德语、西班牙语和意大利语上的表现,均优于Llama 2 70B模型。
同时,也强过自家更小规模的模型。
数学与编程能力
在编程和数学方面,Mistral Large的能力也非常突出。
不仅相比自己其他模型有了大幅的提升,而且在主流的测试基准上都取得了不俗的成绩。
「小杯」也来了
相比之下,规模更小的Mistral Small,则更加专注于对延迟和成本的优化。
相较于Mixtral 8x7B,Mistral Small展现出更优异的性能和更低的延迟,是介于Mistral AI开源模型和旗舰模型之间的解决方案。
与Mistral Large类似,Mistral Small同样采用了在RAG和函数调用方面的创新技术。
此外,Mistral还优化了自家的服务接口:
- 提供竞争力价格的开放权重端点,包括open-mistral-7B和open-mixtral-8x7b。
- 推出新的优化模型端点,包括mistral-small-2402和mistral-large-2402,同时继续提供未更新的mistral-medium。
和微软官宣合作,Mistral AI腰板更硬了
除了宣布模型之外,Mistral AI还官宣了和微软的深度合作。
而这也是微软继OpenAI之后,再次「真金白银」地入股AI圈的另一家顶流模型公司。
虽然2023年4月才成立,Mistral AI已经对欧洲的AI领域产生了重大影响。
开源模型Mistral 7B和Mixtral的发布,惊艳了一众开发者,在AI社区掀起了轩然大波。
如今微软的支持,让更多人坚信:Mistral就是下一个OpenAI。
Mistral AI是法国的AI初创公司,微软与它的合作,无疑让微软在欧洲也建立起了自己的AI影响力。
两家公司的合作,目标是弥补基础AI研究与实际解决方案之间的差距。
如果在未来建立多年的合作伙伴关系,Mistral AI就可以访问微软Azure的AI基础设施了。
微软的加持对Mistral AI意味着什么,不言而喻。
不光Mistral AI下一代LLM的开发和部署会大大加速,并且会开辟出新的商机。以欧洲为基础,Mistral AI会向全球市场扩张自己的影响力!
具体来说,微软和Mistral AI之间的合作集中在以下三个关键领域——
超算基础结构:微软将通过Azure AI超算基础结构支持Mistral AI,用于AI训练和推理工作负载。
扩展市场:微软和Mistral AI将通过Azure AI Studio中的MaaS和Azure机器学习模型目录,向客户提供Mistral AI的高级模型。
AI研发:微软和Mistral AI将探索合作,为指定的客户开发专有模型,甚至包括欧洲公共部门的工作负载。
目前,两家公司还没有透露财务细节。
最近,Mistral AI以近20亿美元的估值,筹集了4.5亿欧元,由科技投资者Andreessen Horowitz领投。
不过,跟它在美国的竞争者比,Mistral AI所获得的资金显然并不算多。
要知道,OpenAI仅从微软就获得了超过100亿美元的投资,而Anthropic从谷歌和亚马逊获得的资金,也高达60亿美元。
据《华尔街日报》报道,去年10月,谷歌承诺向Anthropic投资20亿美元
因此,此项合作一出,Mistral AI「欧洲版OpenAI」的名头,更加坐实了。
而对于微软来说,这项投资也是好处多多——这是它在欧洲AI领域站稳脚跟的机会。
本来,作为Azure云中欧盟服务器上OpenAI模型的唯一提供商,微软已经在欧洲的AI竞赛中处于领先地位。
不过AI在欧洲所受的待遇,并不像在美国那样备受支持。
欧洲许多国家对于AI的态度偏保守,他们持的是批判性的态度,尤其是在数据保护方面。
而如果是欧洲服务器商的欧洲AI模型,或许能让人放心,不失为一种不错的补救措施。
成立9个月的传奇AI初创企业,挑战硅谷巨头
Mistral在种子轮融资时「6人团队,7页PPT,8亿融资」的故事,值得好好讲一讲。
2023年初,还在谷歌工作的Arthur Mensch,刚刚30岁。
一年之后,他离开谷歌创立自己的公司,只用了9个来月的时间,就已经估值20亿美元!
Mensch于2020年初加入了谷歌,成为DeepMind的研究员,他的研究方向是提高AI和机器学习系统的效率。那时他27岁。
后来,他和两位之前一起参与了Llama模型研发的年轻人Timothée Lacroix和Guillaume Lample一起,决定成立一家公司,通过更加高效的方法构建和部署AI模型。
他们相信,小团队能力在灵活性上超越硅谷的大公司,而开源模型就是他们实现这一目标的利器。
虽然已经从各路投资者那里筹集了超过5亿美元,他的公司Mistral AI相比于微软支持的OpenAI,谷歌,乃至Anthropic,依然显得有些「微不足道」。
这些巨头,以及巨头重金支持的巨型独角兽投入了几十亿美元来构建全世界最先进的AI系统。
但Mensch并不担心与这些庞然大物竞争。
「我们的目标是成为 AI 领域中最节省资本的公司,」Mensch表示。「这是我们成立的初衷。」
对于刚刚推出的Mistral Large模型,他认为,这款模型在执行某些推理任务上能够与OpenAI最先进的语言模型GPT-4和谷歌的新模型Gemini Ultra相匹敌。
Mensch透露,开发这款新模型的成本不到2000万欧元(约合2200万美元)。
Mistral巴黎总部的办公室
相比之下,OpenAI的首席执行官Sam Altman曾在去年发布GPT-4时表示,训练他们公司的大型模型的成本接近1亿美元。
而且随着他们用行业内最为高效的开源模型不断震惊业界,他们也获得了微软,英伟达和Salesforce等大公司的背书。
巨头们也通过现金或者算力的支持,获取了Mistral AI的少量股份。
伴随着Mistral Large的发布,9个月前他们用7页PPT吹下的牛,已经完全兑现了。
撬动8亿元投资的六人团队
这六个人的团队,是这样组成的。
Arthur Mensch在巴黎综合理工学院和巴黎高等师范学院学习期间,结识了另两位创始人——Timothée Lacroix和Guillaume Lample。
两人都是Meta AI团队的,Lample甚至领导了LLaMA的开发。
几个三十出头的年轻人,在LLM开发领域已经有不少经验。
在当时,即使在全世界范围内,具备构建、训练和优化LLM专业经验的人,也不超过100人。
而另外三位,分别是来自法国巴黎健康初创公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin,以及前法国数字事务国务秘书Cédric O。
AI科学家,如何创立自己的独角兽公司
Mensch个头高大,一头浓密的深色头发,他既不像典型的科技极客,也不像常见的CEO。
他的朋友和同事们说,他总是一边喝啤酒一边轻松地和朋友开玩笑。
作为一名运动爱好者,他在2018年提交博士论文前的几个月,以不到三小时半的时间跑完了巴黎马拉松。
Mensch从小就在学术追求与创业之间徘徊。他出生在巴黎西郊,母亲是物理老师,父亲拥有一家小型科技公司。
这位未来的CEO毕业于法国顶级的数学和机器学习院校。他的导师们将他描述为一个热情投入、能够迅速掌握自己几乎没有基础的项目的学生。
「我确实热爱探索新事物,」Mensch 表示。「我很容易感到厌倦。」
在攻读博士期间,Mensch的研究方向是优化软件,分析核磁共振图像(fMRI)系统的三维大脑图像,让软件能够处理高达数百万的图像量。
2020年底,Mensch加入了DeepMind,在那里他参与开发了大语言模型。
到了2022年,他以主要作者的身份发表了著名的「Chinchilla论文」。
这项研究重新定义了人们对AI模型的大小、训练它所需的数据量以及其性能之间关系的认识,被称为AI缩放法则。
随着2022年AI竞赛的升温,Mensch对于大公司的AI实验室减少了关于大语言模型研究成果的发表,减少了与研究社区的分享这一情况表示失望。
ChatGPT发布后,谷歌决定加速追赶。
Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。
「我觉得我在事情变得过于官僚化之前应该离开了,」Mensch 说。「我不想在大型科技公司中开发那些不透明的技术。」
Mistral在2023年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。
对于Mensch和他的合伙人来说,将他们的初始AI系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。
这也是吸引开发者和潜在客户的一种方式,他们希望每个人对自己使用的AI有更多的控制权。
尽管Mistral现在的最先进模型Mistral Large并不开源,但Mensch表示:
「在构建商业模式和坚持我们的开源价值观之间找到一个平衡点是非常微妙的。我们希望创造新的事物、新的架构,但是还想向我们的客户提供一些额外的产品和服务。」