
图片开端:a16z开云kaiyun.com Z Highlights: 从研究到创业:Mohammad Norouzi共享了从谷歌的AI研究员到Ideogram公司皆集创始东说念主兼CEO的鼎新,叙述了他在创办公司过程中面对的挑战和得益。 迫害性的AI期间:深刻探讨了Transformer和扩散模子在图像生成中的应用,终点是若何将复杂的文本和图像交融在一齐,终了高质地的视觉输出。 用户体验至上:强调了在AI家具开发中以用户体验为中枢的迫切性,通过与用户的致密互动,继续矫正家具功能,得志用户需求

图片开端:a16z开云kaiyun.com
Z Highlights:
从研究到创业:Mohammad Norouzi共享了从谷歌的AI研究员到Ideogram公司皆集创始东说念主兼CEO的鼎新,叙述了他在创办公司过程中面对的挑战和得益。
迫害性的AI期间:深刻探讨了Transformer和扩散模子在图像生成中的应用,终点是若何将复杂的文本和图像交融在一齐,终了高质地的视觉输出。
用户体验至上:强调了在AI家具开发中以用户体验为中枢的迫切性,通过与用户的致密互动,继续矫正家具功能,得志用户需求。
创新的将来愿景:征询了AI在创意产业中的后劲,终点是若何通过AI期间使每个东说念主都能终了我方的创预想法,从而激励更大的创造力。
期间与实践的诱惑:Mohammad谈及如安在有限资源下优化诡计和模子性能,确保AI期间不仅强盛且高效,同期简略大限度应用于实验家具中。
首创文本到图像模子: 从童年的绘画到AI研究
Mohammad:我如实意志到其时的一些对话是对于将文本到图像期间应用到Google的不同坐褥力用具中,举例Google PPT。问题是,这是一项价值1亿好意思元的生意吗?当它不是1亿好意思元时,很丢丑到它的价值。是以从根柢上讲,这种家具创新比大公司更难,因为有好多容易终了的方针不错去终了。你也不错把时刻花在告白矫正上,提高0.0001%。
Derrick:嗨,我是Derrick Harris。你正在收听的是a16z的AI播客,咱们专注于在东说念主工智能前沿确立东说念主才。这正好神态了本周的嘉宾,Ideogram的皆集创始东说念主兼首席推行官Mahama Noruzi。他在谷歌担任AI研究员大致十年,研究NLP、翻译和诡计机视觉,最终在谷歌的文本到图像模子方面达到了高潮。我与a16z联合东说念主Jennifer Li一齐与Muhammad进行了交谈。咱们涵盖了Muhammad的总共这个词旅程,从小时候在伊朗画画,到在大学里参加编程比赛,再到他创办公司并让任何东说念主都能创作我方的像片的资格。这是一场豪阔瞻念察力的对话,如果您对学习文本到图像模子背后的一些要道看法感兴致,请享受此次征询。
Jennifer:算作提醒,请防卫,此处内容仅供参考,不应被视为法律、营业、税务或投资建议,也不应用于评估任何投资或证券,而况不针对任何投资者或任何A16Z基金的潜在投资者。研究更多翔实信息,请参阅A16Z.com/裸露。
Mohammad:是的,我在伊朗长大,其时照旧个小孩。我莫得上幼儿园,也莫得东说念主照管。我所牢记的即是在高中时在祖父母的后院里闲荡,听故事和画画。我爱上了数学和编程的布景是咱们在大学举行宇宙入学考试。如果你得手进入奥林匹亚队和信息学或数学,你就不错跳过考试。因此,我所作念的即是与一群其他有建设的高中生竞争编程和数学问题。这包括好多组合数学、几何和图论,但我最终更多地转向编程。然后我为团队作念了一些竞争性编程,因为我跳过了考试而进入了大学。
在大学里,我有好多算法和数据结构的布景。我莫得作念太多的学习,我作念的大部分事情都是为竞争性编程构建这些web应用圭臬。这些应用圭臬被用于下一代高中生试图在编程方面竞争。这主若是一个孤独样式。我并莫得想过要把它变成一门生意,然后在大学行将收尾时,我在想考下一步想作念什么。我的大多数一又友都进入了表面诡计机科学畛域,稀有学布景,但我以为我想作念一些更实验的事情。我自学了神经网罗和反向传播。实验上,我其时读了对于卷积神经网罗的论文,其时卷积神经网罗并不受宽饶。我启动在Java中终了反向传播,并在LaTeX上编写了公式。是以这有点意旨,我只是第一次阅读学术论文,然后我方把它全部弄显着。
Derrick:那是什么时刻段?我能问一下吗?
Mohammad:2007年。
Derrick:好的,是以你比期间超前了几年。
Mohammad:是的,这是很久之前的事情,然后我在想也许我想深刻研究领路科学,了解更多对于大脑若何责任的信息,因为其时好多批驳都在征询神经网罗和大脑之间的关系。我试过了,我在加拿大读硕士的时候尝试作念一些领路科学,但那不合适我。是以我很快就转向了诡计机视觉、机器学习之类的畛域。东说念主们一启动就问我,你对诡计机视觉照旧当然语言处理感兴致?因为这是机器学习的两个主要应用畛域,但把这两个畛域分开并莫得让我感到合适。因此,我作念了一些NLP,一些诡计机视觉,然后在多伦多作念了博士研究,将卷积神经网罗应用到大限度相似性搜索中。但自后我去了谷歌,那时照旧构建深度学习网罗的早期阶段。我是brain team的一员,我参与了一大堆探索性样式,并深刻研究。
Jennifer:有好多意旨的样式。如果你在谷歌责任,可能最著名的即是图像生成,这可能导致了咱们今天所处的位置。我很意思意思,在启动研究这些前沿模子之前,你们作念了哪些样式和研究?总共这个词图像生成样式背后是什么样的故事?
Derrick:然后你作念了cat video(生成系统)吗?因为那时是2012年。
Mohammad:我想我是cat video样式之后在谷歌实习的。当我全职加入时,东说念主们正在进行监督学习,而不是无监督学习。我参与的第一个样式是使用卷积神经网罗进行机器翻译,并实验使用强化学习来提高机器翻译。我认为这有点超前,咱们当今使用好多强化学习来调治大型语言模子。但在其时,这些模子并不是很大,但仍然是用于翻译的语言模子。这导致了翻译质地的大幅擢升,推出了translate.google.com。
然后有几年,我在诡计机视觉、强化学习和当然语言处理方面作念了好多探索性责任。我认为有一个共同的主题,那即是找到一个更大的样式,不错奉献我的时刻和团队元气心灵。有好多对于不同类型的生成模子的责任,它们不错生成复杂的序列、图像,以及咱们若何使用强化学习来提高这些模子的性能。
当Transformer论文出刻下,我实验上是在山景城(Mountain View,ZP注:她与隔邻的Palo Alto City、Sunnyvale City和San Jose构成了硅谷的最主要塞区)隔邻。这有点可笑。咱们很早就在征询这个问题,它与扩散模子研究。当Jacob、Ashish和我辩论这个问题时,更多的是在咱们若何为语言进行并行生成的布景下。大型语言模子通过一次生成一个token来责任。有一个浩荡的想法,咱们若何卓绝一次生成一个token,并进行更多的并行生成,以便更有用地生成长文本块?是以这是Transformer论文背后的初步想考的一部分,但跟着他们连续征询时刻生成的问题,仍然有一些图像生成方面的并行生成想法。
但仍然有东说念主认为,每次生成一个图像块或一次只生成一个图像的总共这个词看法不会产生太多感知,因为图像不是当然有序的。咱们正在接洽更有用地生成图像的不同法子。咱们看到了Jonathan Ho的论文,还有扩散模子。咱们坐窝意志到,这项责任有很大的后劲。于是咱们放弃了其他样式,专注于这项期间,并在其上构建了一些应用圭臬。咱们发现了这一丝。是以总共这个词想法是,咱们若何使用AI构建比单个样式更伟大的东西?当咱们看到了这些后劲,接洽到我的布景和经历,我启动以为这是我应该奉献一世的事情。
Jennifer:我想知说念,插足你和团队的时刻以及你一世的责任到一个研究主题中的想法是什么?
Mohammad:这实验上是一个极度复杂的优化问题。在寻找从期间角度有很大矫正空间的东西方面,因为归根结底,我的专科是AI的期间和研究,是以率先,它应该是在开发和期间复杂方面有更永劫刻的东西,但亦然我能感到宥恕并爱上的东西。我爱上了艺术,视觉输出对我来说比文本更容易运动。我猜对大多数东说念主来说,视觉信息更接近感官处理,咱们大脑的大部分资源都用于处理视觉信息。是以,当咱们看到新期间在改变图像和视频生成方面具有强盛后劲时,我感到极度激动。我简直嗅觉这是一个极度大的范围,是我内心所调度的东西。是以这并不是需要太多想考,一朝我找到了阿谁范围,在此之前我需要想考好多。是要作念更多的语言建模,照旧更多的强化学习?这样的采选。
Transformer与扩散模子: 比较分析
Derrick:为了让咱们的一些听众更好地相识,您能将传统的Transformer模子与扩散模子进行比较和对比吗?因为我认为当东说念主们听到这里时,token看法是终点肃穆的,但很少有东说念主了解扩散或图像模子是若何责任的。
Mohammad:虽然,我会说这是对于你听到的对于Transformer、卷积等架构的,更多是对于生成高维对象的骨子上的不同。岂论是图像、文本照旧音频,你都不错将它们调动为一系列比特。目下至少有两种主要法子不错生成高维的比特序列。一种是每次生成一个比特,或者一次生成一块比特,这被称为自记忆建模。总共大型语言模子都基于这个看法责任。你生成第一个比特,然后将其算作输入,生成下一个比特。你不错通过检察迄今为止生成的总共比特进行迭代,然青年景下一个比特或一组比特。你不错扩张这个想法,不是一次作念一个比特,而是一次作念两个比特,等等。这即是tokens和tokens大小的看法。
当今,还有另一种生成这些比特的法子,那即是通过迭代过程同期生成总共比特。布景是,只需向数据中添加杂音,就不错很容易地将数据调动为杂音。杂音指的是一个完全迅速的比特序列。生成完整的迅速比特序列极度容易。生成与图像相对应的迅速比特序列极度贫寒。扩散模子的总共这个词想想是从一系列迅速比特启动,通过一个迭代过程,尝试使其更近似于一幅图像或一系列笔墨。这两种法子的根柢区别在于,一种法子是一次作念一个token,或者一次作念一块token,而另一种法子是进行合座的生成和矫正。
当你深刻想考这个问题时,你会意志到,在创造艺术品的过程中,咱们并不像点彩画那样逐点进行。粗豪,咱们会从一个宏不雅的构想起程,随后绘图草图,上色,并通过一个反复的细化过程来完善作品。从这个角度来看,东说念主类创作画作或艺术作品的过程,与扩散模子所顺从的旅途更为相似。关联词,从另一个角度来看,想考咱们谈话或撰写段落的民俗,咱们会发现,岂论是书写真旧白话抒发,咱们都是自关联词然地从第一个词启动,逐词逐句地伸开。
Jennifer:这完全正确。我老是想考去噪过程,因为我也画画,尽管我不是一个伟大的画家,但它极度近似于若何将一个想法从脑海中的顽劣草图变成一个有好多细节的作品,这是一种精湛。我发现去噪过程不错极度准确地反应了现实世界的过程。当Transformer论文出来时,你也在那儿征询它。我很意思意思,其时这种新架构给东说念主的嗅觉是什么样的?你有莫甘愿料到这会是一件大事?它之后改变了机器学习和AI行业,东说念主们是否感到诧异?
Mohammad:再说一遍,Ashish是我的亲密一又友。咱们一直在征询好多话题。其时我在湾区责任,我想他在论文提交后就知说念这是期间的一个极度迫切的部分。他在走廊上告诉我它是若何责任的,以及它给翻译带来了若干矫正。再一次,翻译也曾是Transformer论文的锻练台。它在两个方面有所匡助,一个是考验的速率,另一个是翻译的质地。公道地说,我认为其时莫得东说念主极度显着地知说念这会变得多大,而且意旨的是,当今Transformer不仅是语言处理的基础架构,亦然诡计机视觉的基础架构。咱们远远超出了语言翻译算作一项任务。咱们当今在辩论通用东说念主工智能和构建通用智能机器的想法。看到Transformer在这些畛域中弘扬如斯迫切的作用,如实令东说念主感到谦善。除了架构外,还有东说念主意志到建模语言自身是一项意旨的任务,鼓舞了建模语言并鼓舞了一次生成一个token的想法。一次一个token,不错带咱们走这样远。我认为OpenAI的东说念主有好多功劳,因为他们发现调换的基本原则,调换的建模语言想想,不错导致极度智能的代理。其时在谷歌有一些对于这个的征询,但我不认为有极度全心谋划的战术和强项的信念。咱们花了多年时刻在更大的数据集上进行演示限度的考验,这将为咱们提供极度强盛的机器,而它的对皆方面在很猛进度上亦然未知的。咱们不错使用少许、坚贞的指示和反应或东说念主工反馈的想法,使这些模子更易于接近。其时这些都是未知的。
Jennifer:沿着吞并想路,我也很意思意思,当你的皆集创始东说念主Jonathan Ho发表了扩散模子论文时,这是否引颈你们走上了图像生成和扩散模子之路?看到这篇论文发表时的嗅觉是什么?这是一种预期之内的,照旧挂牵研究行业的?
Mohammad:我十足认为这在其时是一个迫害,因为咱们需要某些类型的生成模子,包括GANs和自记忆的Transformer模子,但至少在其时,它们都无法扩张到大型图像数据集上生成更高区分率和更千般化的图像。即使从扩散样式的早期阶段来看,这种模子也能创造出更高保真度的图像,而况有很大的后劲。这篇论文依然让咱们在这方面走得很远,但当你记忆GANs的历史时,一步步矫正模子需要几年的时刻。扩散模子在好多方面矫正了GANs。是以我认为这是一个迫害,咱们看到了它的后劲,并在某种进度上终明晰这一后劲。咱们不一定预感到将来的全部发展,但咱们信赖住手了好多其他样式,并将扩散模子算作一个迫切的研究标的。
还有一种想法是,一朝图像模子启动运作精采,咱们就不错从图像或想象的神态鼎新为实验的图像和想象。这种将文本翻译成图像的问题是创意产业转型的一个极度基本的部分。我认为其时并不黑白常领路,但咱们必须鼓舞它。好的,让咱们通过文本到图像、文本到视频来让这些模子更容易被东说念主们继承,成为新一波创造力的鼓舞者。
图片开端:Unsplash
从研究员到企业家: 用东说念主工灵敏创新创造力
Derrick:是什么最终导致你离开谷歌并创建Ideogram?谷歌较着在很长一段时刻内都处于前沿。我作念了好多这样的研究。
Mohammad:我简直认为咱们会创造一个难熬的境地,这是一个伟大而惊东说念主的研究,出自谷歌。咱们在扩散模子上使用的一些责任再次出自谷歌,这种被称为“象征符免费诱导”的期间极度流行,再次由Jonathan建议,但我想谷歌研究团队的任务并不是构建家具。咱们尝试作念了一些家具,但这并拦截易,因为我想咱们是一群研究东说念主员,咱们之前莫得真确发货过家具。我不认为有东说念主信赖咱们致使不错作念好责任,但从根柢上说,我不细目家具创新是否不错在大公司内浪漫发生,因为你有一个腾达发展的业务而况正在运作。是以我如实意志到其时的一些对话,举例将文本到图像期间应用到Google的不同坐褥力用具中,举例Google幻灯片,但问题是,这是一项价值一亿好意思元的生意吗?
Jennifer:当今?事实评释它是。
Mohammad:是的,简直地说,但当它不是1亿好意思元的生意时,很丢丑到它的后劲。是以我认为,从根柢上讲,这种家具创新比大公司更难,因为有好多容易终了的方针。你知说念,你不妨把时刻花在告白矫正上,提高0.001%。
Jennifer:当今你依然在Ideogram责任了一年多。记忆谷歌的资格,你学到了什么?有哪些申饬对于考验这些大型模子仍然具有诱导性和价值?当今你在构建家具时有哪些东西,你发布(家具)的速率极度快,这与谷歌的情况酿成了很大的对比。
Mohammad:是的,当今咱们需要更全面地接洽总共这个词责任流。咱们还需要更高效地诈欺咱们的资源,岂论是诡计资源照旧东说念主力资源。咱们是一个敏捷的团队,咱们领有的诡计资源实验上是惊东说念主的,但还莫得达到谷歌的限度,是以这是咱们必须面对的一个现实。我认为这可能是一件功德。缺少资源促使你愈加悉力责任,赢得更多建设。还有一件事是咱们倾销公司的形式,咱们是一家垂直整合的AI公司。咱们是AI优先,但咱们亦然家具优先,咱们是社区优先。因此,咱们的支撑包括社区、期间和家具。
我认为当咱们在谷歌担任研究东说念主员时,咱们极度注再行奇性和研究,创重生成图像和文本的新法子、新想法,这很棒。但在家具开发的布景下,咱们需要更多地接洽用户的需求。咱们的用户想要什么?咱们若何终了这一丝?咱们若何创建不错完成任务的新基础模子,以及构想、创造和裁剪的新法子?各式创意应用的将来是什么?视频创作的将来是什么?在终了通用视频生成之前,有哪些可终了的里程碑?当咱们算作研究东说念主员想考这些问题时,这些问题都莫得出现。我认为与用户坐下来谈简直很令东说念主怡悦。
我每周都有这种聊天。基本上,这是一种完全有机的与用户互动的形式。东说念主们会手把手地建议各式迅速苦求来教唆或使用家具,然后有些东说念主会提供一些反馈或批驳。看到用户对家具的防御简直很好。就在那时,咱们推出了这个家具。咱们看到了用户的好多关注,他们极度感恩。咱们还有一个极度慷慨的免费层,是以在这个级别与咱们的用户互动简直很好。我认为在大公司里这样作念要贫寒得多,因为你粗豪需要通讯、公关和社区等部门的支撑,而咱们莫得这些。
Jennifer:我参加了一些社区聊天,望望用户来自那处以及他们的布景简直很意旨。有些东说念主可能不了解扩散模子的细节,但他们不错制作出这些秀雅的图像和艺术作品,对迭代过程有很好的相识。算作别称家具不雅众,这极度迷东说念主,我确信也极度值得。
Mohammad:是的,那是简直。这种契机不错让我在个东说念主心爱的家具上责任,我一直都在使用它。我以为使用Ideogram更有创意,这是一个极度独到的契机,不错在个东说念主层面上作念一些让你感到怡悦的事情。值得荣幸的是,这对多量用户来说也很令东说念主怡悦。
家具的核豪情念是,每个东说念主都渴慕创造出简略视觉化抒发自我的作品。尽管有东说念主可能但愿通过绘画来终了这一愿望,但并非每个东说念主都有这样的手段。这种局限通常制约了他们的创造性自我抒发。跟着AI期间的出现,咱们有契机迫害手工艺术的限制,让创造性想法的抒发变得愈加目田。我对此感到极度激动,终点是看到新一代东说念主正在掌抓并诈欺这项期间成长。我信赖,当东说念主们简略将我方的想法变为现及时,他们不仅在创造力上得到擢升,而且会变得愈加创意无穷。因此,我认为新一代东说念主将会因为每个东说念主都能目田抒发自我而变得豪阔创造力。这无疑是一件令东说念主激昂的事情,因为创造力不仅是端淑跳动的基石,也在经济层面创造了强盛的价值。
翻新性的想象: Ideogram创新的文本和图像整正当子
图片开端:Unsplash
Jennifer:让咱们深刻了解更多对于Ideogram的内容。如果听众今天玩了商场上总共其他模子,咱们会发现Ideogram极度擅长教唆相识、视觉作风,尤其是拼写、排版和结构的智力。Ideogram有何不同之处?如果你能揭开一些艰深,与其他模子比较,你们是若何将笔墨如斯好地融入这些图像模子中的?
Mohammad:是的,我想在更高的层面上,当你猜想想象和想象软件时,你会看到文本的迫切性。因为简略以某种形式呈现文本和图像,让咱们在更深眉目上进行交流,更有创意地进行交流。当你猜想模子时,它们粗豪有图像和文本。我认为模子封装了一种极度有创意的交流形式。可是更进一步,当你猜想告白、营销、各式想象时,你常常会看到笔墨和图像交汇在一齐。
当你猜想传统的文本渲染形式时,你有字体,你有将字体调动成图像的引擎。其中一些可能是复杂的,或某些语言的字体极度小。咱们所领有的不雅点是,在将想法出动为图像的过程中,AI不错略过字体要领。是以咱们不错径直生成图像。咱们不错领有自界说字体,即字体之间的差值。咱们不错更好地处理透视,更好地处理图像和文本之间的复杂关系。
是以这仍然是咱们领有的不雅点,如果这都是对于自界说字体阶段的,而是对于为每个想象创建新字体呢?是以从一启动,咱们就认为这是商场上的一个空缺,它将使许多创造性的应用成为可能。当咱们构建这些数据集时,当咱们发布新模子时,咱们极度关注文本的质地。
东说念主们问什么是艰深开端?我想咱们可能有一些营业艰深,但归根结底,这一切都是对于专注于一个迫切的问题并处治它,而在咱们的情况下,问题即是想象,让总共常识责任者,每个莫得太多想象专科常识的东说念主都不错使用想象。我认为契机在于咱们不错领有极度浅近的用户体验,但提供优质的想象,如果莫得想象专科常识,就很难创造出来。这即是咱们应该很快终了的愿景。
Jennifer:我一直在玩文本,终点是Ideogram,制作模子,以及这些纹理文本,如纱线或花朵,或通过不同的版块制作。我不错看到这一丝,而况期间拼写智力跟着时刻的推移而提高。我很意思意思,与只是是一个脚色或局面图像比较,使用文本有哪些挑战?你们是若何处治这些挑战的?
Mohammad:我想咱们面对的一个挑战是让字体变得枯燥。因此,矫正文本生成是可行的。总的来说,一个挑战是提高拼写质地,因为如果你有一个文本生成器,你但愿它是齐备的,对吧?你给了字符,它永久不会偏离你输入的字符。但接下来的挑战是你需要决定字体、大小、脸色、位置,而且很难使它成为图像的原生内容。当今,当咱们使用AI来生成图像时,咱们不错通过使用更多的诡计资源来提高准确性,但这样会变得很枯燥。提供优质想象和定制字体的总共这个词愿景变得愈加贫寒。是以咱们面对的挑战是同期提高准确性、创造力和想象质地。
另一个挑战是你不错有极度好的文本,但模子在其他总共方面可能都很倒霉。实验上,创建一个只处理文本很好的模子是很容易的。可是如果脚色手持一个记号,而文本看起来不真实或区分率不高,那就不好了。是以我想这是咱们想要保持文本准确性的另一个挑战,同期也要为各式其他主张提供最好的图像质地。然后,我想这个行业的另一个浩荡挑战是推理本钱,因为咱们想要矫正模子,增多模子大小。这触及到你所说的比例定律。但与此同期,咱们但愿将这些家具提供给尽可能多的东说念主,并让他们更具创造力。在新版块的模子中,咱们是否不错保持低本钱并跟着时刻的推移裁汰本钱?
Derrick:有莫得一种可能,一些本钱或诡计本钱被卸载给用户的开辟?
Mohammad:这是一个意旨的问题。是以你的风趣是,如果诡计发生在手机或个东说念主开辟上?
Derrick:是的,尤其是当今咱们领有极度强盛的AI芯片,至少在苹果家具中是这样,对吧?他们看起来有智力。
Mohammad:将来十年将若何发展是一个意旨的问题。到目下为止,最强盛的模子似乎仍然越来越大,而况它们生涯在云霄,而在手持开辟中,你有一个较弱的版块。是以我认为跟着期间的跳动和开辟的矫正,也许咱们不错在开辟上提供更高质地的文本和图像生成。但我仍然认为咱们将领有最智能并将模子保存在云霄。
Jennifer:有些东说念主说,当今咱们玩图像模子依然几年了,它有点成为商品。你认为从长久来看,这个畛域的玩家会有所不同吗?你在我方的用户群体中看到了什么极度独到和新的东西?
Mohammad:我认为在主要图像建模方面至少还需要几年的时刻。你将在不同的公司领有更多近似的模子,但咱们倾向于低估。咱们还需要作念若干期间责任才能达到最高的质地水平,才能真确用合成媒体取代真确的媒体?想想照相率先破耗多量时刻裁剪和调治的总共高区分率图像。愿景是AI不错作念到这一切。是以我认为在期间方面还有好多责任要作念,以进一步鼓舞质地。是以我不认为这些模子很快就会成为商品。
同期,我认为围绕这些模子的责任进程和用户体验极度迫切和可贵。这即是为什么成为家具第一和AI第一的公司给了咱们一个独到的上风,因为咱们不错创造由于基础模子智力而独到各异化的用户体验。一个很好的例子实验上是对于GPT-4的新责任,您不错在其中考验一个模子,以减少语音交互的蔓延。我认为,由于AI期间,这提供了独到的各异化用户体验。而其他公司在莫得建立基础模子的情况下很难复制这一丝。
是以我认为对咱们来说,在图像创建、裁剪和想象方面,简直的用户体验是什么?咱们若何才能让一个外行人建议一个浅近的苦求?假定他们想为他们的孩子诞辰派对想象一个邀请函,或者他们想为一又友创建一张贺卡。他们带着一个想法,然后带着一个完成的想象离开,这个想象不错用于任何主张。因此,我认为将会有好多迭代,有好多裁剪。他们可能想要在图像中搁置一些他们我方的个东说念主像片和关系教唆,咱们需要接洽若何将其算作一个合座来终了。
用户体验需要多量的想考。我不认为旧的用户体验一定是AI期间的理想体验。因此,将会有新的裁剪图像的法子,使其愈加无缝,愈加直不雅。咱们将建造它。这愈加各异化,因为用户体验和AI功能是端到端构建的。
Jennifer:将来诞辰卡片能播放歌曲,幻灯片能自动涵养吗?你是若何看待用户体验的?多传感器体验是否依赖于多模态期间?
Mohammad:将会有好多视频。这将会是好多视频动画。因为视频创作面对的挑战是什么?这很难,对吧?制作动画贺卡更难,而东说念主们不错在线制作模板并快速制作贺卡,制作动画版块需要更多的责任。但有了AI,这将极度容易,而且很快就会到来。
Derrick:这有点不关要紧,但你之前提到你年青时作念了好多竞争性的编程样式,但AI圭臬能模拟出你吗?
Mohammad:我想当今意旨的是AI编写圭臬很容易,但调试圭臬却很难。是的,我不知说念咱们需要若干年才能真确写出正确的圭臬,而且咱们不需要任何编程专科常识。让咱们说不。是的,但我的风趣是,到目下为止,我认为诡计机不成很好地编程,优秀的圭臬员。
从研究员到企业家的转型: 在AI嗡嗡声中创办公司的资格申饬
Derrick:在咱们收尾之前,回到创办公司的想法,对于AI给我带来动荡的一件事,尤其是当今,你会看到好多东说念主花了好多时刻进行研究和极度高水平的研究,然后去创办一家公司。我认为尤其是从谷歌的无数预算和总共这个词招聘进程启动,就像一些致使不是期间上的东西,就像你学到了什么通常,我猜,或者你所看到的一些事情,从研究东说念主员到当今计算一家公司,不得不作念总共这些演变的事情?
Mohammad:要明确的是,咱们莫得创办公司,因为AI很酷。我在(Google)的终末一天是在ChatGPT发布两天后,之后咱们创办了公司,因为咱们以为AI有很大的后劲。天外简直很令东说念主怡悦,咱们想站在它的前沿,开发期间并享受其中的乐趣,发生的事情是我猜AI也很受宽饶,是以这是一个很好的刚巧。但这并不是为了引起咱们在公司方面的关系,实验上这有点意旨,我以为这是一个让我更多地了解我方,发展更多手段和成为更好东说念主的契机,因为有好多病笃和复杂性,将不同的利益关系者对皆总共这些辐照。我认为这亦然一种个东说念主旅程。它在不同层面上挑战了我和团队中的每个东说念主,但好音讯是你经历了一些挑战和横祸,因此你对我方有了更多的了解,并但愿创造一些价值。这是看待它的一种形式,我嗅觉它走出了我的好意思瞻念区。这很令东说念主怡悦,因为它将匡助我和公司的其他东说念主成为更有智力、更好的东说念主。
Derrick:这周就到这里了。咱们但愿你心爱听Mohammad的共享,就像咱们心爱和他交谈通常。如果你心爱,请牢记给播客评分,并与你的一又友和共事共享。下周见,谢谢收听。
原播客:The Future of Image Models Is Multimodal https://a16z.com/podcast/the-future-of-image-models-is-multimodal/
编译:Ryan Du 杜竑喆
-----------END-----------开云kaiyun.com