您的位置:首页 > 创始人访谈

创始人访谈

专访Pika Labs创始人:探索视频生成的GPT时刻

2023-12-01 网络 阅读 500
扫码分享

专访Pika Labs创始人:探索视频生成的GPT时刻

硅谷云 2023-11-30发表于美国

 

编者荐语:

 

Pika Labs 两位创始人 Demi 和 Chenlin 都是斯坦福在读博士生,也都是华人女性。Chenlin是华师大二附中毕业的,所以是我的双重校友,看到公司做得这么好,很是为她们骄傲!希望有机会突破华人创业圈之前杨致远设立的天花板。#硅谷徐老师

以下文章来源于海外独角兽 ,作者拾象

 

    采访:penny、cage、Kefei

    编辑:Siqi、penny

 

以下为本文目录,建议结合要点进行针对性阅读。

01 天才少女创业,抓住行业变化窗口期

02 视频生成的 GPT 时刻

03 要做最好的技术,也要做新一代 interface

 

每一代技术变迁都会带来内容生产的繁荣:胶片技术催生了好莱坞和迪士尼的黄金时代,数字化带来的家庭录像技术则铺平了 YouTube 的兴起之路,在移动和算法时代,TikTok 强势崛起,在这些代际迁移的过程中,人们的视频消费需求也在不断放大。

AI 时代是否会催生“新时代的好莱坞”?AI 对视频制作的改造可以简单分为三类:视频生成(Text-to-Generate)、AI 视频编辑(AI Editor)以及数字人(Avator),后两者从视频编辑切入,用 AI 提效,而视频生成意味着内容创作的极度民主化,有机会彻底改造传统工作流,也最让我们感到兴奋。

技术视角下,相对于文本、代码和图片生成,视频生成(Text-to-Video)也一直被认为是 AIGC 的“高地”,面临庞大的计算需求、高质量数据集短缺、可控性等挑战。

视频领域何时会迎来自己的 GPT 时刻?过去一年,Text-to-Video 领域的进展远比想象中迅速:Runway 先后发布了 Gen1、Gen2,上周推出的 Motion Brush 则在可靠性上向前了一步,Stability AI 也在上周发布了自己的首个 Text-to-Video 模型 Stable Video Diffusion。

今年 7 月,Pika Labs 在 Discord 推出服务器,并在几个月时间内收获了 50 万用户,大家开始将视线转向这家被称为视频生成领域“黑马”的公司。

 

Pika Labs 的团队相当精简,目前仅有 4 位全职成员,但兼具学术和创意两个领域顶尖人才:Demi Guo 和 Chenlin Meng 同为 Stanford AILab 的博士研究人员,拥有顶尖的学术和科研经历;Karli Chen 作为团队第三位创始人及创始工程师拥有 CMU 的 ML&CV 硕士学位,Karlin 本科期间就在机器视觉公司 SenseTime 担任工程师;Matan Cohen-Grumi 则是拥有丰富经验的创意领域。

 

Pika Labs 最新官网

 

今天,Pika Labs 正式推出了最新一代视频生成模型  Pika 1.0。Pika 1.0 不仅对视频生成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频,此外,用户还能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。在推出 Pika 1.0 的同时,团队也上线了最新官网,用户不仅能在 Discord 上使用 Pika 的服务外,还可以在官网进行视频生成和编辑(官网地址:https://pika.art)。

 

Pika Labs 目前已经累计完成 3 轮、共 5500 万美元融资,最新估值为 2.5 亿美元。Nat Friedman 、 Daniel Gross 和 Lightspeed 分别领投了 Pika 的 Pre-Seed、Seed 和 A 轮融资,此外,众多硅谷明星投资人、AI 领域重要公司 CEO 或核心成员也参与了 投资,例如:Elad Gil、Adam D'Angelo(Quora 创始人及 CEO)、Andrej Karpathy、Clem Delangue(Hugging Face co-founder 及 CEO)、Aravind Srinivas(Perplexity CEO)、Mateusz Staniszewski(ElevenLabs CEO)以及  Keith Peiris(Tome CEO ) 等。

 

海外独角兽在 Pika 1.0 发布之际也对 Pika Labs 两位创始人 Demi 和 Chenlin 进行了访谈,两位创始人分享了她们的个人经历和创业故事,对视频生成技术的理解,以及对 Pika Labs 产品及商业化的思考。

 

嘉宾简介

 

• Demi Guo:Pika Labs 创始人兼 CEO,高中时期进入 IMO (International Math Olympiad) 国家集训队,并在2015年IOI (International Olympiad in Informatics) 中获得银牌。在哈佛大学获得数学学士学位时,Demi 同时攻读了计算机科学硕士学位,并转至 Stanford 攻读博士学位,师从 Ron Fedkiw 和 Chris Manning 教授,进行图形学和 NLP 交叉领域的研究。除此之外,Demi 在大二 gap year 时期成为 Meta AI Research 最年轻的全职员工,也在Microsoft、Google Brain、Epic Games 等公司实习,拥有很强的工程和科研能力。

 

• Chenlin Meng:Pika Labs 联合创始人兼 CTO,在 Stanford 攻读数学学士学位期间即在 Stefano Ermon 教授指导下开始学习研究生课程,并在本科期间就发表了 5 篇 Generative AI 方向论文,完成本科学业后,Chenlin 继续在 Stanford 攻读计算机 Ph.D 学位,在 3 年时间中发表了 30 多篇论文,其中,她参与创作的 DDIM 论文是内容生成的重要论文之一,DDIM 是一种重要的内容路线, OpenAI 的 DALLE-2、Google Imagen 以及 Stable Diffusion 等模型都使用了这一方法。

 

01.

 

天才少女创业,抓住行业变化窗口期

 

 海外独角兽:为什么选择创业做视频生成,当时看到了什么样的机会?

 

 Demi:我对创意行业和用 AI empower content creation 一直很感兴趣,很有热情。我从小学画画,家里人也有不少是做艺术行业的,我也一直想往这个方向创业,读博选的也是 AI 和 creation 方向。我在博士期间有两位导师,一位是做 AI 的 Christopher Manning,现在是 Stanford 人工智能实验室的主任。另一位是 Ron Fedkiw ,是做创意、电影行业的,得过两次奥斯卡奖,也参与过加勒比海盗、星球大战等电影的特效,他现在也是我们公司的 advisor,我有时候和老师开玩笑说,他在计算机图形学火起来的时候,改变了整个电影行业,而我们现在想用 AI 再次改变行业。我觉得这个方向能做十年。

 

在视频生成之前,我考虑过游戏行业,因为如果用 AI 去做 content creation,游戏最容易商业化,我在斯坦福读博期间还专门去 Epic Games 实习,了解游戏行业的痛点。但后来发现视频行业比游戏更不成熟,更有机会。

 

今年年初,Runway 举办了第一届 AI movie Festival,我找了几个 Stanford 的 AI 博士还有其他朋友,组成了一个六、七人的团队,还请来一位得过两次艾美奖的编剧。我当时以为这个团队一起制作电影应该不难,但实际制作的过程中意识到,现在的视频工具非常复杂,想表达心中的想法门槛很高。有时候我们想做很小的事情,比如换个背景,几秒钟的内容也要消耗几小时,软件还经常 crash。我意识到电影行业和视频制作过程之间有很大的 gap,对非专业的人来说,视频工具很难学,每个细节都要用很复杂的工具完成;而对专业的人来说,即使已经熟练运用工具,还是要消耗大量时间。

 

海外独角兽:在这个过程中,你感受到 AI 会在视频行业里起到什么样的作用?

 

 Demi:我们当时已经在用 AI 赋能,那时候 Runway 还没发布 Gen-1,我们用一些 AI 算法实现了一个从 real action 到 live action 、再到 animation 的电影作品。那时制作视频的 AI 算法不少,但没有被嵌入到任何工具里。我个人认为当 AI 功能非常强大时,视频制作不可能再这么复杂,未来一定会有完全不同的体验。这件事非常确定,但当时好像没有很多人去做这件事。

 

 

 Demi:我其实不是很喜欢去想一些竞争对手。可能很多人会问我们怎么跟 Runway 去竞争,但是对我们来讲,我们想做的事情现在没有人能做成,这不是竞争的东西,现在我们是在跟这个技术、跟我们自己去竞争,我们不再想抢占市场,而是要先把事情做成。另一方面,竞争对手也是在动态变化的。我们主要还是想做成 AI 视频生成这件事情,因为我们对这件事情充满热情,而且觉得它非常有意义,也非常有挑战性,所以如果竞争对手想要和我们合作,我们也非常欢迎。

 

也有很多人会说,以后 Midjourney 可能会成为你的竞争对手,但其实 Midjourney 的 Vision 是想做一个 3D 实时的世界,Pika 的目标是做一个新的 Video Making Interface。

 

海外独角兽:怎么看视频生成和视频编辑的关系?

 

 Demi:视频生成本身也有编辑的成分,我们如果做好一个基础模型,然后在基础模型上去做一些应用程序是比较简单的。就像在图片生成领域,有了基础模型,比如想做一个手绘生成照片的应用很简单。到最后,视频生成和编辑的边界可能会很模糊。

 

短期内我们不会做特定类型的视频编辑,不会和剪映、Premiere 之类的工具走到一条赛道上,但我们可能会覆盖 Adobe After Effect 里的一些功能,比如单个视频的内容编辑、特效编辑功能。

 

海外独角兽:未来一年里公司在整体发展层面最关心的三个问题是什么?

 

 Demi:第一是想招人,现在我们忙着做产品的升级,但是因为现在人比较少,之后我们还是会招募更多成员;第二,我们想去设计一个新的 Interface;第三个就是我们还想做一些技术突破,希望明年的技术能够至少在一定程度上达到商业化标准,能在简单的 case 上得到应用。我们希望这个视频生成工具可以让每个用户,包括更广泛的大众都能使用,都能生成好看的视频。



上一篇:科技探索之路
下一篇:和府捞面