Midjourney创始人表示“世界需要更多想象力”
2023-10-19 发布
2022 年 4 月,由 Elon Musk、Sam Altman、Ilya Sutskever、Greg Brockman、Wojciech Zaremba 和 John Schulman 共同创立的人工智能 (AI) 公司 OpenAI 首次推出了 DALL-E 2,这是一款可以创建逼真图像和艺术的 AI 工具。用自然语言进行描述,例如“泰迪熊在 20 世纪 80 年代在月球上进行新的人工智能研究”
— 萨姆·奥尔特曼 (@sama) 2022 年 5 月 24 日
为了通过视觉渲染向通用人工智能 (AGI) 迈出一步,OpenAI 引起了网络轰动。用该公司的话说,“DALL-E 2 将帮助人们创造性地表达自己。”
想象任何像“饼干怪物对饼干库存下降的反应”或“宇航员以安迪·沃霍尔风格骑马”这样的随机事物,DALL-E 2 都可以生成它。
该技术最近甚至被用来制作第一个由人工智能生成的杂志封面。
尽管 OpenAI 只是扩大了该工具的早期使用范围,但它激发了许多类似图像生成器工具的创建,包括 Google 的 Imagen、Meta 的 Make-A-Scene、TikTok 的 AI 绿屏以及Boris Dayma的有趣但令人恐惧的 DALL-E mini。
当这些科技巨头争夺人工智能艺术霸主地位时,《经济学人》在 2022 年 6 月号封面上 介绍了这个游戏的新成员——Midjourney 。
David Holz 的这项技术版本(称为 Midjourney)迅速声名鹊起,每个接触到这种文本到图像生成器的人都留下了深刻的印象。最近,科罗拉多州博览会的年度艺术竞赛将蓝丝带授予新兴数字艺术家 Jason M. Allen,他利用 Midjourney 创作了一件名为“Théâtre D'opéra Spatial”的艺术作品。
中途的旅程
要了解Midjourney,有必要回顾一下 2011 年——这一年 David Holz 推出了他的第一家基于人工智能的初创公司 Leap Motion。
“在很多方面,我对人工智能 (AI) 不感兴趣,因为我不太关心如何让机器变得更好,”Holz 告诉 VentureBeat。“来自 IA [智能增强] 学派,我一直对赋予人们权力并努力让人们变得更好更感兴趣。”
与许多相信使用机器执行人类认为智能的任务的人工智能专家以及将人类置于系统中心并使用技术来支持和补充人类认知功能的 IA 专家一样,Holz 选择了一条道路这会让他两全其美。
他说:“多年来,我意识到我们可以利用人工智能来赋予人们权力,让人们变得更好,而这些人可以创造出更好的人工智能——这就像是绕了一圈,每个人都赢了。”
Leap Motion就是从这种意识形态中诞生的。该公司开发了一种光学手部跟踪模块,利用人工智能捕捉人手的动作。“我们的目标不是取代手语人,而是让我们真正体现在计算机内部的虚拟空间中。现在,通过 Midjourney,我们并不是试图取代艺术家,而是为他们提供探索新思维媒介并扩展他们想象力的工具。”Holz 解释道。
2021 年,Holz 创办了 Midjourney 作为独立研究实验室。大约在同一时间,“扩散模型”和“对比语言图像预训练(CLIP)”等行业流行语出现在每个人的嘴边。
基于这些发展,该实验室于 2022 年开始提供文本到图像服务。与同类系统类似,人工智能系统接受短语形式的设计提示或想法,并将其用作创建迷人图像的灵感。Midjourney 之所以脱颖而出,是因为人工智能机器人只能通过互联网协议语音、即时消息社交平台、Discord 进行访问,而不能通过其自己的网站或移动应用程序进行访问。
当发出自然语言查询时,机器人会在大约 60 秒内响应四张低分辨率图像。用户此时可以生成变体和新一代,以更接近他们想要的想法。用户可以更改提示的长宽比,最大分辨率为2048×1280像素,远高于DALL-E 2的1024×1024分辨率。
离散物体的特写照片、流行文化参考、木炭或铅笔素描、各种著名艺术家风格的绘画——Midjourney 可以做到这一切。它在创造具有传奇色彩的场景方面表现出色。
谈到竞争,霍尔兹说:“我真的不想花太多时间将自己与他人进行比较。我希望结果能说明一切。有点像苹果不会把所有时间都花在谈论 Android 有多糟糕。”
道德问题的中途
鉴于“中途之旅”表演的规模之大,艺术家和研究人员都开始对这项技术的附带损害表示担忧。在提出的众多问题中,三个问题引起了广泛关注:
它能取代人类设计师吗?
它是否违反内容政策?
它会产生显示性别偏见、强化种族刻板印象的结果——或者包含任何明确的内容吗?
霍尔兹在下面广泛地讨论了这三个问题:
1. Midjourney 能否取代人类设计师?
不,它不能。根据 Holz 的说法,Midjourney 旨在增强我们的能力,而不是以任何方式取代我们。
“这有点像人类发明汽车的那一刻。仅仅因为汽车比人类跑得更快,并不意味着我们要砍掉自己的腿。您将使用汽车更快地到达某个地方。它基本上提高了我们的速度,”他说。“同样,我们的产品涉及一个迭代的、美丽的探索过程,它成为你想象力的延伸。您可以在旅途中漫步、探索并找出您想要的东西。这是一件积极的事情。”
2. 是否抄袭或违反内容政策?
这是一个特别有趣且有争议的问题,因为 Midjourney 从互联网上获取训练数据。然而,霍尔兹声称人工智能引擎的设计目的只是从数据中“获取灵感”,并确保输出完全新颖,也就是说,与任何公开的图像不同。奇怪的是,霍尔兹声称收到了艺术家的多次请求,要求加强 Midjourney 从自己和其他作品中获取灵感的能力。
“艺术家们的首要要求是让《中途》更好地进行临摹,但我还不完全知道如何回应。他们就像,大卫,‘让我把我所有的艺术作品都放入系统中。我想尽可能地复制它,这样它就可以成为我艺术流程的一部分,”他解释道。“他们认为,越能更好地复制自己的个人艺术风格,它就越有用。然而,如果它有自己的风格,他们就必须半途而废,并从中拿出自己的东西。这很有趣。这对我来说有点可怕,因为我看到它可以用来做善事,也可以用来作恶。”
3. 它会产生显示性别偏见、强化种族刻板印象的结果——或者包含任何明确的内容吗?
由于 Midjourney 旨在默认开放,因此它有严格的政策来确保内容为 PG-13。霍尔茨证实,它会自动阻止本质上不尊重、攻击性、辱骂或性的文本输入。最重要的是,这些规则适用于所有内容,包括私人模式下的互动。
Midjourney 目前提供有限的“免费增值”模式,允许用户提交 20-25 个图像生成提示。之后,用户可以从一系列订阅套餐中进行选择,包括包含 200 张图片的基本会员套餐、包含无限图片的标准会员套餐,或者包含无限图片和完全隐私的高级企业会员资格。
值得注意的是,“企业会员资格”并不是指企业软件即服务 (SaaS) 产品。事实上,霍尔茨明确提到,该公司也没有兴趣建造一款产品,尽管他们有许多客户使用该产品来制作商业视频游戏、概念艺术和视频。
“我们的技术发展如此之快,因此关注消费者方面是有意义的,因为人们可以拿着东西就跑。而且,制作一件很酷的东西是非常简单和美丽的,”霍尔兹说。“只有当普通人可以付费并从中获得乐趣,而专业人士支付的费用低于企业产品的价格,并且仍然享受该产品并将其用于工作时,情况才会变得更好。我认为这种简单性很有价值,我们希望保留它。”
未来是什么:文本转 3D?
虽然全世界都相信文本到图像的下一阶段的发展将走向成熟的视频或电影,但《中途旅程》却不这么认为。事实上,该公司可能会尽可能避免这种情况,因为如果没有经过深思熟虑,整合文本到视频功能可能会使产品更加昂贵,而且输出可能会破坏交易。
也就是说,Holz 确实计划通过文本转 3D 将事情提升到一个新的水平。他详细介绍了 Midjourney 的追求,即让输出更加真实,并向增强现实和虚拟现实迈进。它渴望将流动的想象力带入现实世界。
“我关心三件事:反思、协调和想象力。为了创造一个更美好的世界,我们需要更加反思、更加富有想象力,并且需要更加善于协调。我想在每个领域都做出一些大的事情,然后有一天将它们整合在一起,”他说。
除此之外,该公司确实打算构建具有更多增强功能的现有产品,从而使输出更加真实和细致。
此外,Midjourney的技术结合了自己的模型和开源代码来创造艺术。Holz 的近期目标是停止使用开源产品并 100% 在内部创建代码。
“我觉得科技界的一些人基本上表现得好像我们没有过去,世界上有很多人担心没有未来。但我觉得事实是我们实际上正处于旅程中,”霍尔兹说。霍尔兹以乐观的语气总结道:“我们身后有这段美丽而丰富的历史,前方也有同样丰富美好的未来。”这暗示了人工智能带来无限可能性的承诺和公司的精神。