新记体育官网

 

新记体育官网

⛓新记体育官网⛔     

季啸白:电商行业其实是最早开始接触图片生成AI技术的行业,因为行业本身信息敏感度高,也有大量图片处理需求。我们工作中也经常有电商行业的从业者来聊,他们的需求太大了,无论是图像生成、图像批量后期处理,还是一键换衣等需求,本质上就是用AI的低成本去换重拍图片的成本。但是,他们的需求非常杂,相当定制化,具体到每一类需求量,其实不大,所以图片生成AI反而服务不好这个行业。之前有个老板来找我们,希望把帽子、围巾、手套等物品的平铺图能直接生成到模特的身上。从技术角度,我们要对物品做定制化的开发,有一定人工成本。电商核算后,发现找模特快速拍一下效率更高,成本更低。这一个项目最终没有成功,但能管中窥豹一个行业。

紫牛新闻:当下,越来越多的创业者涌入AI领域,在图像生成方面,可谓是老中青三代齐上阵,但进去后却发现并不轻松。你如何看待?

季啸白:我认为视频生成正处于破晓时分。视频的商业前景比图片大得多,这也是抖音、TikTok等产品成功的原因。经过互联网20年的发展,人们对消费视频已经习以为常,使用习惯也从阅读静态媒体向消费动态内容转变。视频生成大约在2025年达到可商用的成熟度。视频生成技术一旦成熟,OpenAI可能会建立自己的视频平台,和抖音、TikTok直接竞争视频消费者,同时给影视行业带来变革。影视行业不一定喜欢从0开始生成视频,但会对修复拍摄的穿帮细节、虚拟布景AI生成宏大背景、生成无法拍摄的视觉效果等感兴趣。影视行业的付费意愿高,和影视行业紧密合作,会是这个10年下半场的重要机会。

季啸白:美国硅谷早期的一些图像生成AI都是面向普通消费者的,用户按次付费,或通过订阅制包月使用。大部分消费者抱着尝鲜的目的而来,用户增长很快,但留存和付费转化很低,本质上是因为通用型图像生成AI的天花板太低。当下,图像生成AI的重点正在从C端向着面向企业的B端转移。

季啸白:从长期来说,图像生成AI一定是和人类大脑协作,而不是取代人类的摄影和图像创作。摄影是对客观事物的捕捉,也是拍摄者情绪和思考的表达。我很喜欢画画和摄影,AI技术虽然在不断演进,但人类主动创作的主观表达是永远无法替代的。

紫牛新闻:去年底英国《自然》杂志刊文预测的2024年十大科学进展中,人工智能的进步和ChatGPT人工智能占据前两位。人类如何对待可能拥有意识的人工智能,也成了关注的话题。

新记体育官网自2023年以Stable Diffusion为主的开源图像生成AI以来,AI在图像和视频两个方向均有了质的突破。从语音AI到成为创新前沿的AI视频大模型,经历了六十年风雨的人工智能逐渐迎来了产业化的临界点。

季啸白:我觉得主要有两大原因:使用场景有限和效率不高。语音AI最早可以追溯到20世纪50年代,很长的时间段里,它是依赖人类维护来回答问题。近几年语音AI实现了质的飞跃,比如ChatGPT所提供的语音AI不仅能够回答用户的问题,还能引导对话向更有价值的方向发展。但作为信息传递的载体,语音的信息密度常常低于图像,在很多场景下,单凭语音很难完整表达复杂的信息。此外,语音AI个性化能力有着先天不足,它很难从你的语气和用词中感知你的喜好,无法获得你的使用数据,也无法高效向你推荐内容。图形化界面的先天优势在于,无论是淘宝还是抖音,你点进去看了多久,查看哪一类商品比较多,这些数据都能作为推荐给你视频和商品的依据。

季啸白:这也印证了当下AI是没有人类思维的。目前,你让AI写生物医药论文、画一幅抽象主义绘画,而AI本质上只是学习过去人们写过的论文、画过的绘画,然后按照人类当下的需求重新杂糅并输出。AI是没有创造性的,特别是图像领域。图像生成AI经常出现的版权纠纷,是因为人类对AI的输出结果不能很好地控制。由此可见,探索更有效的人机交互方式,空间很大。

季啸白:B端消费者不喜欢随机,无法接受太高的自由度。B端用户是要生成图片拿来干活的,不能天马行空的任由AI发挥。因此,对B端产品需要深入浅出地提供更丰富的多轮生成调优能力,这一点在人机交互的设计上一定要考虑到。

季啸白:C端产品的商业空间肯定存在。短期内图像生成AI在C端产品的落地方向,是低客单价的普遍需求。千万不能陷入追求高客单价,AI的本质是替代人类的重复劳动和昂贵劳动力,追求高客单价是个误区。AI无法创造奢侈品,也很难触及高频需求,我们的日常生活中,出门吃饭买菜,回家刷短视频睡觉,很少需要创造图像,因此传统商业意义的高客单价和高频都是不可取的。C端创业者,一定要着眼普遍的多个需求,比如做AI图像集成工具,连带AI美妆,AI一键换背景,AI一键改光线,AI生成证件照、艺术照,虽然对单个用户而言不算高频需求,但对于整个社会而言,累计使用次数会相当可观。

紫牛新闻:但语音AI仍然是人工智能竞逐的重要战场,比如2024北京车展,车内AI语音交互便是很多新能源车的亮点。语音AI还有哪些发展方向?

季啸白:如今基于大模型智驾技术的企业非常多,但即便是业界领先的语音识别算法,在嘈杂环境、口音差异、速度变化等情况下,转录准确率很难达到100%。但人类在机器时代已养成了这样的惯性:对人类犯错习以为常,但不能接受机器犯错,这正是车内AI语音交互发展的限制。此外,在车内场景下,用户对语音AI的诉求不算高频需求,变现方式也颇为单一,大多打包在车机订阅服务中。对于普通AI创业者来说,成功的机会很小。相比之下,语音AI在情感陪伴方面,赛道更宽。独居老人常常缺乏人际交流,情感陪伴型语音助手可以通过自然对话,为老人提供情感支持;陪伴儿童时,语音助手可以与孩子进行有趣的互动游戏;有些年轻人希望和喜欢的动漫角色谈恋爱,和自己崇拜的偶像交流,和喜欢的虚拟角色交流,这些都是语音AI可能应用的空间。

紫牛新闻:无论是苹果手机的Siri,还是小爱同学、天猫精灵,语音助手从一出生开始就被人们视作AI技术的落地产品,但它为何没被多数用户高频使用?

紫牛新闻:2023年1月,美国多名艺术家集体起诉三家生成式AI商业应用公司作图软件以他们作品的风格生成图像,法院审理认为AI生成后的图片本来就不享有著作权,并不违反著作权法。今年,谷歌又面临着三位漫画家和一位摄影师提出的集体诉讼。你如何看待这些诉讼?

紫牛新闻:2月15日, OpenAI发布了“文生视频”大模型Sora,并附带发布了由它生成的48段视频,引发了社会高度关注。从中长期看,图像生成AI的发展方向是什么?

季啸白:有研究者预测,人工智能产生意识将在5-20年内实现。但我知道的是,2023年没有一项资助是用于“研究人工智能产生意识”的。我认为,AI的发展仍然在早期。在当下,人们仿佛对AI有些不切实际的幻想,总认为AI已经进化出了人类的思维,有感情、有思考,能代替人类写论文,甚至能和人类谈恋爱。这有些一厢情愿了。

季啸白:当前图像生成AI的人机交互方式,从渠道上来说分为用文字生成图像、用“文字+图像”生成图像、用“文字+图像+风格倾向”生成图像、用“文字+图像+标注重点部位”生成图像;从轮次上来说也分为单次和多次。设计合理且简化的人机交互,更能帮助面向普通用户的C端产品获得成功。如何帮图像生成式AI做好人机交互体验,帮助人们合理准确表达诉求的同时,降低上手难度和门槛,是创业者和普通用户的需求,也是我重点研究的方向。

⛕(撰稿:绥芬河)

本文来自网友发表,不代表本网站观点和立场,如存在侵权问题,请与本网站联系。未经本平台授权,严禁转载!
展开
支持楼主

72人支持

阅读原文阅读 5326回复 4
举报
    全部评论
    • 默认
    • 最新
    • 楼主
    • 娇铭志⛖LV2六年级
      2楼
      曝天津男篮接近签约马库斯·拉维特⛗
      09-18   来自海林
      7回复
    • ⛘吉纳LV4大学四年级
      3楼
      6名大学生假冒明星敲诈未成年人⛙
      09-18   来自宁安
      9回复
    • 典南⛚LV6幼儿园
      4楼
      尼泊尔解除对TikTok的封禁⛛
      09-18   来自安达
      2回复
    • 涛隆LV6大学三年级
      5楼
      中国女子回应在泰国手撕外国男子⛜
      09-20   来自肇东
      6回复
    • 悠然⛝⛞LV2大学三年级
      6楼
      男子路边猥亵醉酒女子 路人报警⛟
      09-18   来自海伦
      3回复
    • 易晖LV1大学四年级
      7楼
      俄港口遇袭当天美侦察机现身黑海⛠
      09-20   来自穆棱
      回复
    你的热评
    游客
    发表评论
    最热圈子
    • #住建部:完善住房供应体系#

      脚下乐园

      7
    • #男子被撞倒后第一反应关心孩子安危#

      魅力之足

      7
    • #孙颖莎担任河北文旅代言人#

      悠然娇美

      4
    • #一夜爆火的孙悟空是“真财神”吗

      发泰禾

      4
    热点推荐

    安装应用

    随时随地关注新记体育官网

    Sitemap