把文本变成画作 AI打破自然语言处理和视觉处理的边界
2021-02-01 09:14:07 来源: 科技日报
自然语言处理与视觉处理,都重在对不同模态数据所包含的语义信息进行识别和理解,但是两种数据的语义表现形式和处理方法不同,导致存在所谓的“语义壁垒”,现在这种壁垒正在被AI打破。
1月初,美国人工智能公司OpenAI推出两个跨越文本与图像次元的模型:DALL·E和CLIP,前者可以基于文本生成图像,后者则可以基于文本对图片进行分类。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。自然语言处理和视觉处理的边界已经被打破,多模态AI系统正在逐步建立。
“数据的来源或者形式是多种多样的,每一种都可以称为一种模态。例如图像、视频、声音、文字、红外、深度等都是不同模态的数据。单模态AI系统只能处理单个模态的数据。例如对于人脸识别系统或者语音识别系统来说,它们各自只能处理图像和声音数据。”中国科学院自动化研究所副研究员黄岩在接受科技日报记者采访时表示。
相对而言,多模态AI系统可以同时处理不止一种模态的数据,而且能够结合多种模态数据进行综合分析。“例如服务机器人系统或者无人驾驶系统就是典型的多模态系统,它们在导航的过程中会实时采集视频、深度、红外等多种模态的数据,进行综合分析后选择合适的行驶路线。”黄岩说。
不同层次任务强行关联会产生“壁垒”
就像人类有视觉、嗅觉、听觉一样,AI也有自己的“眼鼻嘴”,而为了研究的针对性和深入,科学家们通常会将其分为计算机视觉、自然语言处理、语音识别等研究领域,分门别类地解决不同的实际问题。
自然语言处理与视觉处理分别是怎样的过程,二者之间为什么会有壁垒?
语义是指文字、图像或符号之间的构成关系及意义。“自然语言处理与视觉处理,都重在对不同模态数据所包含的语义信息进行识别和理解,但是两种数据的语义表现形式和处理方法不同,导致存在所谓的‘语义壁垒’。”黄岩说。
视觉处理中最常见的数据就是图像,每个图像是由不同像素点排列而成的二维结构。像素点本身不具有任何语义类别信息,即无法仅凭一个像素点将其定义为图像数据,因为像素点本身只包含0到255之间的一个像素值。
“例如对于一张人脸图像来说,如果我们只看其中某些像素点是无法识别人脸图像这一语义类别信息的。因此,目前计算机视觉领域的研究人员更多研究的是如何让人工智能整合像素点数据,判断这个数据集合的语义类别。”黄岩说。
“语言数据最常见的就是句子,是由不同的词语序列化构成的一维结构。不同于图像像素,文本中每个词语已经包含了非常明确的语义类别信息。而自然语言处理则是在词语的基础上,进行更加高级的语义理解。”黄岩说,例如相同词语排列的顺序不同将产生不同的语义、多个句子联合形成段落则可以推理出隐含语义信息。
可以说,自然语言处理主要研究实现人与计算机直接用自然语言进行有效信息交流,这个过程包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解人类语言的意义,读懂人类语言的潜在含义;自然语言生成则是指计算机能以自然语言文本来表达它想要达到的意图。
由此可以看出,自然语言处理要解决的问题的层次深度超过了计算机视觉,自然语言处理是以理解人类的世界为目标,而计算机视觉所完成的就是所见即所得。这是两个不同层次的任务。目前来说,自然语言处理在语义分析层面来说要高于视觉处理,二者是不对等的。如果强行将两者进行语义关联的话,则会产生“语义壁垒”。
AI打破自然语言处理和视觉处理的边界
此前,OpenAI斥巨资打造的自然语言处理模型GPT-3,拥有1750亿超大参数量,是自然语言处理领域最强AI模型。人们发现GPT-3不仅能够答题、写文章、做翻译,还能生成代码、做数学推理、数据分析、画图表、制作简历。自2020年5月首次推出以来,GPT-3凭借惊人的文本生成能力受到广泛关注。
与GPT-3一样,DALL·E也是一个具有120亿参数的基于Transformer架构的语言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是图像。
在互联网上,OpenAI大秀了一把DALL·E的“超强想象力”,随意输入一句话,DALL·E就能生成相应图片,这个图片内容可能是现实世界已经存在的,也可能是根据自己的理解创造出来的。
此前,关于视觉领域的深度学习方法一直存在三大挑战——训练所需大量数据集的采集和标注,会导致成本攀升;训练好的视觉模型一般只擅长一类任务,迁移到其他任务需要花费巨大成本;即使在基准测试中表现良好,在实际应用中可能也不如人意。
对此,OpenAI联合创始人曾发文声称,语言模型或是一种解决方案,可以尝试通过文本来修改和生成图像。基于这一愿景,CLIP应运而生。只需要提供图像类别的文本描述,CLIP就能将图像进行分类。
至此,AI已经打破了自然语言处理和视觉处理的边界。“这主要得益于计算机视觉领域中语义类别分析方面的飞速发展,使得AI已经能够进一步进行更高层次的视觉语义理解。”黄岩说。
具体来说,随着深度学习的兴起,计算机视觉领域从2012年至今已经接连攻克一般自然场景下的目标识别、检测、分割等语义类别分析任务。2015年至今,越来越多的视觉研究者们开始提出和研究更加高层的语义理解任务,包括基于图像生成语言描述、用语言搜索图片、面向图像的语言问答等。
“这些语义理解任务通常都需要联合视觉模型和语言模型才能够解决,因此出现了第一批横跨视觉领域和语言领域的研究者。”黄岩说,在他们推动下,两个领域开始相互借鉴优秀模型和解决问题的思路,并进一步影响到更多传统视觉和语言处理任务。
多模态交互方式会带来全新的应用
随着人工智能技术发展,科学家也正在不断突破不同研究领域之间的界限,自然语言处理和视觉处理的交叉融合并不是个例。
“语音识别事实上已经加入其中,最近业内出现很多研究视觉+语音的新任务,例如基于一段语音生成人脸图像或者跳舞视频。”黄岩说,但是要注意到,语音其实与语言本身在内容上可能具有较大的重合性。在现在语音识别技术非常成熟的前提下,完全可以先对语音进行识别将其转换为语言,进而把任务转换为语言与图像交互的常规问题。
无论是DALL·E还是CLIP,都采用不同的方法在多模态学习领域跨出了令人惊喜的一步。今后,文本和图像的界限是否会被进一步打破,能否顺畅地用文字“控制”图像的分类和生成,将会给现实生活带来怎样的改变,都值得期待。
对于多模态交互方式可能会带来哪些全新应用?黄岩举了两个具有代表性的例子。
第一个是手机的多模态语音助手。该技术可以丰富目前手机语音智能助手的功能和应用范围。目前的手机助手只能进行语音单模态交互,未来可以结合手机相册等视觉数据、以及网络空间中的语言数据来进行更加多样化的推荐、查询、问答等操作。
第二个是机器人的多模态导航。该技术可以提升服务机器人与人在视觉和语音(或语言)方面的交互能力,例如未来可以告诉机器人“去会议室看看有没有电脑”,机器人在理解语言指令的情况下,就能够结合视觉、深度等信息进行导航和查找。(记者马爱平)
为您推荐
精彩放送
热门文章
-
舆情预警丨搜于特:实控人及其一致行动人合计约2.16亿股持股被司法冻结 占公司总股本比例7.08%
-
热推荐:中科江南:已就数字人民币在财政国库资金支付领域应用进行试点
-
今日报丨超500家企业签约参展 第六届进博会公布首批参展商名单
-
环球通讯!交易所债券收盘:地产债多数下跌 “21旭辉01”跌超4%
-
环球观焦点:舆情预警丨如皋沿江开投:企业本部涉及重大诉讼
-
世界热资讯!小米汽车数字钥匙专利公布,可提升设备续航
-
双枪科技投资设立自动化设备新公司
-
世界头条:山高环能于天津投资新设生物能源销售公司
-
天天讯息:工信部:2022年全国家用电冰箱产量8664.4万台 同比下降3.6%
-
微信已全面支持“小号” 全量开放辅助账号注册功能
-
自然资源部:取消集中供地制度系误读
-
机构:2022年Q4苹果全球智能手机市场份额达到历史最高水平
精彩图片
-
成本大减!新一轮的旗舰大战也将在即将到来的9月正式拉开帷幕
-
博览会开幕 中国首款具有自主知识产权的国产通用型科学计算软件正式发布
-
技术下降!Intel独立显卡驱动一次评测就发现43个Bug
-
高性能的台式机彻底告别“光污染” 雷克沙推出简洁纯白外观设计
-
韩国媒体率先报道:三星电子236层NAND闪存预计年内开始生产 市场竞争更激烈
-
新科技!苹果正在积极研发某种形式的AR/VR头显或智能眼镜
-
谷歌测试开展新功能 向用户展示哪些云流媒体服务拥有特定的视频游戏
-
支付宝积极响应国家为小微降费的政策号召 一年降费让利近80亿
-
京东汽车就与浦林成山旗下新能源车轮胎品牌浦林达成战略合作 助力轮胎“电动化转型”
-
苹果新专利公布:暗示未来 iPhone手机或许有陶瓷材质版
-
盖茨和韩国能源供应商SK共同牵头 其中SK投资2.5亿美元
-
海底捞早已经捞不动了 据统计上半年最高亏损达2.97亿
热文
-
谷歌母公司下季度将调整财报:AI研究部门将单独披露
-
我国新增18处国际重要湿地 总数达82处 面积764.7万公顷
-
激发国企科技创新活力
-
爱一个人是什么感觉的说说_爱一个人是什么感觉
-
安徽省有哪些市区县名称_安徽省有哪些市区县
-
北京海淀区GDP首破万亿元大关
-
广东移动大数据解码春节:跨省出行热度高 莞深空城率超70%
-
世界动态:挪威称雷克萨斯的自费混合广告误导
-
今日要闻!又一批跨国公司地区总部和研发中心落户上海
-
环球微头条丨科大讯飞与杭州市签署全面战略合作协议
-
奥维睿沃:海信系电视2022年12月单月出货量居全球首位
-
南财投资日历(2月3日)
-
珠海:涉及知名大盘!11家房企、中介因违法违规被查处
-
世界焦点!证监会:更好保护中小投资者合法权益 树牢“大投保”理念
-
环球消息!Q4“固收+权益”理财定价下行明显,近6月收益猛跌101BP丨机警理财日报(2月2日)
-
证监会:稳妥有序化解私募基金、地方交易场所、债券违约等重点领域风险
-
当前热文:恒瑞医药人事变动频繁?董事长孙飘扬回应
-
银川优化生育措施征求意见:提高二三孩生育住院分娩医疗费报销比例
-
热门:国家卫健委发布国家血液病医学中心和国家血液病区域医疗中心设置标准
-
环球观焦点:长三角G60科创走廊:锚定“科创+产业+金融+人才”高水平融合发展
-
北京:到2025年新孵化国家高新技术企业2000家
-
环球简讯:《煤矿安全改造中央预算内投资专项管理办法》发布
-
美国联邦快递管理层将裁员超10%
-
巴比食品:2022年净利润2.22亿元 同比下降29.21%
-
空客与卡塔尔航空就A350订单纠纷达成和解
-
动态焦点:国家能源局负责人会见香港中电总裁
-
全球快资讯:北京这个区 GDP总量首次突破一万亿元!
-
天天快报!高质量发展 | 亮出“作战图” 跑出“加速度”
-
北京关停三里屯酒吧街?官方回应
-
中汽协:2022年全国汽车商品累计进出口总额为2486.5亿美元 同比增长11.7%
-
龙虎榜丨中国长城今日涨停,上榜营业部席位全天成交2.83亿元
-
立讯精密董事长王来春:未来20年立讯要有30%产品进入全球行业无人区
-
当前观点:ChatGPT热度爆棚 谷歌开测“学徒巴德”等多款竞品
-
环球即时:沪硅产业:向专业投资者公开发行不超过13.4亿元科技创新公司债券申请获批
-
天天微资讯!商务部:继续稳定和扩大汽车消费 支持新能源汽车消费
-
新年“开门红” 江苏中欧班列今年首月开行突破200列
-
舆情预警 | 小米汽车设计泄密供应商被处罚100万
-
股票破位怎么办?股票破位必须止损吗?
-
股票一字线会持续几天?股票丁字线说明什么?
-
每日速递:商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
焦点短讯!舆情预警 | 交通银行四川省分行原党委委员、副行长刘志刚被“双开”
-
股票分红对以后走势有没有影响?分红和股票涨跌有关系吗?
-
环球热点!舆情预警丨云天化:从未在任何网络平台开展众筹集资
-
【环球播资讯】商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
环球简讯:上海浦东GDP突破1.6万亿元
-
博亚精工:公司目前与成飞集团无业务往来
-
【天天报资讯】商务部:2022年社会消费品零售总额44.0万亿元,与2021年基本持平
-
世界最资讯丨银保监会就人身保险公司分类监管办法业内征求意见 涉及高风险业务、分支机构和非标资产投资
-
商务部:2023年要强化贸易促进 合理扩大进口
-
每日看点!沪指震荡收涨0.02% 半导体和白酒板块表现强势