人工智能触角 伸向各个领域
2019-08-26 10:05:47 来源: 科技日报
近日,一款看起来挺有文化的写稿机器人上线了。它叫小柯,由中国科学报社和北京大学科研团队共同研发。
小柯写的不是普通的稿子,而是中文科学新闻。据介绍,运用自然语言处理技术,小柯以英文论文摘要为基础,能够快速写出中文科学新闻底稿,然后由专业人士和报社的编辑进行把关和信息完善,帮助科学家以中文方式快速获取全球高水平英文论文中的最新科研进展。
目前小柯的作品已经上线。人工智能的触角,也在伸向各个领域。
小柯:一个尽职的摘要翻译转写者
科技日报记者发现,7月5日,小柯机器人发出第一篇稿子,截至8月22日记者统计时,小柯机器人共发稿415篇。初期更新时间距论文发表时间间隔一个月左右,现在可以做到当天或隔天更新,每天更新几篇到二十几篇不等。所选论文来自生命科学等领域,涉及《自然》《细胞》《新英格兰医学杂志》等期刊。
记者对照分析了小柯作品《单细胞测序揭示冠状动脉疾病保护机制》及其英文原文。新闻中,小柯先对论文主题、研究单位以及发表期刊进行简单介绍,后接英文原文摘要的翻译,大致反映原文内容;翻译时会对原文进行适当的语句简化,同时在对专业词语的翻译上也使用了如“血管平滑肌细胞”“保护性纤维帽”等专业表述。
不过,这也不全是小柯的功劳,因为稿件发出前,还有人工审校这一步骤。北京大学计算机科学技术研究所研究员万小军团队负责小柯的系统总体设计与联合技术攻关。他告诉科技日报记者,目前机器翻译系统的性能很大程度上依赖于其所使用的训练数据,即平行语料。目前的平行语料多为新闻语料,因此训练得到的机器翻译模型对于日常新闻的翻译效果较好。但学术文献(比如生物学术论文)与日常新闻在用词造句等方面都有较大差别,机器翻译系统对于学术文献翻译的效果并不理想。
这一次,他们通过融合领域知识进行语句智能筛选,选择适合大众理解的语句,并基于语句简化提升语句翻译质量。“英文学术论文摘要适合专业科研人员阅读,但摘要中的语句并不都适合写到科学新闻中面向大众传播,因此需要结合编辑提供的先验知识,采用计算机算法对语句进行筛选,保留适合进行大众新闻传播的语句。”万小军说。
自然语言处理技术不只能让机器人写稿
研发小柯用了半年时间,万小军表示,和一般写稿机器人相比,一个好的跨语言科技新闻写稿机器人需要进行两次重要的信息转换过程:一次是不同语言的转换,将英文文本转换为中文文本;另一次是语言风格的转换,将学术型文字表达转换为大众能够接受的通俗文字表达。“这两次转换都具有较大的挑战性,目前并没有完全解决。后续还需要进一步积累数据,调整算法模型,才能取得更好的效果。”万小军说。
接下来,团队还将继续优化小柯,让它写出的科学新闻内容更丰富,表达更生动。
当然,翻译撰写科技新闻稿件,只是自然语言处理等人工智能技术在学术交流中所能大显身手的领域之一。
“基本上,只要人类交流和工作过程中涉及到语言和文字的地方,自然语言处理技术都有可能发挥作用。”万小军说,在科研论文写作过程中,可以借助自然语言处理技术帮助推荐参考文献,并自动生成relatedwork等章节的文字;业界也有基于自然语言处理技术自动编撰图书的尝试。“我个人也接触到很多很有意思也很有挑战的应用需求,但可惜的是不少需求都无法基于目前的自然语言处理技术进行实现。自然语言处理技术还需要进一步地发展和突破,我相信在未来将有更多的用武之地。”
中国知网常务副总经理张宏伟长期关注自然语言处理,大数据和人工智能方面的应用研究。他告诉科技日报记者,在数字出版和知识服务的全链条中,你都能看到人工智能和机器学习技术的身影。
人工智能可以对数字出版的选题策划、协同撰稿、内容编审进行赋能。大数据标注机器人则能对海量文献信息资源进行OCR文字识别,智能版面分析,知识元抽取,自动分类,自动标引主题,自动生成摘要,自动翻译,自动标注引用和参考文献。
人们熟悉的论文抄袭检测,同样需要智能技术。它不是简单的语句重复检测,而是要对文本内容(包括图片、公式、表格等)进行语义索引,“看你在思想上有没有抄袭别人”。如果存在不同语言之间的互抄,还需要动用“机器翻译”。张宏伟表示,初级的语义抄袭可以由机器揪出来,不过,如果足够有“心机”,完全用自己的语言“洗”了别人的思想,对人工智能的技术要求一下就提高了许多。目前已有利用神经网络模型对文本内容构建高维度语义索引等新技术出现,不管是中文还是英文,一律映射到一个统一的语义空间,实现真正基于内容理解的语义级全文比对检索。
知识库是智慧社会的基础设施
至于在学术研究中必不可少的资料索引,看似简单,也仍然具有技术含量。
张宏伟说,数字出版和数字图书馆的资源类型非常丰富,有大量文本、图像和音视频数据,且数据是非结构化的,若想对其进行深度的挖掘利用,难度不小。
就拿常见的信息检索来说,首先得做到结果要全,相关度要高;再进阶一步,能不能用自然语言交互的方式检索;升级一下难度,用智能问答的方式查找信息,能否直接给出答案?“要让检索功能变得更贴心,计算机要‘学会’阅读资料,总结、推理然后回答。它需要把海量的数据资源变成自己可以理解的知识库。”张宏伟说。
深度学习等统计方法严重依赖于大样本数据,然而,现实世界中,很多实际问题仅仅依靠统计方法是无法解决的,这就需要建立专门的计算机能理解的知识库,实现真正的人工智能。但构建知识库,本身是一项极其艰难且耗时漫长的工作。毕竟,机器和人对知识的理解方式大相径庭。
张宏伟说,像知网这样的机构正在致力于深度整合全球知识信息资源,建设世界知识大数据。也在让文本文献碎片化、网络化,依据知识使用的场景,采用半自动知识抽取算法来构建面向垂直领域的知识图谱。2019年知网陆续推出了一些基于知识图谱的行业智慧应用产品,如医疗领域的临床智能诊断,法律领域的智能量刑判案等。
“不过,我们在这些领域刚刚起步。我个人觉得,还是要少一点浮躁,踏踏实实做一些基础性的工作。没有知识的支撑,就谈不上‘智慧’。”在张宏伟看来,知识库和人工智能,本身就是互相促进、相互赋能的关系。构建知识库需要人工智能,而人工智能的发展,也离不开知识库。怎么将人类的知识库转换成计算机能理解的知识库是人工智能的核心问题,面临许多困难,需要学术界和产业界共同努力。(记者 张盖伦 实习生 陆 越)
标签: 人工智能
为您推荐
精彩放送
热门文章
-
舆情预警丨搜于特:实控人及其一致行动人合计约2.16亿股持股被司法冻结 占公司总股本比例7.08%
-
热推荐:中科江南:已就数字人民币在财政国库资金支付领域应用进行试点
-
今日报丨超500家企业签约参展 第六届进博会公布首批参展商名单
-
环球通讯!交易所债券收盘:地产债多数下跌 “21旭辉01”跌超4%
-
环球观焦点:舆情预警丨如皋沿江开投:企业本部涉及重大诉讼
-
世界热资讯!小米汽车数字钥匙专利公布,可提升设备续航
-
双枪科技投资设立自动化设备新公司
-
世界头条:山高环能于天津投资新设生物能源销售公司
-
天天讯息:工信部:2022年全国家用电冰箱产量8664.4万台 同比下降3.6%
-
微信已全面支持“小号” 全量开放辅助账号注册功能
-
自然资源部:取消集中供地制度系误读
-
机构:2022年Q4苹果全球智能手机市场份额达到历史最高水平
精彩图片
-
成本大减!新一轮的旗舰大战也将在即将到来的9月正式拉开帷幕
-
博览会开幕 中国首款具有自主知识产权的国产通用型科学计算软件正式发布
-
技术下降!Intel独立显卡驱动一次评测就发现43个Bug
-
高性能的台式机彻底告别“光污染” 雷克沙推出简洁纯白外观设计
-
韩国媒体率先报道:三星电子236层NAND闪存预计年内开始生产 市场竞争更激烈
-
新科技!苹果正在积极研发某种形式的AR/VR头显或智能眼镜
-
谷歌测试开展新功能 向用户展示哪些云流媒体服务拥有特定的视频游戏
-
支付宝积极响应国家为小微降费的政策号召 一年降费让利近80亿
-
京东汽车就与浦林成山旗下新能源车轮胎品牌浦林达成战略合作 助力轮胎“电动化转型”
-
苹果新专利公布:暗示未来 iPhone手机或许有陶瓷材质版
-
盖茨和韩国能源供应商SK共同牵头 其中SK投资2.5亿美元
-
海底捞早已经捞不动了 据统计上半年最高亏损达2.97亿
热文
-
谷歌母公司下季度将调整财报:AI研究部门将单独披露
-
我国新增18处国际重要湿地 总数达82处 面积764.7万公顷
-
激发国企科技创新活力
-
爱一个人是什么感觉的说说_爱一个人是什么感觉
-
安徽省有哪些市区县名称_安徽省有哪些市区县
-
北京海淀区GDP首破万亿元大关
-
广东移动大数据解码春节:跨省出行热度高 莞深空城率超70%
-
世界动态:挪威称雷克萨斯的自费混合广告误导
-
今日要闻!又一批跨国公司地区总部和研发中心落户上海
-
环球微头条丨科大讯飞与杭州市签署全面战略合作协议
-
奥维睿沃:海信系电视2022年12月单月出货量居全球首位
-
南财投资日历(2月3日)
-
珠海:涉及知名大盘!11家房企、中介因违法违规被查处
-
世界焦点!证监会:更好保护中小投资者合法权益 树牢“大投保”理念
-
环球消息!Q4“固收+权益”理财定价下行明显,近6月收益猛跌101BP丨机警理财日报(2月2日)
-
证监会:稳妥有序化解私募基金、地方交易场所、债券违约等重点领域风险
-
当前热文:恒瑞医药人事变动频繁?董事长孙飘扬回应
-
银川优化生育措施征求意见:提高二三孩生育住院分娩医疗费报销比例
-
热门:国家卫健委发布国家血液病医学中心和国家血液病区域医疗中心设置标准
-
环球观焦点:长三角G60科创走廊:锚定“科创+产业+金融+人才”高水平融合发展
-
北京:到2025年新孵化国家高新技术企业2000家
-
环球简讯:《煤矿安全改造中央预算内投资专项管理办法》发布
-
美国联邦快递管理层将裁员超10%
-
巴比食品:2022年净利润2.22亿元 同比下降29.21%
-
空客与卡塔尔航空就A350订单纠纷达成和解
-
动态焦点:国家能源局负责人会见香港中电总裁
-
全球快资讯:北京这个区 GDP总量首次突破一万亿元!
-
天天快报!高质量发展 | 亮出“作战图” 跑出“加速度”
-
北京关停三里屯酒吧街?官方回应
-
中汽协:2022年全国汽车商品累计进出口总额为2486.5亿美元 同比增长11.7%
-
龙虎榜丨中国长城今日涨停,上榜营业部席位全天成交2.83亿元
-
立讯精密董事长王来春:未来20年立讯要有30%产品进入全球行业无人区
-
当前观点:ChatGPT热度爆棚 谷歌开测“学徒巴德”等多款竞品
-
环球即时:沪硅产业:向专业投资者公开发行不超过13.4亿元科技创新公司债券申请获批
-
天天微资讯!商务部:继续稳定和扩大汽车消费 支持新能源汽车消费
-
新年“开门红” 江苏中欧班列今年首月开行突破200列
-
舆情预警 | 小米汽车设计泄密供应商被处罚100万
-
股票破位怎么办?股票破位必须止损吗?
-
股票一字线会持续几天?股票丁字线说明什么?
-
每日速递:商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
焦点短讯!舆情预警 | 交通银行四川省分行原党委委员、副行长刘志刚被“双开”
-
股票分红对以后走势有没有影响?分红和股票涨跌有关系吗?
-
环球热点!舆情预警丨云天化:从未在任何网络平台开展众筹集资
-
【环球播资讯】商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
环球简讯:上海浦东GDP突破1.6万亿元
-
博亚精工:公司目前与成飞集团无业务往来
-
【天天报资讯】商务部:2022年社会消费品零售总额44.0万亿元,与2021年基本持平
-
世界最资讯丨银保监会就人身保险公司分类监管办法业内征求意见 涉及高风险业务、分支机构和非标资产投资
-
商务部:2023年要强化贸易促进 合理扩大进口
-
每日看点!沪指震荡收涨0.02% 半导体和白酒板块表现强势