联系客服
客服二维码

联系客服获取更多资料

微信号:LingLab1

客服电话:010-82185409

意见反馈
关注我们
关注公众号

关注公众号

linglab语言实验室

回到顶部
优化加速随机无梯度无投影法&连续手语识别&噪音感知编-解码器&长尾推荐新架构TailNet&零击学习领域泛化&MORE

4507 阅读 2020-08-13 09:15:02 上传

以下文章来源于 语言学之妙

7月27日人工智能领域新增论文178篇,AI日读精选其中52篇推荐给大家。这些论文主要来自ICML,ECCV,IJCAI,KDD,IROS,Computational Linguistics,TPAMI等会议与期刊。其中包含计算机视觉论文19篇[1-19],自然语言处理论文3篇[20-22],方法论论文4篇[30-33],神经网络原理论文6篇[34-39],语音技术论文1篇[41],强化学习论文4篇[42-45],推荐系统论文2篇[46-47],医疗与健康论文3篇[48-50],应用论文2篇[51-52],点击文末阅读原文即可下载。


首先来看计算机视觉论文:
- [3]提出一个噪声感知编码器-解码器框架,以从噪声训练实例中分离出一个干净的显著性预测器,其中噪声标签由无监督的基于特征的手工方法生成。文章所提出的模型包括两个由神经网络参数化的子模型。第一个神经网络是一个显著性预测器,它将输入图像映射到干净的显著性Map,第二个神经网络是一个噪声产生器,它是一个潜变量模型,从高斯潜向量中产生噪声。模型的训练目标是估计两个子模型的参数,并同时推断出每个噪声标签的对应潜向量。文章提出采用交替回传(ABP)算法来训练模型,交替回传算法包括以下两个步骤:1)通过反向传播学习来估计两个子模型的参数,2)通过Langevin Dynamics推断训练噪声例子的潜向量。为了能找到更优的解,文章利用边缘感知平滑度损失来正则化隐藏的显著性Map,使其具有与其对应图像相似的结构。在几个基准数据集上的实验结果表明了文章所提出模型的有效性。

- 目前的深度视觉识别系统在遇到训练过程中未曾见过的类和场景的新图像时,性能会严重下降。因此,零击学习(ZSL)的核心挑战是应对语义转换,而领域适应和领域泛化(DG)的主要挑战是领域转换。虽然历史上ZSL和DG任务是单独处理的,但[2]的目标是联合解决这两个问题,即在看不见的领域中识别看不见的视觉概念。文章提出了CuMix,这是一个处理ZSL、DG和ZSL+DG的整体算法。CuMix的主要思想是利用训练过程中可用的多个源域和类别混合生成的未见域和类别的图像和特征来模拟测试时域和语义的转变。此外,文章还设计了一个基于课程的混合策略,以生成越来越复杂的训练样本。在标准SL和DG数据集上的结果,以及在使用DomainNet基准的ZSL+DG上的结果,证明了文章提出方法的有效性。

- 连续手语识别(Sign Language Recognition,SLR)是一项具有挑战的任务,需要在签名帧序列的空间和时间维度上进行学习。最近的工作是通过使用CNN和RNN混合网络来实现。但是,训练这些网络通常并非易事,且大多数网络无法学习看不见的序列模式,从而导致在线识别的性能不尽人意。[1]提出一种用于在线SLR的全卷积网络(FCN),以便从仅带句子级标注的弱标注视频序列中同时学习空间和时间特征。在所提网络中引入光泽度增强(Gloss Feature Enhancement,GFE)模块,以加强更好的序列比对学习。所提网络是端到端可训练的,无需任何预训练。对两个大型SLR数据集进行的实验表明,所提方法有效且在在线识别中表现良好。


除此之外,本期还有如下看点:
- [34]提出一类加速随机无梯度和无投影(也称为零阶Frank-Wolfe)方法,以解决约束随机与有限求和非凸优化(constrained stochastic and finite-sum nonconvex optimization)问题。具体而言,研究者基于SPIDER / SpiderBoost方差减少技术和新的动量加速技术,提出一种加速随机零阶Frank-Wolfe(Acc-SZOFW)方法。此外,在某些温和条件下,研究者证明Acc-SZOFW具有函数查询复杂度O(d \sqrt{n}ε^{-2}),可以在有限维中找到ε平稳点。总和问题,将现有的最佳结果提高了O(\sqrt {n}ε^{-2}),并且在函数查询复杂度为O(dε^ {-3})随机问题,可将现有的最佳结果提高O(ε^ {-1})倍。为放宽Acc-SZOFW中所需的大批量,研究者进一步提出一种新的加速随机零阶Frank-Wolfe(Acc-SZOFW *),其基于STORM的新方差缩减技术,该函数仍达到函数查询复杂度随机问题中的O(dε^{-3})而不依赖于任何大批量。具体而言,研究者基于提出的动量加速技术提出Frank-Wolfe方法的加速框架。关于黑盒对抗攻击和强大的黑盒分类的大量实验结果证明所提算法的效率。

- 图像和其他空间模态的传统深度生成模型只能生成固定大小的输出。生成的图像具有与训练图像完全相同的分辨率,这由基础神经网络中的层数决定。但是,最近工作表明,将空间噪声矢量输入到全卷积神经网络,既可生成任意分辨率的输出图像,也可对任意分辨率的训练图像进行训练。尽管这项工作提供了令人印象深刻的经验结果,但几乎没有提供理论解释来解释潜在的生成过程。[35]通过绘制与空间随机过程的联系,为无限空间生成提供了坚实的理论解释。研究者使用由此产生的直觉来改进现有空间无限生成模型,以通过称为无限生成对抗网络或infty-GAN的模型进行更有效的训练。关于世界地图生成、全景图像和纹理合成的实验证明infty-GAN能有效生成任意大小的图像。

- 知识图谱在诸如问答和信息检索之类下游任务中越来越受欢迎。但是知识图谱通常不完整,从而导致性能不佳。因而人们对知识补全任务产生浓厚兴趣。最近,图神经网络已用于捕获固有存储在这些知识图谱中的结构信息,并已显示出可在各种数据集中实现当前最佳性能。[40]展开调查并了解了各种所提方法的优缺点,并尝试在该领域中发现需要进一步研究的新的令人兴奋的问题。

- 蒙特卡洛树搜索(Monte-Carlo Tree Search,MCTS)与深度强化学习的结合已促进人工智能重大进步。但是,当前最先进的MCTS算法AlphaZero仍然依赖于只能部分理解的手工启发式算法。[42]证明AlphaZero的搜索启发式方法以及其他常见方法(如UCT)是特定正则化策略优化问题解决方案的近似值。研究者以该认知为前提,提出了一种AlphaZero的变体,其使用针对该策略优化问题的精确解决方案,并通过实验证明在多个领域中的性能均优于原始算法。

- 基于会话的推荐侧重于基于匿名会话的用户行为预测,是在用户历史数据缺乏的情况下的必要方法。但是,现有的基于会话的推荐方法都没有明确考虑到长尾推荐,而长尾推荐对提高推荐的多样性和产生偶然性起着重要作用。由于在基于会话的推荐场景中(如电商、音乐、电视节目推荐等)普遍存在长尾的项目分布,因此应更多地关注基于会话的长尾推荐。[46]提出一种新型网络架构TailNet,以提高长尾推荐的性能,同时保持与其他方法相比具有竞争力的准确度性能。文章首先根据点击频率将项目分为短头(流行)和长尾(小众)项目,然后提出了一种新的方法,并应用于TailNet中,以判断用户对两类物品的偏好,从而进行软调整和个性化推荐。在两个真实世界的数据集上进行了大量的实验,验证了文章提出的方法与最先进的作品相比的优越性。


最后,本期还包含4个新构造的数据集[23-26],3个新提出的任务[27-29],1篇综述[40],以及其他技术。


计算机视觉

Computer Vision


[1]

Fully Convolutional Networks for Continuous Sign Language Recognition

Ka Leong Cheng, Zhaoyang Yang, Qifeng Chen, Yu-Wing Tai

摘 要:

原 文:http://arxiv.org/pdf/2007.12402v1





[2]

Towards Recognizing Unseen Categories in Unseen Domains

Massimiliano Mancini, Zeynep Akata, Elisa Ricci, Barbara Caputo

摘 要:

原 文:http://arxiv.org/pdf/2007.12256v1





[3]

Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection

Jing Zhang, Jianwen Xie, Nick Barnes

摘 要:

原 文:http://arxiv.org/pdf/2007.12211v1





[4]

On the Effectiveness of Image Rotation for Open Set Domain Adaptation

Silvia Bucci, Mohammad Reza Loghmani, Tatiana Tommasi

摘 要:

原 文:http://arxiv.org/pdf/2007.12360v1

资 源:github.com/thuml/Universal-Domain-Adaptation, github.com/silvia1993/ROS, github.com/ksaito-ut/OPDA_BP, github.com/thuml/Separate_to_Adapt





[5]

Commonality-Parsing Network across Shape and Appearance for Partially Supervised Instance Segmentation

Qi Fan, Lei Ke, Wenjie Pei, Chi-Keung Tang, Yu-Wing Tai

摘 要:

原 文:http://arxiv.org/pdf/2007.12387v1

资 源:github.com/fanq15/CPMask





[6]

Visual Compositional Learning for Human-Object Interaction Detection

Zhi Hou, Xiaojiang Peng, Yu Qiao, Dacheng Tao

摘 要:

原 文:http://arxiv.org/pdf/2007.12407v1

资 源:github.com/zhihou7/VCL





[7]

Self-Supervised Monocular 3D Face Reconstruction by Occlusion-Aware Multi-view Geometry Consistency

Jiaxiang Shang, Tianwei Shen, Shiwei Li, Lei Zhou, Mingmin Zhen, Tian Fang, Long Quan

摘 要:

原 文:http://arxiv.org/pdf/2007.12494v1

资 源:github.com/jiaxiangshang/MGCNet





[8]

A Lightweight Neural Network for Monocular View Generation with Occlusion Handling

Simon Evain, Christine Guillemot

摘 要:

原 文:http://arxiv.org/pdf/2007.12577v1





[9]

Connecting the Dots: Detecting Adversarial Perturbations Using Context Inconsistency

Shasha Li, Shitong Zhu, Sudipta Paul, Amit Roy-Chowdhury, Chengyu Song, Srikanth Krishnamurthy, Ananthram Swami, Kevin S Chan

摘 要:

原 文:http://arxiv.org/pdf/2007.09763v2





[10]

Efficient Residue Number System Based Winograd Convolution

Zhi-Gang Liu, Matthew Mattina

摘 要:

原 文:http://arxiv.org/pdf/2007.12216v1





[11]

Multi-view adaptive graph convolutions for graph classification

Nikolas Adaloglou, Nicholas Vretos, Petros Daras

摘 要:

原 文:http://arxiv.org/pdf/2007.12450v1





[12]

BMBC:Bilateral Motion Estimation with Bilateral Cost Volume for Video Interpolation

Junheum Park, Keunsoo Ko, Chul Lee, Chang-Su Kim

摘 要:

原 文:http://arxiv.org/pdf/2007.12622v1





[13]

Channel-Level Variable Quantization Network for Deep Image Compression

Zhisheng Zhong, Hiroaki Akutsu, Kiyoharu Aizawa

摘 要:

原 文:http://arxiv.org/pdf/2007.12619v1

资 源:github.com/zzs1994/CVQN





[14]

An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds

Rui Huang, Wanyue Zhang, Abhijit Kundu, Caroline Pantofaru, David A Ross, Thomas Funkhouser, Alireza Fathi

摘 要:

原 文:http://arxiv.org/pdf/2007.12392v1





[15]

Contact and Human Dynamics from Monocular Video

Davis Rempe, Leonidas J. Guibas, Aaron Hertzmann, Bryan Russell, Ruben Villegas, Jimei Yang

摘 要:

原 文:http://arxiv.org/pdf/2007.11678v2





[16]

The Surprising Effectiveness of Linear Unsupervised Image-to-Image Translation

Eitan Richardson, Yair Weiss

摘 要:

原 文:http://arxiv.org/pdf/2007.12568v1

资 源:github.com/eitanrich/lin-im2im





[17]

Unsupervised Discovery of 3D Physical Objects from Video

Yilun Du, Kevin Smith, Tomer Ulman, Joshua Tenenbaum, Jiajun Wu

摘 要:

原 文:http://arxiv.org/pdf/2007.12348v1





[18]

Micro-expression spotting: A new benchmark

Thuong-Khanh Tran, Quang-Nhat Vo, Xiaopeng Hong, Xiaobai Li, Guoying Zhao

摘 要:

原 文:http://arxiv.org/pdf/2007.12421v1





[19]

A Comprehensive Study on Sign Language Recognition Methods

Nikolas Adaloglou, Theocharis Chatzis, Ilias Papastratis, Andreas Stergioulas, Georgios Th. Papadopoulos, Vassia Zacharopoulou, George J. Xydopoulos, Klimnis Atzakas, Dimitris Papazachariou, Petros Daras

摘 要:

原 文:http://arxiv.org/pdf/2007.12530v1





自然语言处理

Natural Language Processing


[20]

MULTISEM at SemEval-2020 Task 3: Fine-tuning BERT for Lexical Meaning

Aina Garí Soler, Marianna Apidianaki

摘 要:

原 文:http://arxiv.org/pdf/2007.12432v1

资 源:github.com/TurkuNLP/FinBERT, github.com/google-research/bert





[21]

Multinomial Sampling for Hierarchical Change-Point Detection

Lorena Romero-Medrano, Pablo Moreno-Muñoz, Antonio Artés-Rodríguez

摘 要:

原 文:http://arxiv.org/pdf/2007.12420v1





[22]

SummEval: Re-evaluating Summarization Evaluation

Alexander R. Fabbri, Wojciech Kryściński, Bryan McCann, Richard Socher, Dragomir Radev

摘 要:

原 文:http://arxiv.org/pdf/2007.12626v1





数据集

Dataset


[23]

CelebA-Spoof: Large-Scale Face Anti-Spoofing Dataset with Rich Annotations

Yuanhan Zhang, Zhenfei Yin, Yidong Li, Guojun Yin, Junjie Yan, Jing Shao, Ziwei Liu

摘 要:

原 文:http://arxiv.org/pdf/2007.12342v1

资 源:github.com/Davidzhangyuanhan/CelebA-Spoof





[24]

Mind Your Manners! A Dataset and A Continual Learning Approach for Assessing Social Appropriateness of Robot Actions

Jonas Tjomsland, Sinan Kalkan, Hatice Gunes

摘 要:

原 文:http://arxiv.org/pdf/2007.12506v1





[25]

Advanced Mapping Robot and High-Resolution Dataset

Hongyu Chen, Zhijie Yang, Xiting Zhao, Guangyuan Weng, Haochuan Wan, Jianwen Luo, Xiaoya Ye, Zehao Zhao, Zhenpeng He, Yongxia Shen, Sören Schwertfeger

摘 要:

原 文:http://arxiv.org/pdf/2007.12497v1





[26]

HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild

Jing Chen, Chenhui Wang, Kejun Wang, Chaoqun Yin, Cong Zhao, Tao Xu, Xinyi Zhang, Ziqiang Huang, Meichen Liu, Tao Yang

摘 要:

原 文:http://arxiv.org/pdf/2007.12519v1





任务与挑战

Task & Challenge


[27]

FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings

Bertelt Braaksma, Richard Scholtens, Stan van Suijlekom, Remy Wang, Ahmet Üstün

摘 要:

原 文:http://arxiv.org/pdf/2007.12544v1

资 源:github.com/flairNLP/flair, github.com/zihangdai/xlnet





[28]

IDS at SemEval-2020 Task 10: Does Pre-trained Language Model Know What to Emphasize?

Jaeyoul Shin, Taeuk Kim, Sang-goo Lee

摘 要:

原 文:http://arxiv.org/pdf/2007.12390v1





[29]

JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed data

Avishek Garain, Sainik Kumar Mahata, Dipankar Das

摘 要:

原 文:http://arxiv.org/pdf/2007.12561v1





方法论

Methodology


[30]

MurTree: Optimal Classification Trees via Dynamic Programming and Search

Emir Demirović, Anna Lukina, Emmanuel Hebrard, Jeffrey Chan, James Bailey, Christopher Leckie, Kotagiri Ramamohanarao, Peter J. Stuckey

摘 要:

原 文:http://arxiv.org/pdf/2007.12652v1

资 源:github.com/benedekrozemberczki/

awesome-decision-tree-papers





[31]

Self-Supervised Learning Across Domains

Silvia Bucci, Antonio D'Innocente, Yujun Liao, Fabio Maria Carlucci, Barbara Caputo, Tatiana Tommasi

摘 要:

原 文:http://arxiv.org/pdf/2007.12368v1





[32]

What and Where: Learn to Plug Adapters via NAS for Multi-Domain Learning

Hanbin Zhao, Hao Zeng, Xin Qin, Yongjian Fu, Hui Wang, Bourahla Omar, Xi Li

摘 要:

原 文:http://arxiv.org/pdf/2007.12415v1





[33]

AI in FinTech: A Research Agenda

Longbing Cao

摘 要:

原 文:http://arxiv.org/pdf/2007.12681v1





神经网络原理

Neural Network Theory


[34]

Accelerated Stochastic Gradient-free and Projection-free Methods

Feihu Huang, Lue Tao, Songcan Chen

摘 要:

原 文:http://arxiv.org/pdf/2007.12625v1





[35]

Interpreting Spatially Infinite Generative Models

Chaochao Lu, Richard E. Turner, Yingzhen Li, Nate Kushman

摘 要:

原 文:http://arxiv.org/pdf/2007.12411v1





[36]

Reparameterizing Convolutions for Incremental Multi-Task Learning without Task Interference

Menelaos Kanakis, David Bruggemann, Suman Saha, Stamatios Georgoulis, Anton Obukhov, Luc Van Gool

摘 要:

原 文:http://arxiv.org/pdf/2007.12540v1





[37]

Dynamic Knowledge Distillation for Black-box Hypothesis Transfer Learning

Yiqin Yu, Xu Min, Shiwan Zhao, Jing Mei, Fei Wang, Dongsheng Li, Kenney Ng, Shaochun Li

摘 要:

原 文:http://arxiv.org/pdf/2007.12355v1





[38]

Deforming the Loss Surface

Liangming Chen, Long Jin, Xiujuan Du, Shuai Li, Mei Liu

摘 要:

原 文:http://arxiv.org/pdf/2007.12515v1





[39]

MiCo: Mixup Co-Training for Semi-Supervised Domain Adaptation

Luyu Yang, Yan Wang, Mingfei Gao, Abhinav Shrivastava, Kilian Q. Weinberger, Wei-Lun Chao, Ser-Nam Lim

摘 要:

原 文:http://arxiv.org/pdf/2007.12684v1





综述

Survey


[40]

A Survey on Graph Neural Networks for Knowledge Graph Completion

Siddhant Arora

摘 要:

原 文:http://arxiv.org/pdf/2007.12374v1





语音技术

Audio & Speech


[41]

Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker Conditional-Mixture Approach

Chaitanya Ahuja, Dong Won Lee, Yukiko I. Nakano, Louis-Philippe Morency

摘 要:

原 文:http://arxiv.org/pdf/2007.12553v1





强化学习

Reinforcement Learning


[42]

Monte-Carlo Tree Search as Regularized Policy Optimization

Jean-Bastien Grill, Florent Altché, Yunhao Tang, Thomas Hubert, Michal Valko, Ioannis Antonoglou, Rémi Munos

摘 要:

原 文:http://arxiv.org/pdf/2007.12509v1





[43]

Clinician-in-the-Loop Decision Making: Reinforcement Learning with Near-Optimal Set-Valued Policies

Shengpu Tang, Aditya Modi, Michael W. Sjoding, Jenna Wiens

摘 要:

原 文:http://arxiv.org/pdf/2007.12678v1





[44]

Anticipating the Long-Term Effect of Online Learning in Control

Alexandre Capone, Sandra Hirche

摘 要:

原 文:http://arxiv.org/pdf/2007.12377v1





[45]

Predictive Information Accelerates Learning in RL

Kuang-Huei Lee, Ian Fischer, Anthony Liu, Yijie Guo, Honglak Lee, John Canny, Sergio Guadarrama

摘 要:

原 文:http://arxiv.org/pdf/2007.12401v1





推荐系统

Recommendation System


[46]

Long-tail Session-based Recommendation

Siyi Liu, Yujia Zheng

摘 要:

原 文:http://arxiv.org/pdf/2007.12329v1





[47]

IR-BERT: Leveraging BERT for Semantic Search in Background Linking for News Articles

Anup Anand Deshmukh, Udhav Sethi

摘 要:

原 文:http://arxiv.org/pdf/2007.12603v1

资 源:github.com/Anup-Deshmukh/TREC_background_linking





医疗与健康

Medical Science & Health Care


[48]

Impact of Medical Data Imprecision on Learning Results

Mei Wang, Jianwen Su, Haiqin Lu

摘 要:

原 文:http://arxiv.org/pdf/2007.12375v1





[49]

Improved Slice-wise Tumour Detection in Brain MRIs by Computing Dissimilarities between Latent Representations

Alexandra-Ioana Albu, Alina Enescu, Luigi Malagò

摘 要:

原 文:http://arxiv.org/pdf/2007.12528v1





[50]

Parkinson's Disease Detection with Ensemble Architectures based on ILSVRC Models

Tahjid Ashfaque Mostafa, Irene Cheng

摘 要:

原 文:http://arxiv.org/pdf/2007.12496v1





应用

Application


[51]

Human-Robot Interaction in a Shared Augmented Reality Workspace

Shuwen Qiu, Hangxin Liu, Zeyu Zhang, Yixin Zhu, Song-Chun Zhu

摘 要:

原 文:http://arxiv.org/pdf/2007.12656v1





[52]

A Novel Ensemble Deep Learning Model for Stock Prediction Based on Stock Prices and News

Yang Li, Yi Pan

摘 要:


点赞
收藏
表情
图片
附件