» CVPR

AI learns how vision and sound are connected, without human intervention

MIT News

↗

Understanding the visual knowledge of language models

MIT News

↗

Looking for a specific action in a video? This AI-based method can find it for you

MIT News

↗

Computer vision system marries image recognition and generation

MIT News

↗

Language-Guided Audio-Visual Source Separation via Trimodal Consistency

CVPR

Bias Mimicking: A Simple Sampling Approach for Bias Mitigation

CVPR

Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

CVPR

MaskSketch: Unpaired Structure-guided Masked Image Generation

CVPR

ConStruct-VL: Data-Free Continual Structured VL Concepts Learning

CVPR

Understanding and Improving Visual Prompting: A Label-Mapping Perspective

CVPR

Video Test-Time Adaptation for Action Recognition

CVPR

Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models

CVPR

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

CVPR

FlatFormer: Flattened Window Attention for Efficient Point Cloud Transformer

CVPR

Masked Motion Encoding for Self-Supervised Video Representation Learning

CVPR

EC^2 : Emergent Communication for Embodied Control

CVPR

Learning Situation Hyper-Graphs for Video Question Answering

CVPR

Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos

CVPR

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

CVPR

3D Concept Learning and Reasoning from Multi-View Images

CVPR

Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention

CVPR

Teaching Structured Vision & Language Concepts to Vision & Language Models

CVPR

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning

CVPR

More Language, Less Labeling with Kate Saenko

This Week in Machine Learning & AI (TWIML) podcast

↗

A safer, lower-cost alternative to real data for pretraining computer vision models

IBM Research blog

↗

Hallucinating to better text translation

MIT News

↗

Deep Analysis of CNN-based Spatio-temporal Representations for Action Recognition

CVPR Computer Vision

Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

CVPR Computer Vision

Non-Adversarial Video Synthesis with Learned Priors

CVPR Computer Vision

Camera On-boarding for Person Re-identification using Hypothesis Transfer Learning

CVPR Computer Vision

Semi-Supervised Action Recognition with Temporal Contrastive Learning

CVPR Computer Vision

Fashion IQ: A New Dataset towards Retrieving Images by Natural Language Feedback

CVPR Computer Vision

GAN Compression: Efficient Architectures for Interactive Conditional GANs

CVPR Computer Vision

Separating Skills and Concepts for Novel Visual Question Answering

CVPR

Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

CVPR Computer Vision

The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models

CVPR Computer Vision

Fine-grained Angular Contrastive Learning with Coarse Labels

CVPR Computer Vision

Black-box Explanation of Object Detectors via Saliency Maps

CVPR Computer Vision

Anycost GANs for Interactive Image Synthesis and Editing

CVPR Computer Vision

Relationship Matters: Relation Guided Knowledge Transfer for Incremental Learning of Object Detectors

CVPR Computer Vision

Identifying Interpretable Action Concepts in Deep Networks

CVPR

Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation

CVPR Computer Vision