Synthetic Dataset

传统现实世界中的面部情感识别数据集在收集过程中,往往难以避免诸如遮挡、标签噪声以及类别不均衡等问题。这些因素严重制约了模型的泛化能力与识别精度,而受限于数据采集的实际条件,上述问题往往难以从根本上得到纠正。

针对这一挑战,本研究充分利用当前先进的生成技术——Stable Diffusion,通过高度可控的人工生成方式,构建了一个大规模、高质量的面部表情数据集。该数据集涵盖七类基本情感,分别为:快乐、中性、惊讶、伤心、愤怒、恐惧与厌恶。每类表情包含约40万张图像,整体数据规模达到280万,具备良好的多样性与均衡性。

通过合成生成的方式,我们能够有效规避现实数据集中常见的干扰因素,为基于深度学习的情感识别模型提供更为纯净、标准且规模可扩展的训练资源。本数据集的发布,旨在推动高鲁棒性面部表情识别模型的研发,并为生成数据在计算机视觉任务中的有效性提供新的实证支持。