当前位置：首页 > 技术 > 平板电脑最新资讯NLP领域中隐秘的千万声未被世人耳闻

平板电脑最新资讯NLP领域中隐秘的千万声未被世人耳闻

技术
2024-12-19 04:56
0

在人工智能的新世纪，NLP领域悄然展现出前所未有的活力。然而，这场革命背后隐藏着一个沉默的“声音”，即数据和模型代表性的不平等问题。本文将探讨这一难题及其对NLP技术利益分配的影响。

首先，我们需要认识到数据是训练模型的基础。在过去十年中，由于技术进步和开源数据集的大量提供，特别是在计算机视觉和自然语言处理（NLP）领域，人工智能经历了复兴。ImageNet创建了一个包含2万张标注图片的公开语料库，而谷歌发布了由n-gram频率构成的百亿词语料库。此外，如Allen Institute、Hugging Face和Explosion等组织也推出了开放源代码库及预先训练的大型语言模型，这些都促进了NLP领域飞速发展。

然而，这种增长并非没有代价。例如，在COVID-19疫情期间，通过发布公共注释研究数据集和创建公共响应资源来促进对疫情研究，也暴露了一些潜在的问题，比如关于算法使用线索透明度有限，以及可能导致偏见的问题。

此外，在实际应用中，也有许多案例展示了AI系统带有其不应有的学习模式。比如COMPAS算法被用于确定罪犯是否会再次犯罪，但该算法显示出与种族相关的问题，使得司法系统面临质疑。而且顶尖的人工智能招聘算法也因为更倾向于推荐男性而遭废除，其原因可能是该算法利用以往招聘模式。

现代NLP面临的一个挑战是它依赖于特定的数据来源，其中有些来源存在代表性问题。这意味着那些历史上、社会上占据主导地位的声音得到放大，而其他声音则被忽视或边缘化。这包括Wikipedia编辑中男女比例失衡以及Google News中的白人男性编辑主导现象。此外，即使这些模型试图跨语言泛化，他们通常表现并不佳，因为他们从少数几种语言开始训练，从而形成一种类型学回声室。