女性在科学领域的归功于男性

  机构审查委员会批准:宾夕法尼亚大学机构审查委员会(IRB协议编号850522)批准了调查。宾夕法尼亚大学机构审查委员会(IRB协议编号850522),波士顿大学机构审查委员会(IRB协议第6412X号)纽约大学机构审查委员会(IRB协议NO。IRB-FY20222-6243)和OHIO州立大学机构审查委员会和IRB协议(IRB协议20222E22E33333333)   分析性链接数据集由对2013年至2016年9,778个研究团队使用的128,859名个人的观察组成,与39,426篇文章和7,675个专利有关,由三个来源构建:内部融资和人力资源(FHR)的总企业和57 colles and Clock and Comps and Off 40%,代表了36666666年的INTERCATION INTERATION INTERIAL。州,《科学网络和专利数据》的期刊文章来自美国专利和商标办公室的专利宇宙。   第一个来源源自FHR数据,称为Umetrics,在2001年至2022年的36个大学的118个大学校园的赞助研究项目上支付的所有人员(确切的年度涵盖的年份都因机构而变化)36。可以在https://iris.isr.umich.edu/上找到参与机构的完整列表。   在每个付费期间,每所大学的FHR系统都会记录每个赞助项目的费用详细信息,包括每笔支付的每个人的费用,并将信息报告给有关创新和科学研究所的信息37。这些行政数据与PIS作为其年度和最终报告的一部分提交给机构的一部分,至少以三种方式向机构提交的及时数据不同。首先,它们代表每个付费时间从FHR系统中获取的实际薪资数据,而不是PI或团队管理员每年提供的估算值。一项密集的手工策划比较了早期努力的结果,发现FHR报告比PI或团队管理员报告38,39更详细和全面。例如,FHR报告中记录了所有人员名称(包括Co-Pis),但前者没有记录许多名称。其次,UMETRIC数据捕获了所有资金来源,并且比单个机构的数据更全面。UMETRIC数据包括联邦资金来源以及慈善基金会,州和地方政府,行业和国际组织的资金。第三,数据反映了每个会计时间段中的实际支出,而不仅仅是赠款开始时有义务的资金。因此,如果经常发生的情况,在项目中较早有一个不构成的扩展名或更多的资金,那么数据中的支出和相关团队成员的工作就会在数据中捕获。有局限性。如果人员不为赠款收取时间,则不会在数据中捕获他们的努力;我们不知道任何可以捕捉无薪工作的来源。如果无薪研究工作存在性别差异,则该分析将无法捕获这种差异。   该分析的重点是来自20所大学的57个大学校园的子集,该校园始终提供了涵盖2013 - 2016年期间的数据(请参阅UMETRICS摘要文档的第10、11和23页。36;补充信息,第2部分)。这种限制确保了就业法术足够长,可以合理地识别PI和团队,并观察2014 - 2016年这些团队生产的科学文件。完整的数据包括392,125个独特的联邦和非联邦奖项的行政级别信息,包括23,307,254次工资支付至643,463个被识别的个人28。   Stephan30的工作为研究团队的建设提供了信息,Stephan30的工作将研究团队的概念投入了工作,成为一群科学家,共同从事具有共同资金和资源的项目。UMETRICS数据非常适合使用此定义来规模衡量团队的衡量标准,因为管理数据提供了所有在每个薪资期间向每个赠款收取时间的人的详细信息31,32。   每个团队的组成如下。PI位于每个团队的中心。数据中的PI可以通过选择从2013 - 2016年每年至少一份研究赠款持续支付的教职员工来确定,并且其相关的工资付款始终将教职员工列为职位。如果PI相关的赠款在样本期间至少向PI支付了一笔工资,并且如果涉及多个PI,则均匀分享。研究中心的补助金被排除在外,其特征为有12个或更多教职员工(第99个百分点)的补助金。根据与PI相关的赠款,我们确定了以这些赠款付款的研究生,博士后,研究人员,本科生和非PI教职员工。一组科学家支付了与PI相关的赠款,共同组成了研究团队。该程序共有9,778支球队,2013年至2016年期间有128,859名员工。   在样本中,团队和潜在作者的数量差异很大。为了确保我们的估计不会由许多团队或有很多文章的团队的人主导,我们加权数据,以便每个人都会获得同等的权重,每个团队都会获得同等的权重。如果表示我所在的那个人的数量,并表示T团队中潜在的作者身份(即文章和/或专利)的数量,则适用于Team T团队的人的潜在作者的权重。因此,每个人都会因他或她出现在该团队的潜在作者身份倒数的团队数量的倒数。因此,每个唯一的员工在样本中的总体重量为一个。但是,我们的结果对各种替代权重。   性别是使用Ethnea32,40和Python性别猜测算法的组合来分配算法的。民族首先是根据每个员工的名字和种族(从姓氏分配的算法)来分配性别的。当名字给出模棱两可的结果时,使用中间名。如果性别仍然模棱两可,Python的性别猜测将应用于个人的名字,而不是中间名。可以确定107,239人(占样本的83.2%),其中51,738人是女性,男性为55,502。   归纳的准确性已针对两个地面真理来源进行了测试。第一个来源是自我报告的,关于一家参与UMETRICS的机构的12,867名教职员工的性别的行政数据。该算法正确预测了93%的案例中自我报告的性别:男性的精度为93.35%,女性为92.51%。第二个来源来自UMETRIC数据的匹配,并调查了获得的博士学位41。对来自美国大学的所有博士学位毕业生的年度调查(响应率为93%)对获得的博士学位的调查直接要求受访者报告其性别。男性的算法精度为97.29%,女性为94.06%。鲁棒性检查在补充信息中报告。我们注意到我们的性别结构不允许非二元或流体性别认同的局限性。解决非二元和/或流体性别认同是未来研究的重要方向。   每个员工的职位标题,在文本中也称为职位或角色,由FHR Records42构建。一些员工可能会在相同或不同的团队上拥有不同的职位;在这些情况下,标题是根据每个团队中每个标题中支付的天数平等加权的。   通过使用所有相关赠款的标题,并将赠款与文本库进行比较,以使用Wiki-labelling方法来描述每个科学领域的赠款,可以确定每个团队的科学领域。17,18,19。这种方法用于分配给定授予奖项标题属于给定研究领域类别的可能性分数,如NCSES研究生的NCSES调查和科学和工程学博士后所述。每个团队的领域都是通过获取每笔赠款的领域并通过在分析期间的每笔赠款的直接支出来加权赠款对团队投资组合的相对重要性来估算的。   出版物是从Clarivate Analytics制作和维护的科学数据库中得出的,该数据库包含有关1900年至2018年大约6930万文章的出版和引文信息。该分析的重点是2014 - 2016年发表的文章,并链接到2013 - 2016年UMetrics中观察到的个人,尽管我们在2013 - 2016年间进行了其他型号的构图,包括其他年来的其他型号以及其他型号的信息。   专利是从专利视图可视化和分析平台中汲取的,该平台包含680万次总专利,其历史可追溯至201843年。分析的重点是具有2014年至2016年申请日期的专利子集,并与2013 - 2016年从Umetrics观察到的个人有关。补充信息中包括其他一年范围的其他鲁棒性检查。   Umetrics与文章和专利的作者之间的联系是通过将有关科学文档中列出的个人和赠款的信息组合在一起而产生的。在UMETRIC中,数据包括个人的名称(包括连字符的名称中的部分名称),机构和赠款号,但至关重要的是,每个赠款中的其他人也是如此。出版物和专利数据也是如此。我们通过利用PatentsView的算法分配的发明家ID和Web Science的研究人员ID和OrcID的结合来确定与给定发明家或作者相关的所有专利或文章。这些身份集群的关键,使我们能够将给定的发明家或作者的完整专利和出版历史与个人的员工ID联系起来,以至于我们不仅看到了与特定的赠款或特定时间段相关的这些文件,而且还看到了他们在职业上的整个专利和出版历史。Ross等人44中详细介绍了使用Data Post 2000的多步骤过程。有五个步骤。第一个依赖于UMETRICS奖励号的确切匹配与政府利益领域中在专利领域中提到的奖励号,或该出版物确认部分中引用的奖励号。第二步依赖于姓名匹配。它将发明者在专利视图中和网络科学的作者链接到使用精确和模糊匹配的连续过程中支付的Umetrics赠款的人,并从池中删除了匹配的名称以进行后续回合。候选人的比赛因奖励与出版物和专利之间的机构隶属关系和差异而取消了资格。第三步依赖于网络匹配。它使用精确且模糊的名称匹配来查找共同访问者(在PatentsView),合着者(在科学网络中) 和合作者(umetrics)。候选人的比赛因奖励与出版物和专利之间的机构隶属关系和差异而取消了资格。第四步通过封锁的隶属关系将人们联系起来。隶属名称可以通过阻止Umetrics University的隶属关系与专利浏览和Web Science的隶属关系(使用手工策划的,不符合大学名称的列表),并使用第二步中描述的逐步匹配和验证过程。与以前一样,候选人的比赛因奖励与出版物和专利之间的机构隶属关系和差异而取消了资格。第五个也是最后一步依赖于无与伦比的赠款的大致匹配。它使用与步骤2-4中链接的身份集群相关的文章或专利库(即Umetrics的员工与其相关的发明家ID和研究ID或ORCID相关联)。确定性匹配的这些文档上的赠款编号的限制被松动,并且在Umetrics的赠款与步骤1中无与伦比的赠款之间允许模糊匹配,但与链接的个体相关联。   承认团队的一项赠款和/或拥有团队的作者/发明者的所有出版物和专利都与团队相关联。这导致总共有47,101个科学文件(39,426篇文章和7,675份专利)在2014 - 2016年之间发表了与上一年在UMETRICS中观察到的员工和团队有关的,即2013 - 2016年。有关个人和团队的摘要信息在扩展数据表1中提供。有关样本中作者和非授权人之间差异的其他信息以及补充信息的第2部分中提供了一些围绕授予资金资金来源的基本描述信息。   由此产生的联系允许计算总体作者的总比率,总体总体为16.97%(女性为12.15%,男性为2​​1.17%)(扩展数据表2)。归因率是通过产生一个潜在作者身份库来构建的。所有具有教职职位的人都被认为是在分析期间由团队制作的所有文章或专利的潜在作者。所有具有非教师职务的人都必须在专利文章或申请的文章或申请书之前的一年都雇用了该团队。我们放宽了补充剂中非教师职位头衔的这段时间的限制,这通常会增加主要估计中报告的性别差距的大小。   由此产生的分析数据集由21,133,102个潜在的作者观察(17,929,271篇文章,专利的3,203,831)组成,其中367,231是实际的作者。女性有43.8%的潜在作者是女性,而实际作者中有31.8%是由妇女制作的。如果将这些数字转换为速率,那么科学文档的加权归因率为3.17%。仅文章的归因率为3.2%,而专利的归因率为1.3%(扩展数据表2)。尽管这两个归因率相对较低,但这在很大程度上是由于我们的样本中包括本科生和研究人员以及在短时间内工作的研究人员。这些员工很少在实际的作者中观察到,并导致整体归因率降低。在随后的部分控制中报告的回归分析以及团队中工作的天数;补充信息的第1部分提供了不包括本科生和研究人员的结果。在每个规范中,结果都有鲁棒。   第三个归因度量是科学文章和专利的影响,是通过附加引用(截至2018年)在科学和专利景观数据集中报道的潜在作者身份样本中构建的。由于样本中的早期文档(例如,从2014年开始的文档)比以后的文档(例如2016年的文档)有更多的时间接收引用,因此我们包括出版日期(日历年×月×月)控件,如我们的其他模型中。   效应大小计算为对比组之间的百分比差异,除非文本中另有说明。   经验方法是使用形式的模型估算线性回归   我潜在的作者观察的特征是在具有出版物或申请日期t(日历年×月)的文件之前的一年,在Lek l工作的员工E。感兴趣的主要变量,是一种指标,表明潜在的作者身份是否归因于女性的雇员。公式(1)的估计是在期刊文章的17,929,271个潜在作者的样本中,而专利结果的估计是根据3,203,831个潜在的发明人的样本。   估计了一系列回归。第一组(扩展数据表3)包括控件,其中包括与潜在的作者身份或发明人相关的出版物或申请月的指标变量,团队的PI,团队中工作的天数以及个人性别是否未知的指标。数据中的特殊趋势是通过根据我发表或申请的专利的日期来包括一系列日历年×年度和年度固定效果;个人在团队中的立场是通过一系列位置变量来解释的,这些变量捕捉了一个人在特定位置工作的日子,这是在研究团队中工作的份额。研究团队之间的差异是通过包括一系列团队固定效果来解释的,我们表示使用数据中的干扰。第二组(扩展数据表5)重新估计具有相同控件但作业标题的方程式(1);第三组(扩展数据表6)通过字段重新估计了相同的方程式。最后一组(扩展数据表7)检查了高影响力的出版物和专利。   该调查已发送给以前在通过其公共概况上在OrcID上识别的学术研究期刊上发表的个人,该平台在该平台中,学术研究人员发布了教育证书,工作历史和出版记录。补充信息的第3部分提供了有关调查工具,电子邮件招聘和访谈协议的信息。   主要数据库是OrcID 2017数据库,其中包括OrcID网站上显示的概要文件的公开信息,因为它们在2017年出现:897,264个配置文件列出了一个完整的名称以及教育证书,工作历史记录信息或两者兼而有之。   然后,与这些配置文件的研究人员相关的电子邮件地址源自从科学网络上获得的已发表和公开可用的研究文章中列出的电子邮件。Web of Science还提供了897,264个OrcID配置文件中128,602的相关电子邮件地址。由于重点是询问学术研究人员有关他们被命名或不被命名为出版物的合着者的经验,因此OrcID概况仅限于可以与2014年至2014年至2014年:98,134之间的网络科学数据库中发表的学术论文联系在一起的经验:符合这些标准。   最后,有些人会创建多个orcid配置文件,并且随着时间的推移,一些电子邮件地址将为多个人回收。为了避免多次给同一个人发送电子邮件,每个电子邮件只有一个相关的orcid配置文件。解决重复项后,有98,022个唯一的OrcID轮廓与我们的样本标准相匹配。   在主要研究之前先进行了三项研究。在使用名字和民族数据库代表的个体的性别之后,有10,000个(估算的)属于男性的特征和10,000个(估算的)OrcID概况被随机选择,除了具有6,500个具有性别歧义名称的6,500个配置文件外,还选择接受调查。   除了开放式的文本字段,研究人员可以记录他们的经验外,调查的最后一个问题还征求了研究人员“以缩放他们在研究团队中分配信贷的经验进行访谈。”受访者被告知,如果他们有兴趣谈论他们对团队科学信贷分配的经验,则可以输入他们的电子邮件地址以进行后续采访。由两名作者组成的团队(两位性别的三个访谈,以及三个访谈的性别),每人访谈了六个人,每人30分钟。四个是女人,两个是男人。团队从未将性别作为一个问题提出,而是由受访者提出的。详细的访谈协议可在补充信息中获得,第3部分。   有关研究设计的更多信息可在与本文有关的自然研究报告摘要中获得。

本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://lejiaoyi.cn/zixun/202506-1259.html

(7)
lejiaoyi的头像lejiaoyi签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • lejiaoyi的头像
    lejiaoyi 2025年06月19日

    我是言希号的签约作者“lejiaoyi”

  • lejiaoyi
    lejiaoyi 2025年06月19日

    本文概览:  机构审查委员会批准:宾夕法尼亚大学机构审查委员会(IRB协议编号850522)批准了调查。宾夕法尼亚大学机构审查委员会(IRB协议编号850522),波士顿大学机构审查委员...

  • lejiaoyi
    用户061905 2025年06月19日

    文章不错《女性在科学领域的归功于男性》内容很有帮助

联系我们

邮件:言希号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信