社交媒体创造开放、协作和参与性空间的潜力使年轻女性能够在政治和社会行动主义中参与并赋权自己。在此背景下,本研究的目标是分析女权主义捍卫与跨性别议题交叉点辩论中的极化现象,特别是在年轻人群中,以术语"TERF"的使用为象征。为此,我们使用社交网络分析技术分析了Twitter和TikTok上关于此主题的现有社区,以及年轻人在其中的参与情况。结果表明,两个网络之间的辩论凝聚力较弱,具有高度模块化的结构,表明每个社区的孤立性。因此,可以认为性别认同辩论导致了社交媒体中女权主义行动主义的强烈极化。同样,跨性别包容女权主义的立场在年轻人中占绝大多数;这强化了一个意识形态辩论的观点,也可以从代际角度理解。最后,确定了两个社交媒体之间的差异化使用,其中TikTok是一个比Twitter更少党派性、更基于对话的网络,这导致讨论和参与以更中立的语气进行。
社交媒体在数百万人的日常生活中扮演着基础性角色,但也引发了关于内容审核政策、个人数据管理及其商业利用的担忧。Elon Musk于2022年收购Twitter(现为X)引发了用户对该平台发展方向变化的担忧,促使部分用户群体向联邦式网络Mastodon发起迁移运动。本研究回顾了2016年至2022年间用户加入这一去中心化平台的过程,并分析了19,000名自称为平台转换支持者的用户迁移情况。结果表明,迁移运动是对Elon Musk收购Twitter的被动反应,由一群高度活跃的学者、科学家和记者领导。然而,完全过渡并未实现,用户更倾向于在两个平台上同时存在。Mastodon的去中心化特性使得精确复制Twitter社区变得困难,导致这些用户的社会资本部分丧失以及用户社区更加碎片化,这凸显了两个平台之间的内在差异。
大型语言模型(LLM)支持生成式社会模拟,能够捕捉在线社交平台上文化知情、规范引导的互动。我们构建了一个基于Voat的技术社区模拟,Voat是一个类似Reddit的另类右翼新闻聚合和讨论平台,活跃于2014年至2020年。使用YSocial框架,我们用从Voat共享URL中采样的固定技术链接目录(覆盖30多个域)来初始化模拟,并使用MADOC数据集中的样本校准参数以匹配Voat的v/technology。代理使用基础、未经审查的模型(Dolphin 3.0,基于Llama 3.1 8B)和简洁的角色(人口统计、政治倾向、兴趣、教育、毒性倾向)来生成帖子、回复和反应,遵循平台规则进行链接和文本提交、线程回复和日常活动周期。我们运行了一个30天的模拟,并通过比较分布和结构与匹配的Voat数据来评估操作有效性:活动模式、互动网络、毒性和主题覆盖。结果表明熟悉的在线规律:相似的活动节奏、重尾参与、稀疏低聚类互动网络、核心-外围结构、与Voat的主题对齐以及升高的毒性。当前研究的局限性包括无状态代理设计和基于单次30天运行的评估,这限制了外部有效性和方差估计。该模拟生成逼真的讨论,经常包含毒性语言,主要围绕技术主题,如Big Tech和AI。这种方法提供了一个有价值的手段,用于在受控环境中检查毒性动态和测试审核策略。
社交媒体平台促进了科学的传播和获取。然而,传播者参与和可见性方面的性别不平等依然存在。本研究从性别视角考察了YouTube和TikTok在覆盖范围和观众反应方面的差异。为此,我们选择了YouTube和TikTok上最具影响力的十个科学账号,样本中男女比例均等,进行了比较研究。共分析了TikTok上的4293个视频和YouTube上的4825个视频,以及277,528条评论,同时考虑了观看量和互动指标。结果显示,在YouTube上,男性获得了更多的点赞和观看量,而在TikTok上,观众反应更加平衡。女性在两个平台上的参与也产生了不同的影响,因为在YouTube上参与内容的女性数量与互动水平呈负相关,而在TikTok上,其影响略为积极。总之,TikTok成为了一个更具包容性的科学传播空间,尽管两个平台都面临结构性挑战,这鼓励了进一步研究促进在线科学传播中性别平等的策略。
理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。
理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。
在线毒性的普遍性,包括仇恨言论和流氓,破坏了数字互动和在线福祉。 以前的研究主要集中在临时节制上,忽视了在线对话的实时情绪动态以及用户情绪对他人的影响。 本文提出了一个基于图表的框架,以确定在线对话中情绪调节的必要性。 这个框架促进自我反思,以管理情绪反应,并鼓励负责任的行为实时。 此外,还提出了一个评论排队机制,以解决那些利用情绪来煽动对话的有意巨魔。 这种机制引入了发布评论的延迟,让用户有时间在进一步参与对话并帮助保持情绪平衡之前进行自我调节。 对来自Twitter和Reddit的社交媒体数据的分析表明,基于图的框架将毒性降低了12
在《社区检测》[1]的论文中,Fortunato引入了一种称为性能的质量函数来评估图形分区的优点。 该度量计算正确“解释”的顶点对的数量,即属于同一社区并由边缘连接的两个顶点,或属于不同社区且未通过边缘连接的两个顶点。 在本文中,我们探讨了Fortunato的性能测量(fp量度),用于检测未加权、无方向网络中的社区。 首先,我们给出了一个贪婪的算法fpGreed,它试图通过在两级,顶点级别和社区级别上迭代工作来优化fp测量。 在顶点级别,顶点只有在 fp 值提高时才加入社区。 一旦完成此工作,就会获得一组初始社区。 在下一阶段,只有当fp措施得到改善时,两个社区才会合并。 一旦没有进一步的改进,算法切换回顶点级别等等。 fpGreed在任何社区没有更改时终止。 然后,我们提出了一个更适合在大型数据集上运行的更快的启发式算法 fastFp 。 我们介绍了社区的质量以及在几个著名的数据集上计算它们所需的时间。 对于一些大型数据集,如youtube和 livejournal,我们发现Algorithm fastFP在时间和获得的解决方案的质量方面都表现非常好。
Facebook 隐私保护的完整 URL 数据集发布,旨在对 Facebook 平台对社会的影响进行独立的学术研究,同时确保用户隐私。 该数据集已用于几项研究,以分析社交媒体参与与社会问题(如错误信息,两极分化和消费新闻质量)之间的关系。 在本文中,我们对与流行新闻领域的参与进行了全面分析,涵盖2017年1月至2020年12月的四年,重点关注与美国新闻网址相关的用户参与度指标。 通过将新闻来源的质量和可靠性的意识形态调整和综合得分以及用户的政治偏好相结合,我们为自由,保守和温和的受众构建了意识形态和新闻消费质量的加权平均值。 这使我们能够跟踪(i)自由派和保守派之间新闻消费的意识形态差距和(二)每个群体新闻消费的平均质量的演变。 我们确定了趋势的两个主要变化,每个变化都与参与变化有关。 在这两个方面,意识形态差距扩大,新闻质量下降。 然而,参与度在第一个转变中上升,但在第二个转变中下降。 最后,我们将这些趋势与两个主要的Facebook新闻Feed更新联系起来。 我们的研究结果提供了经验证据,以更好地了解用户行为和与新闻的接触,以及他们在数据集所涵盖的期间的倾向和可靠性。
大多数社区检测方法对数据中的社区做出了非常强烈的假设,例如每个顶点必须完全属于一个社区(社区形成一个分区)。 对于矢量数据,用于噪声应用程序的基于层次密度的空间聚类(HDBSCAN)已作为一种领先的聚类算法出现,该算法允许不属于任何群集的异常点。 HDBSCAN的第一步是重新定义向量之间的距离,使单链路聚类对噪声有效且稳健。 许多社区检测算法从类似的步骤开始,试图增加类似节点之间边缘的重量,并降低嘈杂边缘的重量。 在本文中,我们将HDBSCAN的分层单链路聚类算法应用于各种节点/边缘相似性分数,以查看是否存在一种算法,该算法可以在允许异常值的同时有效检测聚类。 在合成和真实世界数据集的实验中,我们发现每种类型的图形都没有一种方法是最佳的,但令人钦佩的性能表明,分层单链路聚类是图形聚类的可行范例。
图形中的社区检测对于理解将节点组织到密集连接的集群至关重要。 虽然已经制定了许多策略来识别这些集群,但社区检测的成功可能导致隐私和信息安全问题,因为个人可能不希望他们的个人信息暴露。 为了解决这个问题,已经提出了社区欺骗方法,以降低检测算法的有效性。 然而,在目前的欺骗方法中,一些限制,如评估指标的合理性和攻击的不明显性,被忽视了。 因此,在这项工作中,我们首先通过实证研究,研究广泛使用的欺骗指标的局限性,即模块化的减少。 然后,我们提出了一个新的欺骗度量,并将这个新度量与攻击预算相结合,将不引人注意的社区欺骗任务建模为多目标优化问题。 为了进一步提高欺骗性能,我们通过结合学位偏见和社区偏见的候选人节点选择机制,提出了两种变体方法。 对三个基准数据集进行的广泛实验证明了拟议的社区欺骗策略的优越性。
不同领域的图形结构数据日益普及,加剧了对图形分类任务的兴趣。 虽然出现了许多复杂的图形学习方法,但其复杂性往往阻碍了实际实施。 在本文中,我们提出了一种基于基本图形结构属性构建特征向量的方法,从而解决了这一挑战。 我们证明这些特征尽管简单,但功能强大到足以捕捉同一类图形的内在特征。 我们使用三种不同的机器学习方法来探索我们方法的有效性,突出我们基于特征的分类如何利用同一类中图形的固有结构相似性来实现准确的分类。 我们方法的一个关键优势是它的简单性,这使得它可以访问并适应广泛的应用,包括社交网络分析,生物信息学和网络安全。 此外,我们进行了广泛的实验来验证我们方法的性能,表明它不仅显示了竞争性能,而且在某些情况下超越了更复杂的先进技术的准确性。 我们的研究结果表明,关注基本图形特征可以为图形分类提供强大而高效的替代方案,为研究和实际应用提供巨大的潜力。
这项工作调查了2023年1月至2024年10月期间发布的约10,000个与COVID-19相关的YouTube视频,以评估在大流行后期期间,时间,词汇,语言和结构因素如何影响参与度。 出版活动显示出一致的平日效应:在第一个窗口中,平均浏览量在周一达到92658点;第二个窗口,周三达到115,479点;第三个窗口期为84,874点,反映了观众注意力向中周和后期的转变。 对视频标题的词汇分析揭示了与COVID-19和YouTube功能相关的反复出现的高频关键字,包括COVID,冠状病毒,短裤和直播。 频率分析揭示了急剧的峰值,COVID在2024年8月出现在799个视频标题中,而参与度分析显示,标题为短片的视频吸引了非常高的观看次数,在2023年6月达到每个视频平均观看量216万次的峰值。 对英文视频描述情绪的分析表明,原始数据中的观点相关性较弱(Pearson r = 0.0154,p = 0.2987),但一旦解决异常值,就出现了更强的相关性,Spearman r = 0.110(p < 0.001)和Pearson r = 0.0925(p < 0.001)。 视频持续时间的类别级分析揭示了对比结果:关注人物和博客的长视频平均浏览量为209,114次,短娱乐视频平均观看次数为288675次,中长新闻和政治视频平均为51,309次和59,226次观看。 这些结果表明,在后期大流行期间,YouTube上与COVID-19相关视频的参与模式遵循了发布时间表,标题词汇,主题和特定类型持续时间效应所驱动的不同特征。
时间网络由时间戳定向交互组成,而不是静态链接。 这些链接可能会及时连续出现,但很少有研究直接解决了网络的连续时间建模。 在这里,我们引入了对时间网络的最大熵方法,并且对约束进行了基本假设,相应的网络集成允许模块化和可解释的表示:一组全局时间过程 - 一个不均匀的Poisson或Hawkes过程 - 和一个静态最大熵(MaxEnt)边缘,例如节点对,概率。 这种时间边缘标签因子化产生了闭形日志可能性,程度/独特的预期,并产生一整类有效的生成模型。 我们通过路径熵的功能优化,连接不均匀的Poisson建模 - 例如,为时间网络提供日志线性霍克斯/NHPP强度的最大熵推导。 Hawkes 模型 - 到 MaxEnt 网络集成。 Global Hawkes 时间层持续改善通用 NHPP 的日志概率,而 MaxEnt 边缘标签可恢复强度约束并再现预期的唯一度曲线。 我们讨论了这个统一框架的局限性,以及如何将其与校准的社区/主题工具,霍克斯校准程序和(神经)内核估计集成。
YouTube Shorts和其他短视频平台现在影响数十亿人参与内容的方式,但他们的推荐系统在很大程度上仍然不透明。 推广内容的微小变化会显著影响用户曝光,尤其是政治敏感话题。 在这项工作中,我们提出了一种基于关键帧的方法,用于审计短视频建议中的偏差和漂移。 我们不是分析完整的视频或依赖元数据,而是提取感知显著的关键帧,生成说明,并将两者嵌入共享内容空间。 使用跨推荐链的可视化映射,我们观察到一致的变化和聚类模式,指示主题漂移和潜在过滤。 将政治敏感话题与一般YouTube类别进行比较,我们发现推荐行为存在显著差异。 我们的研究结果表明,关键帧提供了一个高效和可解释的镜头,用于理解短视频算法中的偏差。
大学作为学术合作的中心,通过跨学科对话促进学生和教师之间不同思想和观点的交流。 然而,随着大学规模的扩大,传统的网络方法通过学生章节,班级团体和教师委员会变得繁琐。 为了应对这一挑战,建议建立一个针对学术界的概况推荐系统,以连接任何大学社区中志同道合的利益相关者。 本研究评估了三种技术:术语频率逆文件频率(TF-IDF),变压器的双向编码器表示(BERT)和生成有效建议的混合方法。 由于数据集的未标记性质,执行基于 Affinity 传播群集的重新标记来理解类似配置文件的分组。 混合模型表现出卓越的性能,其相似性得分,Silhouette评分,Davies-Bouldin指数和标准化贴现累积增益(NDCG)证明了这一点,在建议中实现多样性和相关性之间的最佳平衡。 此外,最佳模型已作为移动应用程序实施,该模型根据用户的技能和协作兴趣动态地建议相关配置文件,并纳入上下文理解。 这个应用程序的潜在影响是显着的,因为它承诺通过部署智能推荐系统来增强大型学术机构内的网络机会。
我们引入了一种新的非合作游戏来分析意见的形成和阻力,融合了社会心理学的原则,如确认偏见,资源限制和影响惩罚。 我们的模拟功能是大型语言模型(LLM)代理竞争影响人口,并因生成传播或反错误信息的信息而受到惩罚。 该框架将资源优化整合到代理商的决策过程中。 我们的研究结果表明,虽然更高的确认偏见加强了群体内部的意见一致性,但也加剧了整体的两极分化。 相反,较低的确认偏见导致分散的意见和个人信仰的有限变化。 大量投资于高资源揭穿策略最初可以使人口与揭穿剂保持一致,但可能会迅速耗尽资源并削弱长期影响
在这篇文章中,我们旨在分析网络科学中哪些数字作为节点和边缘模式的性质及其后果,称为“社区”。 将这些模式描述为多方面和矛盾的,我们建议将社区的概念描述为“模糊操作符”,这是Susan Leigh Star对边界对象概念的变体,并提议构建不同描述模式的能力在某些寄存器中既模糊又在其他寄存器中超精确,是数字政治和“社区”分析的核心。 从数学和软件研究中得出的术语与这些形成互动,可以更广泛地绘制其形成图。 然后,在网络科学中区分不同的血统,使我们能够将2002年由米歇尔·吉尔万和马克·纽曼推广的“社区”的创始账户联系起来。 在研究了一个特定的社区检测算法,即广泛使用的“ Louvain 算法”之后,我们评论了一些更模糊的应用所产生的争议。 我们认为,“社区”可以作为一种真正的抽象,具有重塑社会关系的权力,例如在社交网站中产生回声室。 为了重新制定社区检测的认识论术语,并提出对模糊运算符的重新考虑,我们利用网络科学文献中的辩论和命题来想象一种“批判的疗法”,包括偏袒,认识论谦卑,反射性和人工性。
社交媒体平台生成庞大而复杂的图形结构数据,促进各种任务,如谣言检测,机器人识别和影响建模。 诸如公众舆论监控和股票交易等现实世界的应用程序 - 对社交媒体有着强烈的依恋 - 需求在各种任务和数据集上表现的模型。 然而,大多数现有解决方案纯粹是数据驱动的,对社交媒体数据中固有的噪声表现出脆弱性。 此外,对特定任务模型设计的依赖挑战了同一模型架构在不同任务上的高效重用,从而产生了重复的工程工作。 为了解决社交媒体图分析中的这些挑战,我们提出了一个通用表示学习框架,该框架将双编码器结构与动力学引导传播模块集成在一起。 除了用两个编码器共同建模结构和上下文信息外,我们的框架还通过整合原理动能知识,创新地捕捉社交媒体图中的信息传播动态。 通过从基于马尔可夫链的传输模型中衍生出传播感知编码器和相应的优化目标,表示学习管道在多种任务中提高了其鲁棒性,使其嘈杂的数据和多功能性。 广泛的实验验证我们的方法通过统一架构在跨越图形分类、节点分类和链接预测的各种社交媒体图形挖掘任务上实现了最先进的性能。 此外,我们的解决方案在数据集上表现出强大的零镜头和很少的可移动性,在处理数据匮乏任务时表现出实用性。
基于图形的恶意软件分析的进展受到严格限制,因为没有大规模的数据集来捕获软件固有的分层结构。 现有方法通常将程序过度简化为单级图,未能对高级功能交互和低级指令逻辑之间的关键语义关系进行建模。 为了弥补这一差距,我们引入了恶意软件分析最大的公共分层图形数据集,包括嵌套在595K函数呼叫图(FCG)内的200多M控制流图(CFG)。 这种两级表示保留了结构语义,这对于构建具有弹性代码混淆和恶意软件演进的健壮检测器至关重要。 我们通过大规模分析证明了HiGraph的效用,揭示了良性和恶意软件的独特结构特性,将其确立为社区的基础基准。 数据集和工具可在https://higraph.org上公开查阅。
谣言传播建模对于理解错误信息传播的动态至关重要。 以前的模型要么过于简单化,要么静态,使得它们对于模拟现实世界的谣言动态无效。 在本文中,利用大型语言模型(LLM)令人印象深刻的人类行为模仿功能,我们提出了一种新的动态和分层的社交网络模拟框架,该框架支持数百万代理的模拟。 这个模拟器用于探索现实世界中的谣言动态。 现实世界谣言传播数据集的实验揭示了模拟和现实世界的谣言动态之间的强烈对齐,优于现有模型,平均减少了64%的意见偏见。 我们的研究结果强调了基于LLM的多代理系统在社交网络模拟中的巨大潜力,为推进社会科学研究提供了关键见解。 此外,我们的分析表明,社交网络中紧密相连的当地社区结构是推动谣言迅速传播的关键因素之一。 在这些社区中,随着谣言在一定程度上传播,一些受“社会压力”影响的个人往往被迫顺从,而少数意见的持有者则进一步沉默,导致恶性循环加速谣言传播。 通过反事实实验,我们评估各种干预策略,并证明早期和持续纠正错误信息的努力在减轻谣言传播方面更有效,而通过意见领袖揭穿谣言被证明是最有效的策略。 这些发现为公众舆论管理和决策提供了宝贵的见解。
为了提高计算机基础设施抵御网络攻击的弹性,并找到减轻其影响的方法,我们需要了解它们的结构和动态。 在这里,我们提出了一种新的基于网络的影响传播模型,以调查各种类型的攻击和因果图中的事件轨迹或路径,这些路径可以定向,加权和/或循环。 在具有循环路径的攻击图形的情况下,只允许自避免攻击链。 在我们的模型框架中,可以基于漏洞、服务和漏洞利用性,对攻击图的传统可视化进行详细的概率分析。 为了展示模型的功能,我们提出了三个与网络相关的图形用例,即两个攻击图和一个因果图。 该模型对于网络分析师生成量化指标以进行优先级,摘要或分析较大图形可能有好处。
随着大多数内容在线分发并由平台进行调解,迫切需要了解内容创建和消费的生态系统。 最近的大量工作揭示了创作者 - 平台或用户平台交互的片面市场,显示了静态(Nash)均衡和在线学习的关键属性。 在这项工作中,我们考察了包括平台在内的双面市场以及用户和创作者。 我们为用户、平台和创作者之间的耦合交互设计了一个潜在的功能。 我们表明,创作者的最佳响应动态与用户多点选择之间的这种耦合相当于这个潜在功能的镜像下降。 此外,一系列平台排名策略对应于一系列潜在功能,双面相互作用的动态仍然对应于镜像下降。 我们还为非凸函数的镜像下降提供了新的局部收敛结果,这可能是独立的兴趣。 我们的结果为解释在注意力市场中观察到的不同结果提供了理论基础。
我们使用高斯混合物来模拟社交网络中多模态信念和意见不确定性的形成和演变。 在这个模型中,贝叶斯信仰在结合外源性因素(来自外部来源的信号,例如新闻文章)时,以及非贝叶斯混合动力学在结合内生因素(社交媒体上的相互作用)时,通过贝叶斯信仰更新的意见演变。 该建模能够捕获在多模态意见动态中观察到的行为的丰富性,同时保持标量模型的可解释性和简单性。 我们提出意见形成和不确定性的初步结果,以调查顽固个人(作为社会影响者)的影响。 这导致了一种中心性的概念,其基础是个人很容易破坏整个社交网络的信息流。
在本文中,我们研究了在标签随机块模型(LSBM)中恢复隐藏社区的问题,该模型具有有限数量的聚类,其大小与节点总数呈线性增长。我们推导了必要和充分条件,在这些条件下,对于任意数量s = o(n),误分类节点的期望数量小于s。为实现这一目标,我们提出了IAC(实例自适应聚类),这是第一个在期望值和高概率下都匹配实例特定下界的算法。IAC是一种新颖的两阶段算法,包括一次性谱聚类步骤,随后是基于似然的迭代聚类分配改进。这种方法基于实例特定的下界,并且显著地不需要任何模型参数的知识,包括聚类数量。通过仅执行一次谱聚类,IAC保持了𝒪(n polylog(n))的整体计算复杂度,使其对于大规模问题具有可扩展性和实用性。