SocialHEISTing：针对Facebook被盗账户的统计数据研究-安全KER

在线社交网络 (OSN) 帐户通常比其他类型的在线帐户（例如电子邮件帐户）更以用户为中心。因为它们提供了许多统计数据，例如年龄、性别、位置和职业。虽然这些属性允许更有意义的在线交互，但它们也可以被恶意方用来制造各种类型的滥用行为。为了了解人口统计属性对被盗社交账户中攻击者行为的影响，本研究设计了一种方法来检测和监控此类账户。然后创建、检测和部署了 1000 多个 Facebook 帐户，并将它们暴露给犯罪分子。结果证实，受害者的人口统计特征确实会影响网络犯罪分子滥用其账户的方式。例如发现了访问青少年帐户的网络犯罪分子比访问成人帐户的网络犯罪分子更多地写消息和发帖，并且入侵男性帐户的攻击者会执行破坏性活动，例如更改他们的某些个人资料信息的次数多于访问女性帐户的攻击者。这些知识可能有助于在线服务开发新模型来表征跨各种人口统计属性的良性和恶意活动，从而自动对未来的活动进行分类。

0x01 Introduction

社交账户在日常生活中几乎是不可或缺的。发现新老朋友、阅读新闻和获得下一份丰厚的工作是社交账户促进的众多活动中的一小部分。与网络邮件和即时消息帐户相比，社交帐户提供的不仅仅是消息功能。随着时间的推移，社交账户也会积累迟到的个人信息，不幸的是，这些信息使它们处于网络犯罪分子的视线范围内。

本文旨在了解网络犯罪分子通过非法手段获取社交账户的凭据后会发生什么。具体来说，专注于了解被盗账户的人口统计属性如何影响与其相关的犯罪分子的活动。为此创建、部署和监控了 1008 个真实的诱饵 Facebook 帐户（出于道德原因不可能研究属于真人的帐户，以避免伤害他们）。在账户中加入了各种年龄和性别配置，为了引诱犯罪分子与帐户进行交互，在 Surface Web 和 Dark Web 上向其中一部分人泄露了凭据，模仿了网络犯罪分子分发被盗帐户凭据的作案手法。研究者对账户进行了六个月的监控，提取了访问账户的人的综合活动记录，并离线分析了这些记录。研究问题如下：

1、如何表征犯罪分子在被盗帐户中的行为？

2、帐户人口统计数据（年龄和性别）的差异是否会影响犯罪分子在被盗社交帐户中的活动？

3、犯罪分子登录后会在社交帐户中停留多长时间？

4、他们搜索的内容的性质是什么？

5、他们发布的内容的性质是什么？

在实验过程中观察到对 284 个帐户的 322 次唯一访问。帐户所有者的年龄和性别确实与犯罪分子在帐户中执行的行为类型有关；例如，攻击者倾向于搜索朋友列表并在与青少年账户互动时开始聊天，而不是与成人账户互动，并在与男性资料互动时执行破坏性活动（例如，编辑他们的个人资料），从未观察到基于女性账户的这种行为。研究结果表明，个人资料属性会影响攻击者在破坏帐户时采取的行动，并在更好地了解攻击者的作案手法和开发更好的帐户劫持缓解措施方面开辟有趣的研究方向。

年龄和性别差异（受害者）会影响网络犯罪分子访问被盗 Facebook 帐户时的行为方式。这与现有的研究文献一致，这些文献表明年龄和性别是网络犯罪和在线受害的重要因素。有鉴于此，建议应根据不同的人口群体定制缓解系统和干预措施。换句话说，需要将安全系统从保护“普通用户”转变为开发自适应防御系统，以解决网络犯罪受害的显着差异。

0x02 Background

A. Facebook帐户

潜在的 Facebook 用户首先创建一个帐户和一个关联的个人资料。之后，他们可以向他们的同伴发送好友请求。他们可以在他们的个人资料时间线上发布更新，例如，通过编写文本、上传照片或发布 URL（或这些操作的组合）。 Facebook 还允许用户通过Messenger（Facebook 的消息应用程序）向他们的朋友发送私人消息。用户可以在帖子、照片和其它他们感兴趣的内容上点击喜欢（和其他“reaction”）。 Facebook 的使用不仅限于个人用户。非正式群组、企业和公司实体也可以通过创建页面和群组来维持 Facebook 的存在。用户可以搜索并连接到他们感兴趣的朋友、群组和页面。这些功能等突出了 Facebook 的社交性质。

B. 测试账户

除了常规帐户，Facebook 还提供与其主要社交图断开连接的沙盒帐户。这些账户称为测试账户，与真实账户类似，但存在于隔离环境（沙箱）中。因此，他们无法连接到常规 Facebook 帐户，但可以连接到其他测试帐户（即，作为“朋友”）。它们通常用于测试目的，例如在安全漏洞测试中。测试账户的固有隔离性使其特别适合研究了解受感染社交账户中的恶意活动，因为它确保真实用户在实验期间不会受到任何方式的伤害，这符合对此研究的道德要求。 Facebook 还为管理测试帐户提供控制面板，控制面板只能从真实的 Facebook 帐户访问，允许帐户管理员在其控制下重置测试帐户的密码。

尽管测试帐户看起来与真实的 Facebook 帐户相似，但它们的功能有限。由于测试帐户计数与常规 Facebook 图表断开连接，因此与常规帐户交互的尝试将失败。例如，尝试搜索真实帐户或粉丝页面将不会成功。尽管如此，此类搜索词将记录在测试帐户的活动记录中，并且可供控制测试帐户的研究人员使用。此外，尝试使用测试帐户向其他 Facebook 附属平台（例如 Instagram）进行身份验证将失败，而通过真实帐户进行的此类尝试将成功（对于有效的帐户凭据）。尽管存在这些限制，但测试帐户提供了接近真实 Facebook 帐户的真实度，因此非常适合本文，本研究仅使用测试帐户进行这项研究。

C. 下载您的信息 (DYI)

Facebook 用户可能希望下载和查看他们自己的帐户数据和活动。为了促进这一点，Facebook 帐户提供了一个称为下载您的信息 (DYI，Download Your Information) 的内置工具，该工具允许用户请求和下载一个压缩档案，其中包含他们的帐户数据和一段时间内的活动。 DYI 工具可通过 Facebook 帐户的设置菜单使用。在请求并下载压缩存档（DYI 存档）后，用户可以离线解压缩存档并仔细阅读其内容。它的结构通常类似于按目录（部分）组织的离线网站和可以在 Web 浏览器中离线查看的网页。或者，可以以 JavaScript Object Notation 格式 (JSON) 下载 DYI 数据。

DYI 档案提供有关登录时间、IP 地址、用户代理字符串、消息、群聊、时间线帖子、个人资料编辑和照片上传等信息。它提供了 Facebook 帐户内活动的全面记录。但是，它不能 100% 覆盖 Facebook 帐户中所有可观察到的现象——例如，它不记录页面滚动信息。尽管如此，DYI 档案为实验提供了丰富的信息来源。由于这些原因，本研究依靠 Facebook 帐户中的 DYI 功能在实验结束时从测试帐户中检索活动数据。请注意，也将测试帐户称为蜜罐帐户。

D. 威胁模型

攻击者通过网络钓鱼攻击、信息窃取恶意软件、网络攻击和数据库泄露等方式破坏在线帐户的凭据。之后，他们连接到帐户以搜索有价值的信息以获利。一些犯罪分子还使用被盗帐户发送垃圾邮件。在本文中关注以社交账户为目标并以各种方式滥用它们的攻击者，例如，通过向受害者的联系人发送未经请求的消息或储存被盗的社交凭证以供出售。正在研究的攻击者拥有与账户所有者类似的特权（在被盗账户内），因为这些攻击者知道所有者拥有的访问凭证。攻击者还能够将其恶意活动的范围扩展到与受害者的社交图谱相关的其他实体（即帐户），例如，通过滥用固有信任并向他们发送恶意负载。

0x03 Methods

总共创建了 1008 个 Facebook 测试账户，包括数量相等的成年女性、成年男性、女性青少年和男性青少年账户。在本节中将描述如何创建、检测和部署它们。

A. 设置蜜罐账户

从 2017 年 11 月 7 日到 2018 年 5 月 16 日，用数据填充测试帐户的过程大约持续了 6 个月。接下来讨论这些具体步骤。

人口因素：围绕两个人口统计属性设计角色，即年龄范围（青少年/成人）和性别（男性/女性）。希望根据账户的人口统计属性，观察犯罪分子与蜜罐账户行为的差异或相似之处。

个人资料名称和密码：通过使用随机用户生成器的 API生成随机名称组合，为个人资料分配名字和姓氏。然后，通过从公开可用的 RockYou 密码列表中随机选择密码来为个人资料分配密码，其中包括 2009 年数据泄露期间暴露的 3200 万个密码。为了增加帐户的真实性，在它们之间建立了朋友联系，以模仿真实 Facebook 帐户的社交性质。
个人资料照片：通过从 Pix abay、Flickr、Pexels 和 Unsplash下载知识共享 (CC，Creative Commons) 库存照片来获取帐户的个人资料照片。只从这些来源中选择了 CC0 许可的照片；这些照片可以用于任何目的，不需要署名。手动将照片与帐户匹配，确保每张个人资料照片都代表其主机帐户先前指定的人口统计属性。例如，对于女性成人帐户，选择了一张显示成年女性的个人资料照片。最后，使用为此目的构建的照片上传自动化工具将精选的个人资料照片上传到蜜罐帐户。因此，任何给定帐户的人口统计标签一目了然，任何连接到该帐户的人都可以推断出来。

时间线数据：为了进一步模仿真实的 Facebook 帐户，在蜜罐帐户的时间线上发布了一些内容。为此，根据服务条款使用 Twitter 流 API收集了包含流行主题标签的公开可用推文。这些流行的主题标签在以前的工作中确定，包括#sports、#music 和#news 等。从推文中删除了个人身份信息 (PII)，并使用构建的自动化工具在蜜罐帐户的时间线上发布了经过净化的文本片段。因此，蜜罐帐户显示了人们通常在社交网络上发布的主题的不同内容，更具说服力。

通过将真实世界的数据填充这些账户，并将它们相互连接（即朋友连接），来确保这些账户看起来很现实。在账户泄露前不久，账户就停止了发布信息和相互互动。从那时起，执行的唯一活动就是接受攻击者提出的好友请求。研究者没有从账户中推动任何进一步的活动。特别是没有与任何攻击者互动，例如回复他们的私人消息。这主要是为了遵循伦理审查委员会（IRB，Institutional Review Board）协议，该协议禁止与攻击者进行交互。这可能影响攻击者的活动。虽然一些攻击者可能是为了好玩，但研究发现在具有不同人口统计数据的帐户上执行的活动在统计上存在显着差异，这一事实使研究者确信正在捕捉真正的攻击趋势。

B. 数据采集基础设施

在本节中将介绍构建的数据收集基础架构，用于从蜜罐帐户中检索活动数据；下图说明了它的组件以及它们如何交互。接下来解释每个关键组件。

下载您的信息 (DYI) 存档：Facebook 帐户（包括测试帐户）允许帐户所有者下载包含其活动综合记录的 DYI 档案。依靠此功能来收集犯罪分子的活动记录。

DYI 下载器和解析器： DYI 档案由包含活动详细信息的网页组成，以供离线查看。自动下载它们并通过解析器运行它们以提取和分类它们的内容。此类内容包括登录和注销信息、设备信息和密码更改等。

邮件服务器和解析器：在设置测试帐户时，将某些电子邮件地址与蜜罐帐户相关联。这些电子邮件地址（每个 Facebook 测试帐户一个）指向研究者控制下的邮件服务器。在该邮件服务器上会收到来自蜜罐帐户的有关密码更改、收到的朋友请求和私人消息等的电子邮件通知。与只下载一次的 DYI 记录不同，邮件服务器提供有关帐户活动的实时信息，并允许在必要时立即做出反应（例如，恢复密码更改）。

C. 泄露 Honey 凭证

被盗凭证通常由网络犯罪分子在粘贴网站和其他渠道分发。本研究模仿了凭据泄露方法，通过 Surface Web（Pastebin.com、Paste.org.ru）和暗网（Stronghold）上的粘贴站点泄露凭据（Facebook ID 和密码）来吸引网络犯罪分子访问蜜罐帐户。这些是理想的，因为它们允许公共粘贴并向所有访客展示最近的粘贴。

研究没有泄露整个蜜罐账户。相反，泄露了其中的三分之二（整个 1008 个凭证中的 672 个）。这样做是为了观察犯罪分子是否会试图通过利用帐户之间现有的朋友连接来破坏未泄露的帐户。例如，他们可能会向没有泄露凭据的帐户发送网络钓鱼消息或恶意链接（在测试帐户之间建立了朋友连接）。

鉴于泄露的大量凭据（672 个帐户），将它们分成七个部分（chunk），每个部分最多包含 100 个凭据。请注意，粘贴站点允许用户在其主页上查看“recent pastes”，但一次只出现少量提交（例如，Pastebin.com 的情况下为 8 个）。出于这个原因，每天都会泄露凭据。为了确保泄漏有利于来自不同的多个时区的粘贴网站访问者，每天泄漏两次凭据。最后，为了确保凭据在泄漏期间充分暴露，在泄漏之前随机化了每个部分中的凭据顺序。

D. 有效性威胁

研究者承认存在可能影响研究结果有效性的因素。首先，蜜罐账户的内容包括库存照片和其他公开可用的数据，这在仔细审查下可能是显而易见的。此外，仔细观察可能会发现蜜罐帐户是最近创建的，并且在停止填充它们后它们停止发布新状态 – 这可能会影响帐户的可信度。这些不是主要问题，因为此类犯罪分子至少会与帐户建立一次联系，而且研究者已经记录了他们的活动。研究者也没有系统的方法来确定粘贴网站（泄密点）的用户会意识到这些账户是假的。请注意，与论坛不同，粘贴网站没有直接反馈机制（例如，评论字段）。最后在粘贴网站上匿名泄露了凭据，泄密与任何单一身份无关，因此，研究者复制了一个匿名泄漏。

研究使用了与常规 Facebook 帐户断开连接的沙盒帐户（测试帐户）。仔细观察可能会发现存在与真实账户略有不同的特征。请注意仅通过粘贴站点泄露了凭据。本研究的发现可能并不代表通过其他渠道（例如恶意软件或地下论坛）窃取的社交账户中的恶意活动。尽管存在这些因素，本文还是深入了解了被盗社交账户中的恶意活动，并将有助于开发检测和缓解系统和技术。

E. 道德伦理

在设置和运行实验时仔细考虑了工作的伦理影响。首先，使用了从常规 Facebook 社交图谱中分离出来的帐户，以避免伤害合法的 Facebook 用户。这种沙盒方法符合恶意软件研究中的常见做法。其次，使用公开的照片和推文来填充账户，这样做是为了确保在这项研究中没有泄露任何私人信息。第三，通过利用测试操作面板，确保可以轻松更改帐户密码，以在观察到通过蜜罐帐户伤害他人的企图时将犯罪分子拒之门外。此外，监控系统记录了所有更改与蜜罐帐户关联的电子邮件地址的尝试。最初的缓解计划是连接到此类帐户并恢复其原始电子邮件地址，这些地址在控制之下。后来发现 Facebook 已经有一个缓解机制：更改电子邮件地址的尝试被 Facebook 阻止，并且对受影响帐户的访问被暂时禁用，直到通过测试操作面板重置它们。

为了进一步加强道德规范，研究者要求 Facebook 联系人密切关注这些账户，以关闭任何违反 Facebook 政策的账户。经过分析，本研究安全地丢弃了实验期间账户中累积的个人身份信息（PII，Personally identifiable information）。最后由于实验涉及欺骗犯罪分子与诱饵帐户进行交互，因此在开始实验之前寻求并获得了研究机构的道德批准。

0x04 Data Analysis

在本节中概述了犯罪分子在蜜罐帐户中进行的活动。在三周内（从 2018 年 6 月 1 日到 2018 年 6 月 22 日）向账户泄露了凭证，观察时间跨度为六个月（从 2018 年 6 月 1 日到 2018 年 12 月 1 日）。分析和相应的见解完全基于控制下的蜜罐账户收集的数据；没有使用任何内部 Facebook 数据。

A. 丢弃有缺陷的账户

数据收集方法涉及从蜜罐帐户下载 DYI 档案。在此过程中发现有 79 个账户存在缺陷，无法从中下载活动信息。这些有缺陷的帐户呈现无限旋转的 GIF，而不是加载页面内容，可能是由于设置测试帐户时的配置问题。无法从他们那里下载活动数据。此外，Facebook 还封锁了三个帐户；无法从他们那里检索到 DYI 数据。将那些有缺陷和被封锁的账户排除在分析之外，这将被分析的蜜罐账户的有效数量从 1008 个账户减少到 926 个账户。这些账户包括 472 个成人账户和 454 个青少年账户（从年龄范围来看），或 469 个女性账户和 457 个男性账户（从性别角度来看）。最后，（功能性）泄露账户的有效数量从 672 个减少到 619 个。

B. 访问和相关操作

284 (46%) 的功能性泄露账户收到未经授权的访问，没有泄露的有307 账户。不幸的是，由于这些帐户的沙盒性质，攻击者无法独立找到这些帐户并连接到它们。因此，本研究无法估计泄露账户和未泄露账户的风险差异。然而，确实观察到 46 个未泄露的帐户（15%）以好友请求或私人消息的形式收到了攻击者的交互。其中一些可能是为了进一步获得对那些未泄露帐户的访问权限。由于IRB 协议，无法与攻击者进行交互，这不允许进一步调查。

Facebook 帐户记录对它们的唯一访问，并且每个访问都标有一个唯一的字符串标识符，称为 cookie。 Cookies 可以在 DYI 档案的登录记录部分找到。当犯罪分子连接到蜜罐帐户时，会记录一次访问。请注意，访问标识符 (cookie) 可以在登录到不同帐户时持续存在。例如，如果犯罪分子连接到账户 A，然后在短时间内使用相同的设备和浏览器连接到另一个账户 B，则两个账户中将记录相同的 cookie。登录后，犯罪分子会执行一些操作，例如发送私人消息或编写状态更新。在本文中交替使用术语 cookie 和访问（Access）。观察了账户中的各种访问类型，并根据账户中与它们相关联的操作对其进行了命名。接下来描述这些类型的访问，编入访问分类：

劫持类（Hijacker）：当蜜罐帐户（或其电子邮件地址）的密码更改时，会记录劫持者访问。
交谈类（Chatty）：当犯罪分子发送私人消息、创建群聊、在另一个帐户的时间轴上发布更新或在他们自己的时间轴上发布时，就会发生这种类型的访问。

情绪类（Emotional）：：在点击照片和帖子上的 Facebook“赞”按钮（或任何其他反应）期间记录情绪化访问。

搜索类（Searcher）：当犯罪分子在 Facebook 搜索栏中输入搜索词时，就会发生这种类型的访问。

个人资料修改类（Profifile Editor）：当犯罪分子编辑帐户的个人资料信息（例如，通过更改个人资料照片）时，会记录个人资料编辑的访问权限。

好友修改类（Friend Modififier）：。当犯罪分子从帐户中添加或删除朋友时，就会发生这种类型的访问。

其它类（Curious）：当犯罪分子连接到帐户但未执行任何先前列出的操作时，就会发生其它访问。换句话说，其它访问包括导致监控基础设施由于其覆盖范围限制而未捕获的操作的访问（例如，单击照片以展开它们或滚动浏览帐户个人资料）。为此将登录的行为记录为操作本身，这与之前列出的访问类型不同。因此，其它访问包含监控基础设施无法捕获的行为的下限。

这些类型的访问不是互斥的，除了其它类。例如，聊天的访问也可能是情绪化的，这取决于与之相关的各种操作。但是，其它访问只能属于其它类别。

C. 活动

总的来说观察到对 284 个帐户的 322 次唯一访问，导致这些帐户中的 1159 次操作。这个访问次数与之前的工作报告的一致，该工作在泄露在线凭证时遵循了类似的方法。上表显示了按访问类型分组的操作摘要。其它、搜索和交谈访问在操作表中占主导地位，分别占所有操作的 45%、30% 和 11%。情绪化和个人资料编辑访问构成最不活跃的类型。这表明在 Facebook 帐户中进行活动的犯罪分子对通过 Facebook 搜索栏搜索信息、撰写私人消息和公开帖子特别感兴趣。

Facebook 的核心功能之一是连接人们。它提供了定位和连接其他 Facebook 用户的方法——最终使他们成为 Facebook 朋友。在实验之前在整个蜜罐帐户群体中创建了朋友连接，在实验过程中，进一步观察了网络犯罪分子向账户提出的额外好友请求。总共有 157 个账户收到了来自其他账户的好友请求。从年龄角度来看，这些账户包括 83 个青少年账户和 74 个成人账户，或者从性别角度来看，包括 31 个男性账户和 126 个女性账户。跨年龄范围和性别组收到的朋友请求中的这些差异预示在本文中强调的进一步区别。最后，有趣的是，46 个未泄露的账户收到了好友请求（没有泄露 307 个账户），而 111 个泄露的账户收到了好友请求（泄露了 619 个功能账户）。这表明犯罪分子的企图范围超出了他们获得的凭据语料库。

IP 地址： 90% 记录在账户中的 IP 地址每个访问少于 5 个账户。其中 50% 只访问了一个帐户，如下图所示。最多产的 IP 地址访问了 93 个帐户—一个异常值，如下图中所示。一般意义上，各种攻击者连接到账户—记录的活动不仅仅是少数攻击者活动的反映。

接下来研究蜜罐帐户中的活动时间，特别强调记录的访问持续了多长时间。

D. 账户活动时间

为了了解访问帐户的时间模式，测量了在泄露帐户凭据后犯罪分子连接到帐户需要多长时间，以及他们与帐户保持连接的时间。这些测量是在所有账户以及账户组（按年龄范围和性别）上进行的，以观察不同类型账户之间活动模式的差异。接下来将介绍详细的测量结果。

从泄漏到登录：本研究通过粘贴网站泄露了蜜罐帐户的凭据以吸引犯罪分子。为了观察他们在泄漏后连接到帐户需要多长时间，计算了第一次泄漏（日期为 2018 年 6 月 1 日）和首次访问每个帐户之间的时间滞后。请注意，帐户凭据多次同时泄露。如下图中的 CDF 所示，这些帐户大多不是立即访问的。相反，犯罪分子在几天内逐渐与他们联系起来。到第 25 天，超过 50% 的被访问帐户至少获得了一次访问权限。

访问量激增：自第一次泄漏以来第 25 天后记录的登录峰值（参见上图）是由前面提到的在一天内访问 93 个帐户的多产 IP 地址引起的。这些访问都发生在 2018 年 6 月 28 日，这与上图中的峰值相吻合。与这些访问关联的用户代理字符串表明连接是从 Android 设备进行的，并且访问可能是以自动方式进行的。然而，这只是一个指示，因为用户代理字符串可以很容易地更改；他们不可靠。

访问时长：为了了解犯罪分子在蜜罐帐户中停留的时间，计算了他们访问的持续时间。为了实现这一点，将 cookie 首次出现在帐户中的时间记录为 t0，并将它最后出现在该帐户中的时间记录为 astlast。给定这些信息，每次访问的访问持续时间可以计算为 tlast -t0。上图显示了按访问类型分组的访问持续时间的 CDF。奇怪的访问大多是短暂的，除了长尾的访问，包括一小部分在帐户中停留 80 天或更长时间。长时间与帐户保持连接的其它访问可能是由隐秘的犯罪分子进行的，这些犯罪分子在被盗帐户中不采取任何行动以避免被发现。相反，他们可能会长时间监控帐户，以观察可能使他们受益的新敏感内容。最后，在数据集中，劫持者访问大多连接到帐户的时间不到一小时。

进一步按年龄范围计算了访问持续时间，以查看成人账户与青少年账户的访问持续时间是否存在差异。下图中的 CDF 显示，犯罪分子在青少年账户上花费的时间与成人账户大致相同，但访问成人账户的时间比访问青少年账户的时间长。最后按性别计算访问时长，看看女性账户与男性账户的访问时长是否存在差异。下图中的 CDF 显示，犯罪分子在女性账户上花费的时间略多于男性账户。

访问持续时间的统计测试：为了测试访问持续时间差异的统计显着性，依靠两样本 Kolmogorov-Smirnov (KS) 检验。零假设是两个被检查的样本都长到相同的统计分布。测试的输出是 KS 统计量和 p 值。小的 KS 统计量或高 p 值表明不能拒绝原假设。首先针对所有访问持续时间测试了每种访问类型的访问持续时间，以查看可以拒绝零假设的访问类型。如下表a所示，搜索、其它和个人资料编辑访问与所有访问的分布差异最大（即可以清楚地拒绝零假设），而劫持访问差异最小（不能拒绝零假设）。接下来比较了成人和青少年的访问持续时间 (p = .92)，同样比较了女性和男性的访问持续时间 (p = .13)。在这两个检验中，原假设都不能被拒绝。

E. 人口属性的影响

为了了解帐户的年龄和性别是否会影响网络犯罪分子的行为，计算了每个年龄范围和性别的访问类型的比例。从年龄的角度来看，上图a显示犯罪分子在成人帐户中添加和删除朋友的次数比在青少年帐户中的要多得多。另一方面，他们编辑个人资料，并且在青少年帐户中比在成人帐户中更爱交谈。从性别角度来看，上图b显示女性账户比男性账户呈现更多的朋友列表修改活动。另一方面，搜索活动和个人资料编辑在男性账户中发生的次数多于女性账户；女性账户中没有记录任何个人资料编辑。

年龄和性别的统计检验：为了了解年龄和性别差异如何影响犯罪分子的活动，进行了 Fisher 精确检验以确定访问类型是否独立于人口统计属性（即年龄范围和性别）。原假设表明人口统计属性和访问类型之间没有关联。前表b 显示帐户年龄和访问类型之间确实存在显着关系，特别是在聊天和朋友修改访问中，拒绝零假设。同样，前表c 显示了帐户性别和访问类型之间的显着关系，尤其是在朋友修改、搜索者和个人资料编辑器访问中。这表明账户的人口统计属性确实会影响这些账户中犯罪分子的活动。

F. 活动序列

社交媒体上的浏览会话不包含单个操作；它通常是一系列动作。为了进一步了解犯罪分子在受感染帐户中的活动，本文研究了访问期间帐户中的操作之间的转换。通过研究这些转变，以观察男性和女性账户以及青少年和成人账户之间的差异。例如，如果犯罪分子连接到一个帐户，在照片上点击“赞”（情绪化），向另一个帐户发送私人消息（交谈），最后更改原始帐户的密码（劫持），表示该流作为 emo→cha→hij 链的有序动作。注意速记标签的使用。

将访问类型建模为状态，然后按照在账户中观察到的流程计算状态转换的概率。这导致了带有加权边的有向图。在下图中展示了它们，以分别阐明不同年龄范围和性别之间的动作转换差异。请注意，由于舍入误差，输出边的概率（权重）之和并不总是总和为 1，而是接近 1 的值。在本节中，将探索特别有趣且值得仔细研究的选定单跳转换（例如，emo→cha）。这些活动序列考虑了独特的访问。因此，它们描绘了同一攻击者在同一浏览会话期间对某个帐户执行一系列操作。为了概述他们的浏览会话，使用 cookie 跟踪他们，按时间顺序对他们的行为进行排序，并建立活动链。

年龄：如上图所示，青少年账户中存在 pro→pro (0.7)、emo→hij (0.17) 和 emo→emo (0.083) 转换，而成人账户中则不存在。另一方面，成人账户中存在 emo→fri (0.17)、emo→sea (0.17) 和 sea→emo (0.0067) 转换，但在青少年账户中不存在。在数据集中，犯罪分子仅在青少年账户中保持个人资料编辑状态，并且在青少年和成人账户中以大致相同的比率（约 0.7）保持在搜索者状态。此外，与成人帐户相比，他们在青少年帐户中更多地处于交谈状态。相反，犯罪分子在成人帐户中比在青少年帐户中更多地停留在朋友修改状态。这些发现证实并更加阐明了前文中介绍的人口统计结果。他们还表明，动作序列可能用于区分青少年和成人帐户中的攻击者活动。

性别：上图b 中第一个引人注目的观察结果是断开连接的 pro 节点；女性图上不存在到或来自 pro 状态的转换。这种性别差异通过男性帐户中保持pro状态的相对较高的访问概率（0.58）进一步突出。这表明，从性别角度来看，个人资料编辑构成了一项强有力的区分活动。男性账户中的交谈 (0.62) 比女性账户 (0.53) 更倾向于保持交谈状态，而女性账户 (0.74) 中的好友修改状态的保持比男性账户 (0.23) 更多。与从年龄范围的角度观察类似，犯罪分子在男性（0.67）和女性（0.65）账户中停留在搜索状态的比率大致相同。最后，上图仅显示男性账户中的 pro→pro (0.58)、pro→sea (0.33) 和 sea→pro (0.023) 转换；女性账户中没有她们。相反，它仅显示女性账户中的 emo→emo (0.083)、emo→fri (0.082) 和 emo→sea (0.083) 转换；它们不存在于男性账户中。

这些发现表明，行为模式在未来可能有助于区分恶意用户和良性用户。但是，该任务不在本研究工作范围内，因为无法访问合法用户的操作流程（基线流程）；大型在线服务有能力计算它们。

G. 搜索什么

搜索访问在蜜罐帐户中占很大比例（30%）。 87 个帐户中记录了各种搜索词（通过 Facebook 搜索栏输入）。为了了解犯罪分子正在搜索的内容，作为他们意图的指示，分析了 DYI 档案中的搜索日志。下表（左侧）显示了搜索日志中最常见的词。使用以下步骤（在 Python 中实现）提取和计算这些单词。首先将所有搜索词组合到一个文档中。接下来，使用 nltk.tokenize 包将文档标记为单词并删除所有英文停用词（例如，“the”）。然后使用 nltk.stem 包中的 Porter Stemmer 函数对剩余的词进行词干提取。最后计算了结果单词；下表列出了前十个词。搜索词包括与宗教相关的词，这是对无神论和宗教辩论的大量搜索的结果。搜索日志中出现的其他有趣的搜索词包括“britney spears”、“mark zuckerberg”和“bin carding”，以及对显式内容的搜索。发现攻击者并没有将他们对特定术语的搜索限制在个人账户中——他们还搜索了其他账户。

为了了解搜索词的“spread”，计算了记录热门搜索词的帐户数量。上表显示了在其日志中出现最热门搜索词的帐户数量。请注意，某些单词在个人帐户中出现多次，并且每次都被计算在内。例如，如果在特定帐户的日志中找到搜索词“debates: atheism”和“debates: atheism and religions”，会将“atheism”计算两次，将“religion”计算一次。请注意，搜索无法返回 Facebook 测试帐户中的预期内容，因为它们与常规 Facebook 图表断开了连接。上表表明，当他们的第一选择未能返回搜索结果时，搜索者会继续尝试其他帐户。

H. 交谈

交谈访问占所有记录的操作的 11%。在 45 个帐户中观察到了交谈的行为。这些包括尝试的群组通话、“waves”、私人消息以及在自己的时间线和其他时间线上的帖子。发现一些帖子警告帐户所有者有关泄露的凭据（发帖人不知道研究者故意泄露了蜜罐凭据）。没有观察到任何包含网络钓鱼或恶意软件链接的帖子； Facebook 会主动阻止此类活动或追溯隐藏之前发布的恶意内容。为了观察交谈文本语料库中排名靠前的单词，再次应用了前文概述的单词计数技术，前 10 个交谈词如上表所示（右侧）。

请注意上表中“fake”一词的存在；一些评论指出这些帐户是假的（仅在 4 个帐户内）。这表明少数犯罪分子没有上当。尽管如此仍然收集了关于他们的有用信息，至少是关于他们的身份验证操作和后续活动的信息。请注意，设计的帐户看起来很真实。因此，无论如何，本研究成功地收集了活动数据。由于在没有评论字段或其他直接反馈机制的粘贴网站上反复泄露凭据，因此除了他们发布的评论之外，那些检测到虚假账户的人不太可能向其他犯罪分子披露这一点在某些帐户中（如果愿意，可以删除）。请注意，研究者使用自动语言翻译工具 Googletrans API在处理之前将非英语文本数据翻译成英语。

I. 访问系统配置

利用 DYI 档案中可用的用户代理字符串信息，从观察到的访问中提取了浏览器和操作系统信息。广泛的浏览器和操作系统被用来访问蜜罐帐户。上表显示了这些浏览器的摘要。 Chrome 和 Firefox 在浏览器中占据主导地位，分别为 42% 和 37%。一小部分访问（不到 1%）显然是使用浏览器自动化工具 PhantomJS（https://phantomjs.org/ ）进行的。这表明某些连接可能是自动建立的。

上表显示了连接到蜜罐帐户的设备上的操作系统概述。 Windows 和 Android 占据榜首（分别为 65% 和 19%）。一小部分访问也是通过 iPhone 进行的。请注意，这些只是指标：用户代理字符串可以更改，因此不可靠。

J. 访问来源

总共观察到来自 53 个国家的 415 个 IP 地址（IPv4 和 IPv6 地址）。在这些 IP 地址中，有 39 个是 TOR 出口节点。剩余的一些 IP 地址可能是代理或 VPN 节点。为了了解访问源自的地理位置，从 DYI 档案中提取了与访问相关的所有 IP 地址。然后，使用 IP-API进行 IP 地理定位，这是一种 IP 地理定位服务，可在给定一个或多个 IP 地址的情况下提供时区和位置信息。下图显示了带有标记的世界地图，其中显示了访问来源的位置。正如地图所示，连接源自世界各地的许多地方。有趣的模式包括美洲沿岸的活动、欧洲的密集集群以及印度的活动。犯罪分子可能通过代理或 VPN 连接到某些帐户，但是没有观察到任何证实或反驳这一点的证据。

0x05 Discussion

A. 表征攻击者活动

根据结果，搜索活动、交谈活动和好友列表修改（添加或删除好友）构成了账户中观察到的前三种行为（登录除外）。鉴于 Facebook 帐户的社交性质，操纵朋友列表可能是一种将恶意活动的范围扩大到受影响帐户之外的方法。换句话说，当攻击者将新联系人添加到现有好友列表时，他们最终可能会向新联系人或现有联系人发送网络钓鱼消息或诈骗消息。

当犯罪分子连接到测试 Facebook 帐户时，他们大多写私信、公开帖子，并试图搜索信息。消息和帖子在帐户之间交换。研究者没有在其中发现任何批量垃圾邮件或恶意软件链接。然而，观察到了种族主义和辱骂内容的出现。这与先前对受感染帐户的研究报告的结果相符，该研究发现发送垃圾邮件和恶意邮件通常不是不法分子破坏电子邮件帐户的主要原因，而是最常见的活动是在这些帐户中搜索敏感信息。这对 Facebook 帐户来说更有意义，因为除了消息传递功能之外，这些帐户还具有许多其他功能。因此，正如研究结果所揭示的那样，期望采取比垃圾邮件更广泛的行动是合乎逻辑的。但是，重要的是要注意，一些攻击者可能打算在对话的后期发送恶意内容，如果目标帐户做出响应，如欺诈案例中所见。因此，在未来的实验中，将聊天机器人纳入蜜罐帐户以自动响应攻击者发送的消息可能会有所帮助。

最后，记录在测试帐户中的搜索词揭示了帐户中感兴趣的各种主题。对良性和恶意搜索活动（即合法用户与犯罪分子）进行建模可能有助于区分和减轻受感染帐户中的恶意活动。将其留给未来的工作，因为目前没有良性用户的基线搜索数据，并且需要这些基线数据来开发强大的自动缓解系统。

B. 人口因素

研究表明账户的人口统计属性（年龄范围和性别）会影响犯罪分子在被盗账户中的活动。换句话说，展示了帐户人口统计数据与犯罪分子在帐户中执行的行为之间的重要关系。同样，除了搜索活动序列外，每个年龄范围和性别的帐户的操作序列不同。这表明在构建工具以自动检测被盗社交账户中的恶意活动时，应考虑账户的人口统计属性。跨帐户人口统计数据的动作序列差异建模本身就产生了有趣的发现，并且有可能扩展到区分恶意活动和良性活动的技术（例如，通过大型在线服务）。但是，在探索这种针对恶意活动的潜在解决方案时，必须小心避免用户分析。

除了活动顺序的差异之外，还观察到攻击者执行的操作类型在帐户人口统计数据中的其他区别。例如，青少年账户的攻击者比成人账户的攻击者更爱交谈，而成人账户的攻击者比青少年账户的攻击者更有兴趣添加或删除朋友。还观察到男性和女性账户的差异，尤其是在个人资料编辑和好友列表修改活动方面。这些再次表明，账户人口统计数据在确定犯罪分子在被盗社交账户中所采取的行动方面发挥着重要作用。这些知识可能对寻求改进其检测系统的大型在线服务有所帮助。

年龄：数据集中的青少年账户比成人账户记录了更多的个人资料编辑和聊天行为。这与之前的工作表明年轻人更有可能受到在线骚扰，与之前研究表明年轻人更有可能成为网络犯罪的受害者是一致的。在数据集中，与青少年账户相比，成人账户因添加或删除朋友而遭受的损失要大得多。对此的一个可能解释是，先前的研究报告说，老年人受到网络欺诈的影响不成比例，例如约会诈骗。攻击者可能试图通过发出好友请求来接触潜在的受害者。不幸的是，由于IRB 协议不允许研究者与犯罪分子互动，无法回复任何对话并理解连接的目的。

性别：在数据集中，女性账户收到的好友请求比男性账户多（126 对 31）。一个潜在的原因是，多项研究报告称，女性更有可能受到在线骚扰。这些恶意行为的目的可能是骚扰受害者，无论是性方面还是其他方面。另一种可能的解释是，先前的研究观察到，从事约会诈骗的欺诈者经常冒充老年男性并以女性为目标。网络犯罪分子的目标可能是联系女性的账户以潜在地欺骗她们。由于 IRB 协议不允许研究者与犯罪分子互动，因此无法回复帐户收到的消息以更好地了解攻击者的意图。

在数据集中，男性账户比女性账户遇到更多的搜索活动。先前的研究表明，网络犯罪分子经常在被盗帐户中搜索敏感信息，这些信息可能使他们能够发动额外的攻击（例如，财务信息）。如果这是网络犯罪分子的意图，那么对男性账户的偏爱可以通过以前的研究来解释，该研究表明男性更有可能成为诈骗的受害者。

同时观察到攻击者修改其个人资料的男性账户实例，而女性账户没有记录任何个人资料编辑。造成这种情况的原因可能是攻击者没有找到将这些账户货币化的有利可图的方式，而是决定破坏它们。这与先前的研究一致，该研究表明，当攻击者无法找到更好的方法来利用它们时，他们会破坏在线资源（例如，在线帐户和在线文档）。

关键结论：如本研究工作所示，网络犯罪分子在属于男性、女性、成人和青少年的在线账户中以不同方式策划攻击活动。现有研究文献进一步证实了这一观察结果，这些文献表明年龄、性别和人格特征是影响网络犯罪受害的因素，如前面讨论的那样。鉴于此，缓解系统和干预措施应根据这些因素进行定制不同的群体。此外，需要将安全系统从保护实际上并不存在的“普通用户” 发展为解决用户群体基于人口统计性质的自适应缓解系统。

0x06 Conclusion

本研究提出了第一个用于监控受感染 Facebook 帐户的大型蜜罐系统。创建了 1000 多个真实的 Facebook 帐户，在其中加入了人口统计属性，并观察了其中的攻击者行为，为期六个月。结果表明，这些人口统计属性会影响帐户中攻击者的行为，并表征攻击者在被盗社交帐户中的活动。这些发现将有助于研究界更深入地了解受感染的在线帐户，从而开发更好的安全系统。