最顶  

掌握 Twitter (X) 搜索:2024 年的顶级工具和实践

截至 2023 年,该网站拥有 6.66 亿活跃用户。 Twitter 或新品牌 XTwitter 是最流行的社交媒体平台之一,也是企业、研究人员和个人的重要信息来源。然而,在浩如烟海的 Twitter 数据中手动提取和筛选数据,既费时又费力。 

推特抓取器

Twitter 搜索包括使用软件或脚本从平台上收集数据。 通过分析这些数据,您可以深入了解流行话题和标签、对话、平台上发生的互动以及用户行为。

收集到的信息可以进行细致分析,用于情感分析、市场研究和社交媒体监测等各种目的。本文将深入探讨 刮削 使用现有方法获取 Twitter 数据(从脚本到无代码软件)、相关成本以及合法性和道德条款。

目录

可以从 Twitter 提取哪些类型的数据?

您可以提取不同类型的 Twitter 数据。以下是用于 Twitter 搜刮的三种主要数据类型:

  • 微博 您可以根据配置文件从过滤后的推文中捕获特定数据,如点赞、回复、转发和指定 URL。
  • 用户配置文件: 公开用户配置文件中的任何内容都可以收集,例如用户的简介、配置文件描述、推文数量、转发、关注者/追随者数量以及配置文件图像。
  • 关键词/标签: 您可以收集包含特定关键词、标签或其组合的推文。还可以通过点赞数或查找特定日期和时间来缩小搜索范围。

使用条款的合法性和道德性

在涉足数据挖掘领域时,必须了解其中涉及的法律和道德界限。

根据 推特条款和规定 (开发者协议和政策)的规定,未经明确许可的刮擦数据行为是 Twitter 政策所禁止的:"未经 Twitter 事先同意,明确禁止刮擦服务。

任何出于上述目的滥用 Twitter API 的行为都将受到执法处理,包括暂停和终止访问。

搜索 Twitter 的一般指南

在简要介绍了 Twitter 搜刮之后,是时候探索通过 Twitter 数据进行搜刮的过程了。因此,我们为您编制了一份简单而全面的 Twitter 搜索指南。请按照以下步骤操作:

  1. 首先,你需要有合适的刮削工具。有很多选择可供选择。因此,要确定哪种选择适合您的预算和喜好。
  2. 下载并在系统中安装刮擦工具。
  3. 确保设备有足够的存储空间,并有可靠的网络连接。
  4. 安装后,使用 Twitter 帐户的详细信息登录。
  5. 调整从 Twitter 搜刮数据的参数是一个重要步骤,可以根据关键字、标签、日期和时间、位置、URL 等提取数据。
  6. 执行刮板工具后,会留下大量数据。您可以将数据导出为不同的文件格式(xlsx、CSV、JSON 等)。
  7. 最后一步,您应该分析导出的数据,以便深入了解您感兴趣的主题。

Twitter 搜索工具和方法

我们查看了互联网上一些可用的搜索工具,包括官方 Twitter 搜索工具、第三方服务甚至开源 Python 库,并将它们列出如下。

4.1.基于 API 的 Twitter 抓取工具

我们要了解的第一种方法是基于 API 的 Twitter scrapers,其中包括 Twitter API V2、Apify、Brightdata 和 Scrapingdog。

4.1.1. 推特应用程序接口 V2

Twitter API v2 是 Twitter API 的最新版本,它是官方提供的 API,也是开发人员构建社交互动应用程序或研究人员/个人出于特定目的收集数据时最常用的 API 之一。使用新的 API 可以毫不费力地监控和分析社交网络上的实时对话。

最近,Twitter 增加了一些新功能,如端点、推文帖子的有效载荷选项、对话标识符集和注释。这些变化令人印象深刻。然而,新的定价结构却让开发者和第三方应用程序深感忧虑。在新的定价结构下,服务访问量急剧下降,价格却大幅上涨。

Twitter/X API v2 定价计划分为三个级别:免费、基本和企业。

  • 在免费层中,开发者最多可以发布 每月 1500 条推文旨在仅用于写入和测试 Twitter API。
  • 基本级费用 每月 $100,允许开发人员每月发布多达 3,000 条推文 在用户层面和 50,000 条推文(阅读上限为 10,000 条) 在应用程序层面。
  • 企业版包含更多专为企业设计的高级功能。不过,企业计划将向开发人员/企业收取高昂的费用,即 每月近 42000$.

4.1.2. Apify

通过 Apify 的 Twitter Scraper,您可以从公开的 Twitter 数据中提取信息,如标签、主题、回复、图片等。Twitter 最近的变化对在该平台上查看和搜刮推文设置了新的限制,因为用户在每个配置文件中最多只能提取 100 条推文的公开信息。该搜刮工具不能搜刮最新的推文,但可以检索最受用户喜欢的推文。提取的数据可以 HTML、JSON、Excel 和 CSV 格式访问。

下图说明了 Apify 的每月服务费用。它还为年度计划提供 10% 折扣。更多信息,请访问 Apify 定价.

Apify
照片由 Apify 提供

4.1.3. Brightdata

Brightdata
图片来源:Brightdata

Bright Data 是一个数据收集平台,提供代理服务器、API 和无代码解决方案等网络刮擦工具。Bright Data 的 Web Scraper 使用户能够从公开 Twitter 资料中提取数据,包括图片、视频、推文、标签等。

价格从每月 500$ 开始,页面加载次数为 151000 次.Bright Data Twitter scraper 数据收集器兼容所有网络服务,并能以 Excel 格式输出数据。它还提供为期 7 天的试用版,您可以在支付 500 美元之前对平台进行测试。

准备好让你的 Twitter 搜刮器更上一层楼了吗?
尝试使用 IPv6 代理进行高级匿名刮擦。

4.1.4. Scrapingdog

Scrapingdog 是一个网络搜刮 API,可帮助你搜刮包括 Twitter 在内的任何网站。它允许你使用推文 ID 搜刮推文,或搜刮公共页面以提取关注者数量、关注者人数和网站链接等详细信息。

搜索 Twitter 每个页面的成本为 0.0009$ 在标准计划中,与其他顶级 Twitter 搜刮工具相比,它的性价比最高。他们还提供免费试用;你可以随时取消订阅并轻松退款。有关如何使用 Scrapingdog 搜刮数据的更多信息,请访问 Twitter Scraping API 文档.

ScrapingDog
图片来源:ScrapingDog

4.2.用于搜索 Twitter 的 Python 库和软件包

现在,您已经熟悉了 Twitter API 和 Apify 等应用程序,是时候看看用于 Twitter 搜索的 Python 库和软件包了。

4.2.1. Tweepy

Tweepy
照片制作:Tweepy

Tweepy 是一个开源 Python 软件包,允许开发人员流畅、透明地访问 Twitter 端点。不过,你应该知道,Twitter 已对发送到 X/Twitter API 的请求数量施加了限制。 每 15 分钟允许 900 次请求.在本节中,我们将介绍 Tweepy 的功能,并给出一个简单的示例。 

首先,在 Python IDE 上使用 "pip install Tweepy "命令安装 Tweepy 软件包,然后导入 Tweepy。下一步是向 Twitter 注册客户端应用程序。创建一个新的应用程序。完成后,您将收到一个不记名令牌。

接下来,您必须创建一个 "客户端 "实例,以传递从 Twitter API 获取的消费者承载令牌。

在查询变量中,我们指定了一个字段、一个提及和一个标签,如图所示。

要搜索过去七天的推文,可以使用 Tweepy 提供的 search_recent_tweets 功能。要指定所要查找的数据,您需要传递一个搜索查询。

如果您可以访问学术研究产品跟踪,则可以检索 7 天前的推文。从完整的公开推文档案中获取。

您可以使用以下代码导出结果。

Tweepy 中还有很多函数,能够在更复杂、更特殊的情况下执行各种任务。

4.2.2. Snscrape

另一种不依赖 API 从 Twitter 获取信息的方法是通过 Snscrape。它允许你检索用户资料、推文内容、来源等基本信息。与 Tweepy 不同的是,Snscrape 对可抓取的推文数量或日期没有限制,而且还可以提取 Twitter 的旧数据。由于 Snscrape 没有连接到 Twitter API,因此它缺乏 Tweepy 级别的功能。

在本节中,我们还将回顾一个使用 Python 中的 Snscrape 从 Twitter 搜刮数据的基本示例。

首先,您应该安装 Snscrape。请注意,您必须安装 Python 3.8 或更高版本才能使用它。

下一步,安装以下库。

我们使用 "TwitterSearchScraper(query).get_items "函数发送查询(本例中为 "query"),然后从搜索中获取元素,就像从 Twitter 搜索栏中获取结果一样。

还有其他方法可用于从 Twitter 搜刮数据,例如TwitterSearchScraper、TwitterUserScraper、TwitterProfileScraper、TwitterHashtagScraper、TwitterTweetScraperMode、TwitterTweetScraper、TwitterListPostsScraper、TwitterTrendsScraper。

结论

Twitter 是全网社会学信息的重要来源。通过利用从 Twitter 搜刮到的信息,您可以量身定制计划,促进销售并改进营销策略。在本文中,我们深入概述了 Twitter 搜刮的不同方面和方法,以提取对企业或研究有价值的数据。

总之,鉴于 Twitter API v2 的新限制以及高昂的成本,选择最佳刮板将是一项挑战。你可以从 Twitter API 或直接连接到 Twitter API 的第三方应用程序和 Python 库(Tweepy)的更高级功能中获益。但是,您可以提出的请求数量受到严格限制。另一方面,如果您想抓取公开数据,而基本功能又能满足您的需求,那么 Snscrape Python 库等选项将是一个不错的选择。

准备好让你的 Twitter 搜刮器更上一层楼了吗?
尝试使用 IPv6 代理进行高级匿名刮擦。

免责声明: 免责声明:本材料仅供参考。它并不构成对任何活动(包括非法活动)、产品或服务的认可。在使用我们的服务或依赖此处的任何信息时,您全权负责遵守适用的法律,包括知识产权法。对于因以任何方式使用我们的服务或此处包含的信息而造成的损害,我们不承担任何责任,除非法律明确要求。

关于作者 Farhad Pashaei

Farhad Pashaei 的头像

十多年来,法哈德一直在撰写各种主题的操作指南,包括网络安全、计算机网络、操作系统等。作为一个技术发烧友,他还喜欢亲身体验各种电子设备,包括智能手机、笔记本电脑、配件、可穿戴设备、打印机等。当他不写作的时候,你可以打赌他一定在吞云吐雾地了解市场上的产品信息,这充分体现了他对技术的无限渴求。

加入 40K+ 新闻通讯订阅者行列

定期获取有关 Seedbox 使用案例、技术指南、代理服务器以及 隐私/安全提示。

把你的想法说出来

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注