Tech Blog

Posts

Showing posts from July, 2025

网络诊断三剑客：`ping`、`curl` 和 `ss`

- July 24, 2025

“我明明把网站部署到服务器上了，为什么浏览器里就是打不开？” 这是一个足以让任何开发者（尤其是新手）抓狂的时刻。你面对着一个黑色的终端窗口和毫无反应的浏览器，感觉自己仿佛置身于信息孤岛。网络问题，因其看不见、摸不着，常常让人束手无策。但别担心！在Linux的世界里，我们有三位强大的“剑客”，它们能帮你拨开网络的迷雾，一步步定位问题的根源。它们就是： ping 、 curl 和 ss 。掌握了它们，你就掌握了网络诊断的基本功。第一位剑客 ping ：网络通不通，问它就知道 ping 是最基础的网络诊断工具，它的作用只有一个：检查你的电脑和目标服务器之间的网络线路是否通畅。你可以把它想象成声纳探测。你的电脑向服务器发送一个小小的“探测信号”（一个数据包），然后等待服务器的回应。如果收到了回应，就说明线路是通的。如何使用？打开终端，输入： $ ping google.com PING google.com (142.250.199.14) 56(84) bytes of data. 64 bytes from lga34s35-in-f14.1e100.net (142.250.199.14): icmp_seq =1 ttl =112 time =15.8 ms 64 bytes from lga34s35-in-f14.1e100.net (142.250.199.14): icmp_seq =2 ttl =112 time =16.1 ms --- google.com ping statistics --- 2 packets transmitted, 2 received, 0% packet loss, time 1001ms rtt min/avg/max/mdev = 15.823/15.962/16.101/0.139 ms 你需要关注两个关键信息： time=15.8 ms : 这是延迟（latency），即信号往返所需的时间。时间越短，网络速度越快。 0% packet loss : 这是丢包率。如果是0%，说明网络连接很稳定。如果这个数字很高，说明网络质量很差。问题定位：如果你 ping 一个地址，却长时间没有收到回应，或者提示 Destination Host Unreachab...

解密Linux文件权限：读懂 rwx 和 chmod

- July 24, 2025

欢迎来到Linux的世界！如果你刚刚踏上这段旅程，那么你一定很快就会遇到那个令人困惑又无处不在的提示： Permission denied (权限被拒绝)。为什么我不能编辑这个文件？为什么我无法运行这个脚本？这些问题的答案，都指向了Linux系统一个强大且核心的概念—— 文件权限。理解文件权限，是从Linux新手到高手的必经之路。它不仅是解决“权限被拒绝”问题的钥匙，更是保护你系统安全的第一道防线。这篇教程将用最通俗易懂的方式，带你彻底搞懂Linux的权限机制。第一步：如何查看文件权限？让我们从 ls -l 这个命令开始，它是我们观察文件权限的窗口。当你在终端里输入它，会看到类似下面的输出： $ ls - l -rwxr-xr-- 1 arch arch 4096 Jul 24 10:30 my_script. sh drwxr-xr-x 2 arch arch 4096 Jul 24 10:32 my_directory 我们关注的是每一行开头的那串神秘代码，比如 -rwxr-xr-- 。这10个字符就是文件权限的全部信息，我们可以把它分成四个部分来解读： [文件类型] [所有者权限] [所属组权限] [其他人权限] 文件类型 (第1个字符) - : 代表这是一个普通文件 (file)。 d : 代表这是一个目录 (directory)。 l : 代表这是一个链接 (link)。所有者权限 (第2-4个字符) : rwx - 文件拥有者的权限。所属组权限 (第5-7个字符) : r-x - 与文件拥有者同组的用户的权限。其他人权限 (第8-10个字符) : r-- - 系统上其他所有用户的权限。 r , w , x 的真正含义 “读、写、执行”这三个权限，对于文件和目录的意义是不同的，理解这一点至关重要。权限对文件的意义对目录的意义 r (Read) 可以读取文件的内容可以列出目录下的文件和子目录列表 (使用 ls ) w (Write) 可以修改文件的内容可以在目录中创建、删除、重命名文件 x (Execute) 可以将文件作为程序来执行可以进入 (cd) 这个目录特别注意：对于目录来说， x 权限...

Linux进程管理入门：`ps`、`kill` 和 `&` 的艺术

- July 24, 2025

你是否遇到过这样的情况：一个应用程序突然失去响应，点击关闭按钮也无济于事？或者，当你在服务器上运行一个耗时很长的命令时，整个终端都被它占据，无法进行其他操作？这些问题的背后，都指向了Linux系统的一个核心概念—— 进程 (Process) 。理解并掌握进程管理，是每个Linux用户的必备技能。它能让你看清系统后台正在发生什么，优雅地处理“僵死”的程序，并高效地利用你的终端。这篇教程将带你认识Linux进程管理的“三剑客”： ps 、 kill 和 & 。什么是进程？想象一下，你有一本菜谱（一个程序，比如VS Code的代码文件），当你开始照着菜谱做菜时（运行程序），这个“正在进行中的烹饪活动”就是一个进程。简单来说：程序 (Program) 是静态的，它是一组指令的集合，静静地躺在你的硬盘上。进程 (Process) 是动态的，它是程序被加载到内存中并开始执行的一个实例。你可以同时打开三个VS Code窗口，这意味着你运行了同一个程序的三个不同进程。每个进程都有一个独一无二的身份标识，叫做进程ID (Process ID) ，简称 PID 。进程的侦察兵： ps ps (process status) 命令是我们的眼睛，它能让我们看到当前系统上正在运行的进程。虽然它有很多参数，但你只需要记住一个最常用的组合就足够了： ps aux 。 $ ps aux USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND root 1 0.0 0.1 168068 11368 ? Ss Jul23 0:02 /sbin/init arch 1234 0.5 2.1 236588 85420 ? Sl 10:30 0:35 /usr/lib/firefox/firefox arch 1567 0.0 0.0 12345 6789 pts/0 S+ 11:00 0:01 python my_script.py 让我们来解读一下关键的几列： USER : 运行这个进程的用户是谁。 PID : ...

Python爬虫入门：10分钟抓取豆瓣读书标题

- July 24, 2025

你是否曾想过, 如何用代码自动从网站上获取信息？这就是网络爬虫的魔力！作为一名程序员, 掌握爬虫技术能让你轻松获取海量数据, 无论是进行市场分析, 还是构建个人项目, 都大有裨益. 本篇教程将作为你Python爬虫学习的起点. 我将通过一个非常简单的实例, 带你用不到20行代码, 从零开始编写一个真正的网络爬虫, 抓取豆瓣读书首页的标题. 准备好了吗？让我们开始吧！准备工作: 安装必要的库在开始之前, 我们需要安装两个Python爬虫的利器： requests : 它能帮你像浏览器一样访问网页. BeautifulSoup : 它能帮你从网页的HTML代码中轻松提取出你想要的数据. 打开你的终端 (命令行工具), 输入以下命令来安装它们: pip install requests pip install beautifulsoup4 核心代码: 抓取豆瓣读书标题下面是我们的全部代码. 你可以先将它完整地复制到一个名为 douban_title_scraper.py 的文件中, 然后我会逐行解释它的作用. # 爬虫入门：抓取豆瓣读书首页标题 # 1. 导入需要的库 # requests: 负责发送网络请求，从网站获取HTML源代码，就像你的浏览器一样。 import requests # BeautifulSoup: 负责解析HTML代码，让我们能方便地提取出需要的数据。 from bs4 import BeautifulSoup # 2. 定义要抓取的目标URL # 我们把要访问的网址存储在一个变量里，方便管理。 url = 'https://book.douban.com/' # 3. 设置请求头 (Headers) # 网站为了防止被恶意爬虫攻击，会检查访问者的身份。 # User-Agent是请求头的一部分，它告诉网站我们是什么样的浏览器。 # 模仿成一个真实的浏览器，可以提高抓取成功的概率。 headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari...

从零到一：构建你自己的Python爬虫框架（含代理池+异常重试）

- July 17, 2025

前言：我们为什么要“造轮子”？ Python的世界里已经有了像Scrapy这样成熟且强大的爬虫框架。那么，为什么我们还要费心去构建自己的框架呢？答案是：为了深入理解爬虫的本质。通过亲手构建一个迷你框架，你将不再仅仅是API的调用者，而是架构的思考者。你将清晰地看到一个URL请求如何流转、数据如何被解析、异常如何被处理。这个过程将极大地提升你的编程内功和系统设计能力。一、框架架构设计（The Big Picture）我们的框架将由五个核心组件构成，它们协同工作，完成数据的抓取、解析和存储。引擎 (Engine): 控制中心，负责驱动所有组件，控制数据流。调度器 (Scheduler): 一个队列，负责管理所有待抓取的请求(Request)。下载器 (Downloader): 根据引擎的指令，执行网络请求，返回响应(Response)。我们将在这里集成代理和重试逻辑。爬虫 (Spider): 用户编写的业务逻辑，定义如何从特定网站提取数据(Item)和发现新的URL。管道 (Pipeline): 负责处理爬虫提取出的数据，例如存入数据库或写入文件。二、代码实现：一步步构建步骤 1: 定义数据容器 (Request & Item) 我们使用 dataclass 来创建清晰的数据结构。 # objects.py from dataclasses import dataclass, field from typing import Callable @dataclass class Request: url : str callback: Callable # 解析函数 retry_times: int = 3 # 默认重试次数 @ dataclass class Item: data : dict = field ( default_factory = dict ) 步骤 2: 调度器 (Scheduler) 一个简单的先进先出(FIFO)队列即可。 # scheduler.py from collections import deque class Scheduler : def __ini...

2025 最新反爬机制大全：如何用 Python 成功突破网站限制

- July 17, 2025

前言：当传统爬虫撞上“现代”高墙在2025年，如果你还在依赖简单的更换User-Agent和IP地址，你可能会发现互联网上90%的网站都对你紧闭大门。现代反爬技术已经从服务器端进化到了用户端，变成了一场浏览器环境、用户行为和JavaScript逻辑的全方位“战争”。本文将带你深入剖析当前最顶尖的几大反爬机制，并提供与之对抗的Python实战策略。一、前端“天书”：JS混淆、加密与代码保护机制分析: 现代网站的前端代码（尤其是使用Webpack/Vite构建的项目）在上線前，会经过一系列处理，形成对爬虫工程师极不友好的“天书”。 JS混淆 (Obfuscation): 变量名被替换成无意义的字符（如 _0xabc ），正常的代码逻辑被拆分成复杂的、难以理解的控制流（控制流平坦化）。核心参数加密: 像API请求签名 signature 、时间戳 timestamp 、认证 token 等关键参数，不再是明文生成，而是由一段高度混淆的JS代码在浏览器中动态计算生成的。破解策略: 动态调试是王道: 放弃静态阅读混淆代码。使用Chrome开发者工具，在“网络(Network)”面板中找到目标API请求，然后在“发起程序(Initiator)”调用栈中，逐层向上设置断点。通过单步调试，观察加密参数在哪个环节、由哪些变量生成。模拟执行JS代码: 一旦你定位到核心的加密函数（可能只有几十行），没必要用Python去复现其复杂的逻辑。最佳实践是：将这段JS代码抠出来。使用 PyExecJS 或 PyMiniRacer 库，在Python中直接调用这个JS函数，传入必要的参数，获得加密结果。 import execjs # 假设你已经从浏览器扒出了加密函数 js_code = """ function getSignature(param1, param2) { // ... 一段极其复杂的加密逻辑 ... return encrypted_string; } """ ctx = execjs. compile (js_code) signature = ctx.call( "getSignature" , "value1" , ...