凌霄的博客

大数据

发表于2025-07-102026-02-09 Spark RDD

Spark核心概念与懒惰计算[未修订完]1. Spark核心数据结构：RDD与共享变量在深入探讨算子之前，我们必须首先理解Spark工作的基本单元：弹性分布式数据集（RDD）和共享变量。它们是构建所有Spark应用的基础。 1.1 核心抽象：弹性分布式数据集（RDD）RDD (Resilient Distributed Dataset) 是Spark最核心的抽象。可以将其理解为一个不可变的、可分区的、包含可并行计算元素的大型集合。想象一下，你有一本超大的书（你的海量数据），这本书太厚了，一个人根本读不完。于是你想了个办法：分布式（Distributed）：你把书撕成很多小册子（分片）分给一群朋友（集群中的计算机）每人读一部分数据集（Dataset）：这本”书”就是你的数据集合可以是数字、文字、用户信息等等弹性（Resilient）：突然有个朋友把咖啡洒在小册子上（机器故障）没关系！因为你记得这本书是怎么撕开的（血统）你可以重新复印那几页（重新计算）整个阅读工作不会因此停止这个就是RDD的设计特点： **弹性 (Resilient)**：R ...

大数据

未读

Spark3.x核心算子原理解析：数据流转与Shuffle机制[后面会拆分]

发表于2025-07-092026-02-09 Spark

Spark3.x核心算子原理深度剖析：数据流转与Shuffle机制一、引言：理解Spark算子的本质在Spark开发中，我们每天都在使用各种算子，但很少有人真正理解它们背后的执行原理。这篇文章从实际执行的角度，深入分析Spark3.x中几个核心算子的内部机制。文档结构概览： graph TD A[一、引言：理解Spark算子的本质] --> A1[1.1 算子分类与特性] A --> A2[1.2 算子执行的内存模型] A --> A3[1.3 数据序列化与网络传输] A --> A4[1.4 为什么理解算子原理如此重要] A --> A5[1.5 RDD懒惰计算机制深度解析] A --> A6[1.6 数据本地性原理深度解析] A --> B[二、基础算子：map、filter、flatMap] B --> B1[2.1 map算子：一对一转换] B --> B2[2.2 filter算子：条件过滤] B --> B3[2.3 ...

大数据

未读

Spark专栏整体文章大纲

发表于2025-07-082026-02-03 Spark

Spark专栏整体文章大纲专栏概述本专栏将系统性地深入解析Apache Spark的核心原理、架构设计、性能优化和实际应用。通过四个阶段的学习路径，从基础概念到高级特性，从理论原理到实战应用，让我们一起全面掌握Spark技术栈。学习路径设计第一阶段：Spark基础核心（4-5篇）1. Spark核心概念与架构设计 RDD抽象与设计哲学 RDD的核心特性：不可变性、分区、依赖关系弹性分布式数据集的设计理念 RDD的五大特性深度解析函数式编程在RDD中的应用懒惰计算机制深度解析转换操作与行动操作的区别 DAG（有向无环图）构建过程懒惰计算的优势与实现原理计算链的优化策略 Spark集群架构与组件详解 Driver、Executor、Worker的角色分工集群管理器（Standalone、YARN、Kubernetes）资源调度与任务分配机制集群部署与配置最佳实践数据本地性原理与实践数据本地性的重要性移动计算vs移动数据的策略数据本地性级别与优化网络传输成本分析 2. Spark算子原理与性能分析基础算子内部实现 map：一对一转换 ...

大数据

未读

Maven仓库工作机制详解

发表于2025-07-032026-02-09 Maven Java

Maven仓库工作机制详解📋 目录概述 Maven仓库类型依赖查找机制仓库配置方式配置方案对比实际应用场景最佳实践常见问题解答深入原理：依赖解析算法深入原理：版本冲突解决机制深入原理：仓库元数据机制深入原理：依赖传递性原理深入原理：Maven生命周期与仓库交互高级特性：仓库镜像与代理高级特性：SNAPSHOT版本机制高级特性：依赖排除与可选依赖性能优化与故障排查概述Maven作为Java生态系统中最重要的构建工具之一，其依赖管理和仓库机制是其核心功能。理解Maven仓库的工作机制对于项目构建、依赖管理以及CI/CD流程的优化至关重要。 🎯 核心概念 Maven仓库：存储项目依赖、插件和构件的存储库坐标系统：通过 groupId:artifactId:version 唯一标识构件依赖传递：自动解析和下载传递性依赖仓库优先级：多个仓库的查找顺序和优先级机制 Maven仓库类型1. 本地仓库 (Local Repository)位置：默认在用户主目录下的 .m2/repository 12345# 默认路径~/.m2/reposi ...

后端

未读

使用 Jenv 管理多版本 JDK 环境：轻松切换 Java 版本的最佳实践

发表于2025-07-012026-02-03 Java

使用 Jenv 管理多版本 JDK 环境1. 前言在现代 Java 开发中，我们经常需要在不同的项目中使用不同版本的 JDK。比如：老项目需要使用 JDK 8 新项目可能使用 JDK 11 或 JDK 17 某些特定框架对 JDK 版本有严格要求手动切换 JAVA_HOME 环境变量既繁琐又容易出错。Jenv 是一个优秀的 JDK 版本管理工具，可以让我们轻松地在不同 JDK 版本间切换。 2. 什么是 JenvJenv 是一个命令行工具，用于管理多个 Java 版本。它类似于 Node.js 的 nvm 或 Ruby 的 rbenv，可以：全局设置默认 JDK 版本为特定 shell 会话设置 JDK 版本为特定项目目录设置 JDK 版本官方 GitHub 地址：https://github.com/jenv/jenv 3. 安装 Jenv3.1 使用 Homebrew 安装1brew install jenv 3.2 配置 Shell 环境安装完成后需要配置你的 shell 环境：对于 Zsh 用户： 123echo 'export PATH= ...

安全

未读

HTTP请求链路与DNS分析技术实践：深入理解网络通信机制

发表于2025-06-292026-02-03 DNS HTTP 网络分析

HTTP请求链路与DNS分析技术实践概述在现代网络架构中，一个看似简单的HTTP请求实际上涉及复杂的网络链路和多层协议栈。本文将从技术实现角度深入分析HTTP请求的完整传输链路，重点探讨DNS解析机制，并提供实用的网络分析工具使用指南。通过实际案例和工具实践，我们将理解网络请求背后的技术细节，掌握网络问题诊断和性能分析的核心技能。 HTTP请求完整链路分析链路组成与节点职责一个HTTP请求从客户端到服务器的完整路径包含多个关键节点： 1客户端 → 本地路由器 → ISP接入网关 → ISP核心网络 → 骨干网路由器 → 目标服务器每个节点在网络通信中承担不同的职责： 1. 客户端本机发起DNS查询，获取目标IP地址建立TCP连接，进行TLS握手发送HTTP请求，处理响应 2. 本地路由器执行NAT转换，将内网IP映射到公网IP 管理本地网络流量分发记录连接状态和流量统计 3. ISP网络提供互联网接入服务执行流量路由和负载均衡可能进行流量监控和内容过滤 4. 骨干网络承载跨地区、跨国的数据传输执行复杂的路由策略提供冗余路径和故障切换 HTTP ...

网络

未读

DNS解锁技术原理、实现

发表于2025-06-272026-02-09 DNS

DNS解锁技术详解：原理、实现与应用1. 什么是DNS解锁1.1 基本概念DNS解锁是一种网络技术，通过DNS智能解析 + 代理转发的组合方式，帮助用户访问受地理位置限制的内容。关键误区澄清： “DNS解锁”这个名称具有误导性核心技术不是DNS解析，而是代理转发 DNS只是触发代理的入口点 1.2 工作原理概述 sequenceDiagram participant User as "用户（中国IP: 1.2.3.4）" participant DNS as "DNS解锁服务" participant Proxy as "海外代理服务器（美国IP: 5.6.7.8）" participant Netflix as "Netflix服务器" User->>DNS: 1. 查询 netflix.com DNS->>User: 2. 返回代理服务器IP（5.6.7.8） Note over User,Proxy: 用户 ...

大数据

未读

程序化广告数据处理与投放技术架构与业务模式

发表于2025-06-272026-02-09 Spark

程序化广告数据处理与投放业务模式与技术架构目录第一章：程序化广告概述第二章：核心概念与角色第三章：业务流程详解第四章：数据处理架构第五章：技术架构设计第六章：性能优化策略第七章：实际应用案例第八章：总结与业务价值第一章：程序化广告概述程序化广告（Programmatic Advertising）是一种利用软件和算法自动化购买和投放广告的技术。它通过实时竞价（RTB）、数据驱动决策和机器学习算法，实现广告投放的精准化、自动化和规模化。 1.1 为什么需要程序化广告？传统广告投放的痛点：效率低下：需要人工洽谈、签约、排期，周期长达数天甚至数周精准度差：只能基于媒体整体用户画像，无法做到个性化投放透明度低：广告主无法实时了解投放效果和资金使用情况规模受限：人工操作难以管理大量媒体资源和广告位程序化广告的解决方案：毫秒级决策：从广告请求到展示决策在100ms内完成个性化定向：基于用户实时行为和画像进行精准投放实时透明：投放数据、效果指标、预算消耗实时可见规模化管理：单个平台可管理数万个广告计划和数千万用户 1.2 核心价值与业务影响1. 精准投放： ...

大数据

未读

机密计算环境实施：从硬件选型到应用部署

发表于2025-06-262026-02-03 Linux Java

机密计算环境实施：从硬件选型到应用部署在上一篇文章中，我们探讨了多种机密计算环境方案的”是什么”。本文将作为其姊妹篇，深入探讨”怎么做”——即如何动手实施这些方案。我们将逐一分析SGX、TDX、CSV、异构计算和Enclave计算这五种环境的实施条件（软硬件要求）和详细步骤。需要明确的是，不同方案的实施复杂度差异巨大。基于IaaS的方案（如直接使用SGX/TDX实例）赋予用户最大控制权，但也要求用户处理更多底层细节；而PaaS化的方案（如Enclave计算服务）则抽象了底层复杂性，让开发者更专注于业务逻辑。其次由于我没有可支持机密计算的硬件设备去做尝试和测试，本文所有的计算环境实施步骤和环节都暂无实际论证，仅做参考了解。一. SGX机密计算环境实施此方案为应用提供细粒度的Enclave级保护，但对开发者的技术要求最高。 1. 实施条件硬件要求 CPU: 必须是支持Intel SGX指令集的CPU。支持系列: Intel 第6代至第10代酷睿处理器、至强E3/E系列、第三代至强可扩展处理器（Ice Lake-SP）等。注意: Intel已在第11代及更新的客 ...

大数据

未读

HDFS技术详解：架构、存储与数据安全机制

发表于2025-06-252026-02-09 HDFS

XR