研究

2026-04-09 组会-基于持续高态时长的编码对齐实验分析

2026-04-09-组会:基于持续高态时长的编码对齐实验分析

1. 实验目标

本实验的目标是在 A 端主动调制发送速率的条件下,从 B 端观测到的大量网络流量中恢复出对应的编码信息,并验证该编码是否能够稳定、准确地被识别。

本报告采用当前框架的新口径进行分析,即:

  • 先完成 A/B 两端时间对齐;
  • 再在 B 端原始速率采样中统计持续高于阈值的总时长;
  • 用该总时长除以 A 端对应码字的单个 1 槽位时长;
  • 最后四舍五入,反推出该码字中包含的 1 的数量。

在本口径下,编码恢复的核心对象不再是“逐窗口 bit 判决”,而是“每个码字中 1 的数量恢复”。

2. 当前框架的对齐与容错逻辑

2.1 A 端编码定义

A 端控制日志中,最低 adv_kbps 档位记为 0,高于最低档位的控制窗口记为 1。将这些窗口按时间顺序拼接后,以 0 为分隔符,即可得到一系列码字。例如:

  • 01101111 会被切分为两个码字:111111

因此,A 端不仅给出了发送时序,也给出了每个码字真实包含多少个 1

2.2 时间对齐逻辑

框架首先使用 A 端 symbol window 与 B 端出口速率序列进行时延扫描,在候选时延范围内搜索最佳 lag,使得高态窗口与低态窗口在 B 端的统计量分离度最大。

本次实验中:

  • 最佳时延 best_lag_ms = 1300 ms
  • 窗口覆盖率 window_coverage_rate = 1.000
  • 高低态分离度 separation_score = 1.243

这说明:

  • A 端发送控制与 B 端观测速率之间存在稳定的传播时延;
  • 所有 A 端窗口都能在 B 端找到有效对应观测;
  • 高态与低态在 B 端统计上具有可分性,适合作为后续编码恢复的基础。

2.3 阈值选择逻辑

在完成时间对齐之后,框架并不直接使用固定阈值,而是对所有可能的单阈值进行搜索,选择最适合当前实验数据的阈值作为高态判定阈值。

本次实验中:

  • 基线阈值 baseline_threshold_kbps = 1062.792 kbps
  • 最终选中阈值 classification_threshold_kbps = 960.971 kbps
  • 阈值选择策略 code_f1_scan_v1

该步骤的作用是尽可能使 B 端高态区间与真实编码结构相匹配,从而降低后续码字计数误差。

2.4 新口径下的码字恢复逻辑

在新口径下,框架不再依赖逐窗口数 1,而是对每个 A 端码字单独构造一个 B 端对齐观察窗口,并执行如下流程:

  1. 对每个 A 端码字,计算其在 A 端的真实持续时间与 1 的个数。
  2. 用“码字总高态持续时间 / 1 个数”得到该码字的单个 1 槽位时长 a_slot_ms
  3. 将该码字整体平移到 B 端时间轴。
  4. 在 B 端原始采样中统计该码字范围内持续高于阈值的时间。
  5. 为增强容错能力,先把不超过 400 ms 的短回落视为抖动并合并。
  6. 将合并后的总高态时长 b_high_total_ms 除以 a_slot_ms
  7. 对结果进行四舍五入,得到该码字在 B 端恢复出的 1 的数量。

例如,当一个 A 端码字为 11,其单个 1 槽位时长约为 2000 ms,若 B 端统计到的高态总时长约为 3800 ms,则:

  • 3800 / 2000 = 1.9
  • 四舍五入后得到 2
  • 因而该码字恢复为 11

2.5 容错机制

新口径的容错能力主要来自以下四点:

  1. 时间对齐容错
    通过 lag 扫描自动补偿 A/B 之间的固定传播延迟,避免因整体时间偏移导致码字窗口错位。

  2. 阈值自适应容错
    阈值不固定,而是根据当前实验数据反向搜索得到,降低了不同实验条件下阈值失配带来的误判。

  3. 短间隙合并容错
    B 端高态区间之间若只出现不超过 400 ms 的短回落,则视为同一高态过程中的抖动,不将其错误切分为多个独立片段。

  4. 基于持续时间而非单点判决的容错
    该方法关注“一个码字在 B 端持续了多久”,而不是每个局部窗口是否都恰好被判成 1。因此,即使局部采样存在短时起伏,只要总体持续时间保持稳定,仍可恢复出正确的 1 数量。

3. 实验结果

3.1 实验基本信息

本次分析实验编号为:

  • E20260408_002

时间范围为:

  • 首个符号时间:2026-04-08 09:06:48 -0400
  • 最后一个符号时间:2026-04-08 09:55:06 -0400

3.2 码字恢复结果

在新口径下,本次实验的核心恢复结果为:

  • A 端真实码字总数:532
  • B 端精确恢复正确的码字数:482
  • 码字精确匹配率:0.906
  • 平均码字计数绝对误差:0.096
  • 高估码字数:12
  • 低估码字数:38
  • 完全未恢复出高态的码字数:21

这表明:

  • 超过 90% 的码字被完整恢复正确;
  • 平均每个码字在 1 数量上的偏差不到 0.1
  • 大多数误差不是严重错码,而是少量码字发生了 +1-1 的数量偏差。

3.3 结果含义解释

本次结果说明,B 端观测到的编码信息主要体现在高态持续时间上,而不是逐个局部窗口的二值形态上。也就是说:

  • 旧方法容易受到局部窗口判决波动影响;
  • 新方法直接统计高态持续了多长时间,因此更贴近这类编码的物理表现;
  • 只要持续时间整体稳定,就能较准确地恢复出该码字中有多少个 1

从样例可见:

  • 对于单个 1 的码字,B 端统计到 2200 ms3000 ms 左右的高态时间时,仍可稳定恢复为 1
  • 对于 11111 等较长码字,B 端恢复的持续时间与 A 端槽位长度具有较好的线性关系;
  • 错误主要出现在部分码字边界附近,其中少数码字被高估或低估一个 1,但整体比例较低。

综上,新口径已能够较可靠地恢复本次实验中的编码结构。

4. 如何在大量流量中找出对应流量

在真实场景中,B 端通常不只有一条流量,而是同时存在大量背景流。为了在大量流量中找到真正承载编码的目标流量,当前框架应采用“分层筛选 + 对齐验证 + 编码验证”的方法。

4.1 第一步:候选流预筛选

首先从全部流量中筛出候选流,减少无关流量数量。可采用以下条件:

  • 时间范围与 A 端发送时间存在重叠;
  • 流量具有连续可观测的速率采样;
  • 在 A 端发送期间,流量的吞吐存在明显波动而非完全平稳;
  • 流量持续时间足够长,能够覆盖多个码字周期。

这一阶段的目标不是直接识别编码,而是剔除明显不可能承载编码的背景流。

4.2 第二步:逐流执行对齐扫描

对每一条候选流,分别运行当前对齐框架,计算:

  • best_lag_ms
  • window_coverage_rate
  • separation_score

只有满足以下条件的流量,才进入下一步:

  • 覆盖率高;
  • 最佳时延存在明显峰值;
  • 高态与低态在该流上可分。

如果某条流在 lag 扫描中无法形成稳定的最优时延,说明它与 A 端控制序列在时间上并不同步,应被排除。

4.3 第三步:执行 duration-based 码字恢复

对通过第二步筛选的候选流,使用本报告中的新口径恢复码字,并计算:

  • duration_code_exact_match_count
  • duration_code_exact_match_rate
  • duration_code_mean_abs_error
  • duration_code_overestimate_count
  • duration_code_underestimate_count

真正对应的目标流应表现为:

  • 精确匹配码字数明显更高;
  • 精确匹配率明显高于其他候选流;
  • 平均绝对误差明显更低;
  • 恢复出的码字长度分布与 A 端真实分布相近。

4.4 第四步:做唯一性确认

为了提高“在一大堆流量中找出对应流量”的可信度,应使用多指标联合排序,而不是只看单一分数。推荐排序优先级为:

  1. duration_code_exact_match_rate
  2. duration_code_exact_match_count
  3. duration_code_mean_abs_error(越小越好)
  4. separation_score
  5. window_coverage_rate

若某一条流在这些指标上同时显著优于其他流量,则可以把它判为目标流量。

4.5 如何进一步降低误识别风险

为了在海量背景流中进一步提高唯一性,建议配合以下措施:

  1. 使用已知前导码或同步序列
    在正式编码前加入固定前导码,可以显著提高目标流在全体候选流中的可识别性。

  2. 增大不同码字之间的时间结构差异
    若所有码字都很短且彼此相似,背景流更容易偶然拟合;增加码字长度差异有助于区分。

  3. 增加实验重复次数
    对同一候选流重复多次恢复,如果其 best_lag_ms、阈值和码字恢复结果都稳定,则可信度更高。

  4. 联合使用时延一致性和码字一致性
    只有同时满足“时延对齐合理”和“duration-based 恢复准确”的流量,才应被视为真正目标流。

需要强调的是,在复杂网络环境中很难用单一指标做“绝对保证”。当前框架的可靠性来自多层证据一致:

  • 时间上能够对齐;
  • 统计上能够分离;
  • 编码上能够恢复;
  • 结果上能够唯一优于其他候选流。

只要这四层证据同时成立,就能在大量流量中较高置信度地定位出对应流量。

5. 结论

本次实验表明,基于持续高态时长的编码恢复方法能够有效恢复 A 端发送的码字结构。

在实验 E20260408_002 中:

  • 框架成功找到稳定时延 1300 ms
  • 自适应阈值为 960.971 kbps
  • 共恢复 532 个真实码字中的 482
  • 码字精确匹配率达到 90.6%
  • 平均码字计数绝对误差仅为 0.096

说明该方法已经能够较准确地从 B 端速率观测中重建编码信息。

从方法上看,本框架的优势在于:

  • 通过时间对齐解决 A/B 端传播时延问题;
  • 通过阈值搜索适应不同实验中的流量幅度变化;
  • 通过短间隙合并提高对抖动的容忍度;
  • 通过持续时间计数提高对码字数量恢复的准确性。

因此,在后续工作中,应将该 duration-based 口径作为识别目标流量和评估编码恢复质量的主要分析方法。