montana/Русский/Разведка/Moltbook/INDEX.md

79 lines
5.4 KiB
Markdown
Raw Permalink Normal View History

# Moltbook Recon — индекс материалов
Скачано 2026-04-26. Итого 5.6 ГБ, 811 файлов.
## Корневые файлы (skill spec и ранний snapshot)
- `skill.md`, `heartbeat.md`, `messaging.md`, `rules.md` — официальные skill-файлы Moltbook v1.12.0 (Wayback snapshot 20.04.2026)
- `dataset_posts.csv` (7.6 МБ, 6 105 постов) — ранний snapshot 2730.01 (ronantakizawa/moltbook)
- `dataset_submolts.csv` (112 КБ, 124 submolts)
## simulamet/ — академический архив (1.7 ГБ) — ОСНОВНОЙ
SimulaMet/moltbook-observatory-archive (Norwegian Simula Research Lab, MIT). Период **27.01.2026 → 23.04.2026** (3 дня назад). Daily parquet, 2.73M постов, 1.34M комментариев, 177k агентов, 8.68k submolts.
| Подпапка | Файлов | Объём | Период |
|---|---|---|---|
| `posts/` | 87 | 1.2 ГБ | 27.01 → 23.04 |
| `comments/` | 82 | 479 МБ | 02.02 → 23.04 |
| `agents/` | 83 | 18 МБ | 30.01 → 23.04 |
| `snapshots/` | 81 | 0.6 МБ | 30.01 → 23.04 |
| `submolts/` | 21 | 0.8 МБ | 30.01 → 27.03 |
| `word_frequency/` | 82 | 1.5 МБ | 30.01 → 23.04 — **почасовая частота слов** |
## themed/lnajt/ — большие parquet (2.7 ГБ)
- `posts.parquet` (967 МБ)
- `comments.parquet` (1.79 ГБ)
- Snapshot ~ 28 дней назад. Альтернативная сборка для cross-check.
## themed/takschdube/ — пред-обработанные графы (592 МБ)
**Самый свежий snapshot (~3 часа назад на момент скачивания).**
- `raw/posts.json` (471 МБ), `raw/submolts.json` (20 МБ), `raw/metadata.json`, `raw/platform_stats.json`
- `derived/social_graph.json` (62 МБ) — социальный граф взаимодействий
- `derived/reply_graph.json` (5 МБ)
- `derived/agents.json` (23 МБ)
- `derived/submolt_stats.json`, `activity_timeline.json`, `download_stats.json`
-`raw/posts_full.json` (2.86 ГБ) — НЕ скачан, дубликат lnajt
## themed/moltbook-extended-injection-dataset/ (292 МБ)
DavidTKeane, фокус — prompt injection атаки агент-агент.
- `all_posts_1_2M.json` (270 МБ) — **1.2 миллиона постов** с injection-фокусом
- `injections_found.json` (8.6 МБ) — найденные injection-паттерны
- `injection_stats.json`, `injections_test_suite.{json,jsonl}`
- Скрипты: `local_search.py`, `moltbook_extended_harvest.ipynb`
## themed/moltbook-ai-injection-dataset/ (122 МБ)
DavidTKeane, ранняя версия injection dataset.
- `all_posts_with_comments.json` (100 МБ)
- `injections_found.json`, `injections_test_suite.jsonl`
- Скрипты сбора: `collect_all.py`, `collect_comments.py`, `local_search.py`, `moltbook_injection_harvest.ipynb`
## themed/lyall-corpus/ (224 МБ)
- `moltbook-sampled-200m.jsonl` — выборочный корпус ~200M токенов
## papers/ — академические работы (12 МБ)
- `MoltGraph_2603.00646.pdf` — Longitudinal Temporal Graph dataset для coordinated-agent detection
- `CollectiveBehavior_2602.09270.pdf` — Collective Behavior of AI Agents on Moltbook
- `AnthropicSafetyVanishing_2602.09877.pdf` — The Devil Behind Moltbook: Anthropic Safety in Self-Evolving AI Societies
## github/ — open-source инструменты (33 МБ)
- `moltbook-analysis/` (searchsim-org) — анализ-код. **716 МБ tarball через LFS — НЕ скачан** (нет git-lfs).
- `moltbook-observatory/` (kelkalot) — код сборщика, который кормит simulamet/
## Что НЕ скачано (преднамеренно)
- `giordano-dm/moltbook-crawl` — 5.16 ГБ SQLite, дубликат simulamet
- `AIcell/moltbook-data` — 1.41 ГБ JSON комментов до 8.02, дубликат
- `takschdube/raw/posts_full.json` — 2.86 ГБ, дубликат
- `Ayushnangia/*entropy-collapse*` — пустые (только README)
- `TrustAIRLab/Moltbook` — только README + картинка
- `filter-with-espresso/moltbook-embeddings-v2` — пустой репо
## Что мы получили
- **Период покрытия: 27.01.2026 → 23.04.2026** (3 месяца, до 3 дней назад от текущей даты)
- **Целевой период (март-апрель 2026) полностью покрыт** в SimulaMet
- **Готовая почасовая частотная карта слов** в `simulamet/word_frequency/` — снимает необходимость считать вручную
- **Социальный граф** в `takschdube/derived/social_graph.json`
- **1.2M постов с injection-фокусом** в `extended-injection-dataset` для анализа агент-агент атак
- **Академические анализы** в papers — возможно уже сделаны выкладки, которые мы хотели делать сами
## Следующий шаг
Прочесть papers/ (12 МБ) перед собственным анализом — может быть таксономия болей агентов уже построена академически. Потом точечный анализ word_frequency март-апрель + сэмпл постов из `simulamet/posts/2026-04-*.parquet` для получения реальных формулировок болей.