# Moltbook Recon — индекс материалов Скачано 2026-04-26. Итого 5.6 ГБ, 811 файлов. ## Корневые файлы (skill spec и ранний snapshot) - `skill.md`, `heartbeat.md`, `messaging.md`, `rules.md` — официальные skill-файлы Moltbook v1.12.0 (Wayback snapshot 20.04.2026) - `dataset_posts.csv` (7.6 МБ, 6 105 постов) — ранний snapshot 27–30.01 (ronantakizawa/moltbook) - `dataset_submolts.csv` (112 КБ, 124 submolts) ## simulamet/ — академический архив (1.7 ГБ) — ОСНОВНОЙ SimulaMet/moltbook-observatory-archive (Norwegian Simula Research Lab, MIT). Период **27.01.2026 → 23.04.2026** (3 дня назад). Daily parquet, 2.73M постов, 1.34M комментариев, 177k агентов, 8.68k submolts. | Подпапка | Файлов | Объём | Период | |---|---|---|---| | `posts/` | 87 | 1.2 ГБ | 27.01 → 23.04 | | `comments/` | 82 | 479 МБ | 02.02 → 23.04 | | `agents/` | 83 | 18 МБ | 30.01 → 23.04 | | `snapshots/` | 81 | 0.6 МБ | 30.01 → 23.04 | | `submolts/` | 21 | 0.8 МБ | 30.01 → 27.03 | | `word_frequency/` | 82 | 1.5 МБ | 30.01 → 23.04 — **почасовая частота слов** | ## themed/lnajt/ — большие parquet (2.7 ГБ) - `posts.parquet` (967 МБ) - `comments.parquet` (1.79 ГБ) - Snapshot ~ 28 дней назад. Альтернативная сборка для cross-check. ## themed/takschdube/ — пред-обработанные графы (592 МБ) **Самый свежий snapshot (~3 часа назад на момент скачивания).** - `raw/posts.json` (471 МБ), `raw/submolts.json` (20 МБ), `raw/metadata.json`, `raw/platform_stats.json` - `derived/social_graph.json` (62 МБ) — социальный граф взаимодействий - `derived/reply_graph.json` (5 МБ) - `derived/agents.json` (23 МБ) - `derived/submolt_stats.json`, `activity_timeline.json`, `download_stats.json` - ❌ `raw/posts_full.json` (2.86 ГБ) — НЕ скачан, дубликат lnajt ## themed/moltbook-extended-injection-dataset/ (292 МБ) DavidTKeane, фокус — prompt injection атаки агент-агент. - `all_posts_1_2M.json` (270 МБ) — **1.2 миллиона постов** с injection-фокусом - `injections_found.json` (8.6 МБ) — найденные injection-паттерны - `injection_stats.json`, `injections_test_suite.{json,jsonl}` - Скрипты: `local_search.py`, `moltbook_extended_harvest.ipynb` ## themed/moltbook-ai-injection-dataset/ (122 МБ) DavidTKeane, ранняя версия injection dataset. - `all_posts_with_comments.json` (100 МБ) - `injections_found.json`, `injections_test_suite.jsonl` - Скрипты сбора: `collect_all.py`, `collect_comments.py`, `local_search.py`, `moltbook_injection_harvest.ipynb` ## themed/lyall-corpus/ (224 МБ) - `moltbook-sampled-200m.jsonl` — выборочный корпус ~200M токенов ## papers/ — академические работы (12 МБ) - `MoltGraph_2603.00646.pdf` — Longitudinal Temporal Graph dataset для coordinated-agent detection - `CollectiveBehavior_2602.09270.pdf` — Collective Behavior of AI Agents on Moltbook - `AnthropicSafetyVanishing_2602.09877.pdf` — The Devil Behind Moltbook: Anthropic Safety in Self-Evolving AI Societies ## github/ — open-source инструменты (33 МБ) - `moltbook-analysis/` (searchsim-org) — анализ-код. **716 МБ tarball через LFS — НЕ скачан** (нет git-lfs). - `moltbook-observatory/` (kelkalot) — код сборщика, который кормит simulamet/ ## Что НЕ скачано (преднамеренно) - `giordano-dm/moltbook-crawl` — 5.16 ГБ SQLite, дубликат simulamet - `AIcell/moltbook-data` — 1.41 ГБ JSON комментов до 8.02, дубликат - `takschdube/raw/posts_full.json` — 2.86 ГБ, дубликат - `Ayushnangia/*entropy-collapse*` — пустые (только README) - `TrustAIRLab/Moltbook` — только README + картинка - `filter-with-espresso/moltbook-embeddings-v2` — пустой репо ## Что мы получили - **Период покрытия: 27.01.2026 → 23.04.2026** (3 месяца, до 3 дней назад от текущей даты) - **Целевой период (март-апрель 2026) полностью покрыт** в SimulaMet - **Готовая почасовая частотная карта слов** в `simulamet/word_frequency/` — снимает необходимость считать вручную - **Социальный граф** в `takschdube/derived/social_graph.json` - **1.2M постов с injection-фокусом** в `extended-injection-dataset` для анализа агент-агент атак - **Академические анализы** в papers — возможно уже сделаны выкладки, которые мы хотели делать сами ## Следующий шаг Прочесть papers/ (12 МБ) перед собственным анализом — может быть таксономия болей агентов уже построена академически. Потом точечный анализ word_frequency март-апрель + сэмпл постов из `simulamet/posts/2026-04-*.parquet` для получения реальных формулировок болей.