montana/Русский/Логистика/mt_data_scraper.py

#!/usr/bin/env python3
"""
MT Data Page Scraper — GET MMSI + Ownership from MT Data Export
URL: https://www.marinetraffic.com/en/data/?asset_type=vessels

This page has paginated vessel data with MMSI, IMO, Flag, Type, DWT, Owner, Operator.
Uses page.on('response') to capture the data API calls.

Modes:
  --probe       Show what API calls are made (no DB writes)
  --type N      Filter by vessel type (6=bulk, default: bulk carrier page)
  --limit N     Stop after N vessels
  --start PAGE  Start from page N (resume)

Usage: python mt_data_scraper.py [--probe] [--type 6] [--limit 1000]
"""
import asyncio, json, sys, os, time, re, struct, hmac, hashlib, base64, argparse
import psycopg2

os.chdir(os.path.dirname(os.path.abspath(__file__)))
if hasattr(sys.stdout, 'reconfigure'):
    sys.stdout.reconfigure(encoding='utf-8', errors='replace')
if hasattr(sys.stderr, 'reconfigure'):
    sys.stderr.reconfigure(encoding='utf-8', errors='replace')

EMAIL       = "operation@mrlogisticcorp.com"
PASSWORD    = "NKh9i8Z!7fU9jfi"
TOTP_SECRET = "MNWTEPTFJZBUC32GJFEWY6LVKQ2GGYKH"
DB_URL      = 'postgresql://seafare:SF_m0ntana_2026@127.0.0.1:15432/seafare_db'

# Pagination
PAGE_DELAY  = 3.0   # seconds between pages
BATCH_SIZE  = 200   # commit every N vessels


def totp(secret):
    s   = secret.upper().replace(' ', '')
    pad = (-len(s)) % 8
    key = base64.b32decode(s + '=' * pad)
    counter = int(time.time()) // 30
    msg = struct.pack('>Q', counter)
    h   = hmac.new(key, msg, hashlib.sha1).digest()
    offset = h[-1] & 0x0f
    code   = struct.unpack('>I', h[offset:offset + 4])[0] & 0x7fffffff
    return str(code % 1000000).zfill(6)


async def do_login(page):
    print("Login to MT Pro...")
    await page.goto('https://www.marinetraffic.com/en/users/login',
                    wait_until='domcontentloaded', timeout=30000)
    await asyncio.sleep(3)
    await page.fill('input[name="username"]', EMAIL)
    await page.click('button[type="submit"]')
    await asyncio.sleep(3)
    await page.fill('input[type="password"]', PASSWORD)
    await page.click('button[type="submit"]')
    await asyncio.sleep(4)
    if 'mfa-login-options' in page.url or 'mfa' in page.url.lower():
        print("  2FA: Google Authenticator...")
        try:
            await page.click('button:has-text("Google Authenticator")', timeout=5000)
        except Exception:
            pass
        await asyncio.sleep(2)
        otp = totp(TOTP_SECRET)
        print(f"  TOTP: {otp}")
        await page.fill('input[name="code"]', otp)
        await page.click('button[type="submit"]')
        await asyncio.sleep(5)
    logged_in = 'marinetraffic.com' in page.url and 'auth.kpler' not in page.url
    print(f"  Logged in: {logged_in}  URL: {page.url}")
    return logged_in


def parse_vessel_row(row):
    """
    Extract vessel data from a JSON row (structure depends on MT API response format).
    Returns dict with standardized keys.
    """
    if not row or not isinstance(row, dict):
        return {}

    result = {}

    # MMSI
    for k in ['MMSI', 'mmsi', 'VESSEL_MMSI']:
        if k in row and row[k]:
            result['mmsi'] = str(row[k])
            break

    # IMO
    for k in ['IMO', 'imo', 'VESSEL_IMO']:
        if k in row and row[k]:
            result['imo'] = str(row[k])
            break

    # Name
    for k in ['SHIPNAME', 'NAME', 'name', 'VESSEL_NAME']:
        if k in row and row[k]:
            result['name'] = str(row[k])
            break

    # Flag
    for k in ['FLAG', 'flag', 'VESSEL_FLAG']:
        if k in row and row[k]:
            result['flag'] = str(row[k])
            break

    # Ship type
    for k in ['SHIPTYPE', 'TYPE_SUMMARY', 'ship_type', 'GT_SHIPTYPE', 'VESSEL_TYPE']:
        if k in row and row[k]:
            result['shiptype'] = str(row[k])
            break

    # DWT
    for k in ['DWT', 'dwt', 'DEADWEIGHT']:
        if k in row and row[k]:
            try: result['dwt'] = int(row[k])
            except Exception: pass
            break

    # Year built
    for k in ['YEAR_BUILT', 'year_built', 'BUILT']:
        if k in row and row[k]:
            try: result['year_built'] = int(row[k])
            except Exception: pass
            break

    # Position
    for k in ['LAT', 'lat', 'LATITUDE']:
        if k in row and row[k]:
            try: result['lat'] = float(row[k])
            except Exception: pass
            break
    for k in ['LON', 'lon', 'LONGITUDE', 'LNG']:
        if k in row and row[k]:
            try: result['lon'] = float(row[k])
            except Exception: pass
            break

    # Destination
    for k in ['DESTINATION', 'destination']:
        if k in row and row[k]:
            result['destination'] = str(row[k])
            break

    # Speed
    for k in ['SPEED', 'speed']:
        if k in row and row[k]:
            try: result['speed'] = float(row[k])
            except Exception: pass
            break

    # Owner fields
    for k in ['MANAGER_OWNER', 'manager', 'BENEFICIAL_OWNER', 'REGISTERED_OWNER',
               'OPERATOR', 'COMMERCIAL_MANAGER']:
        if k in row and row[k]:
            key_map = {
                'MANAGER_OWNER': 'owner',
                'BENEFICIAL_OWNER': 'owner',
                'REGISTERED_OWNER': 'owner',
                'OPERATOR': 'operator',
                'COMMERCIAL_MANAGER': 'operator',
                'manager': 'owner',
            }
            field = key_map.get(k, 'owner')
            if field not in result:
                result[field] = str(row[k])

    # SHIP_ID (MT internal)
    for k in ['SHIP_ID', 'ship_id', 'id']:
        if k in row and row[k]:
            result['ship_id'] = str(row[k])
            break

    return result


async def scrape_data_page(page, url, captured_data):
    """Navigate to a MT data page, wait for API response, return captured rows."""
    captured_data.clear()
    await page.goto(url, wait_until='load', timeout=40000)
    await asyncio.sleep(5)

    # Scroll down to trigger lazy loading
    await page.evaluate('window.scrollTo(0, document.body.scrollHeight)')
    await asyncio.sleep(2)
    return list(captured_data)


async def try_direct_api_pages(page, vessel_type, start_page, limit_pages):
    """
    Try to call MT data API directly via page.evaluate(fetch()).
    The data page calls something like:
    GET /getData/get_vessels_in_area/type:TYPE/page:N
    or:
    GET /en/data/?asset_type=vessels&vessel_type=TYPE&page=N (JSON via XHR)
    """
    results = []

    # Common MT data API patterns
    api_candidates = [
        f'/getData/get_vessels_in_area/type:{vessel_type}/page:{{page}}',
        f'/getData/get_data_json_4/type:{vessel_type}/page:{{page}}',
        f'/en/data/?asset_type=vessels&vessel_type={vessel_type}&page={{page}}&format=json',
    ]

    for page_num in range(start_page, start_page + limit_pages):
        print(f"\n  Page {page_num}...")
        for template in api_candidates:
            url = template.format(page=page_num)
            js_code = f"""
            async () => {{
                try {{
                    const resp = await fetch('{url}', {{
                        credentials: 'include',
                        headers: {{
                            'X-Requested-With': 'XMLHttpRequest',
                            'Accept': 'application/json, text/javascript, */*',
                            'Referer': window.location.href,
                        }}
                    }});
                    const text = await resp.text();
                    return {{url: '{url}', status: resp.status, body: text.substring(0, 5000)}};
                }} catch(e) {{
                    return {{url: '{url}', status: 0, error: e.message}};
                }}
            }}
            """
            try:
                result = await page.evaluate(js_code)
                status = result.get('status', 0)
                body   = result.get('body', '')
                if status == 200 and (body.startswith('{') or body.startswith('[')):
                    print(f"    HIT: {url} ({status}, {len(body)}b)")
                    print(f"    Body: {body[:200]}")
                    results.append({'url': url, 'page': page_num, 'body': body})
                    break
                else:
                    print(f"    Miss: {url} -> {status}")
            except Exception as e:
                print(f"    Error {url}: {e}")

        await asyncio.sleep(0.5)

    return results


async def main():
    parser = argparse.ArgumentParser()
    parser.add_argument('--probe',  action='store_true', help='Probe mode: just show API calls')
    parser.add_argument('--type',   type=int, default=0, help='Vessel type (0=all bulk types)')
    parser.add_argument('--limit',  type=int, default=0, help='Max vessels to collect')
    parser.add_argument('--pages',  type=int, default=5,  help='Pages to try in probe')
    parser.add_argument('--start',  type=int, default=1,  help='Start from page N')
    args = parser.parse_args()

    conn = psycopg2.connect(DB_URL)
    cur  = conn.cursor()

    from playwright.async_api import async_playwright

    async with async_playwright() as p:
        browser = await p.chromium.launch(
            headless=False,
            args=['--no-sandbox', '--disable-blink-features=AutomationControlled']
        )
        context = await browser.new_context(
            viewport={'width': 1440, 'height': 900},
            user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                       '(KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
        )
        page = await context.new_page()

        # ---- Capture ALL JSON responses ----
        all_captured = []
        interesting_captured = []

        async def capture_response(response):
            url = response.url
            # Skip static assets
            if any(url.endswith(x) for x in ['.js', '.css', '.png', '.jpg', '.gif', '.woff']):
                return
            ct = response.headers.get('content-type', '')
            try:
                body = await response.body()
                text = body.decode('utf-8', errors='replace')
                # Capture anything that looks like vessel data
                if text.startswith('{') or text.startswith('['):
                    entry = {'url': url, 'status': response.status,
                             'size': len(body), 'body': text[:3000]}
                    all_captured.append(entry)
                    # Is this interesting? (has vessel/mmsi/ship data)
                    low = text[:500].lower()
                    if any(kw in low for kw in ['mmsi', 'shipname', 'vessel', 'rows', '"data"']):
                        interesting_captured.append(entry)
                        print(f"  ** VESSEL API ** {url[:100]} ({len(body)}b)")
                        print(f"       {text[:200]}")
            except Exception:
                pass

        page.on('response', capture_response)

        # ---- Login ----
        logged_in = await do_login(page)
        if not logged_in:
            print("ERROR: Login failed!")
            await browser.close()
            conn.close()
            return

        await asyncio.sleep(5)

        # ---- Navigate to Data page ----
        data_url = 'https://www.marinetraffic.com/en/data/?asset_type=vessels'
        if args.type:
            data_url += f'&vessel_type={args.type}'

        print(f"\nNavigating to MT Data page: {data_url}")
        all_captured.clear()
        interesting_captured.clear()
        await page.goto(data_url, wait_until='load', timeout=40000)
        await asyncio.sleep(8)

        # Scroll to trigger lazy loading
        for _ in range(3):
            await page.evaluate('window.scrollTo(0, document.body.scrollHeight / 2)')
            await asyncio.sleep(1)
            await page.evaluate('window.scrollTo(0, document.body.scrollHeight)')
            await asyncio.sleep(1)

        await asyncio.sleep(3)

        print(f"\n  Page loaded: {page.url}")
        print(f"  All JSON responses: {len(all_captured)}")
        print(f"  Vessel API responses: {len(interesting_captured)}")

        if all_captured:
            with open('mt_data_page_responses.json', 'w', encoding='utf-8') as f:
                json.dump(all_captured, f, indent=2, ensure_ascii=False)
            print(f"  Saved -> mt_data_page_responses.json")

        if args.probe:
            print("\n=== PROBE COMPLETE ===")
            print("All captured API calls:")
            for e in all_captured:
                print(f"  {e['status']} {e['url'][:120]}")
            print("\nVessel-like API calls:")
            for e in interesting_captured:
                print(f"  {e['status']} {e['url'][:120]}")
                print(f"  Body: {e['body'][:300]}")
                print()
            await browser.close()
            conn.close()
            return

        # ---- Probe API endpoint via page.evaluate ----
        print(f"\nProbing direct API via page.evaluate...")
        vtype = args.type if args.type else 6
        api_results = await try_direct_api_pages(page, vtype, args.start, args.pages)

        if not api_results and not interesting_captured:
            print("\nNo vessel data found. Let's try pagination...")

            # Try clicking pagination / "next page" on the data table
            all_captured.clear()
            interesting_captured.clear()

            # Look for "next" button or pagination
            for sel in [
                'button:has-text("Next")', 'a:has-text("Next")',
                '[aria-label="Next page"]', '.pagination .next',
                'button[class*="next"]',
            ]:
                try:
                    btn = await page.query_selector(sel)
                    if btn:
                        print(f"  Found pagination: {sel}")
                        await btn.click()
                        await asyncio.sleep(5)
                        print(f"  After page click: {len(interesting_captured)} vessel responses")
                        break
                except Exception:
                    pass

        # ---- Extract vessel rows ----
        all_vessels = {}

        def process_response_body(body_text):
            """Parse JSON body and extract vessel rows."""
            try:
                data = json.loads(body_text)
            except Exception:
                return []

            rows = []
            # Various response formats
            if isinstance(data, list):
                rows = data
            elif isinstance(data, dict):
                rows = (data.get('data', {}).get('rows', []) or
                        data.get('rows', []) or
                        data.get('data', []) or
                        data.get('vessels', []) or
                        data.get('results', []))

            vessels = []
            for row in rows:
                if isinstance(row, dict):
                    v = parse_vessel_row(row)
                    if v.get('mmsi') or v.get('name'):
                        vessels.append(v)
            return vessels

        # Process captured responses
        for entry in interesting_captured + api_results:
            body = entry.get('body', '')
            vessels = process_response_body(body)
            for v in vessels:
                key = v.get('mmsi') or v.get('name', '')
                if key and key not in all_vessels:
                    all_vessels[key] = v

        print(f"\n  Extracted {len(all_vessels)} unique vessels from data page")

        if all_vessels:
            # Show sample
            for k, v in list(all_vessels.items())[:5]:
                print(f"  Sample: {v}")

            # Save to mt_data_page_vessels.json
            with open('mt_data_page_vessels.json', 'w', encoding='utf-8') as f:
                json.dump(list(all_vessels.values()), f, indent=2, ensure_ascii=False)
            print(f"  Saved -> mt_data_page_vessels.json")

            # Upsert to mt_bulk_staging
            inserted = 0
            for v in all_vessels.values():
                mmsi = v.get('mmsi')
                name = v.get('name', '')
                ship_id = v.get('ship_id')
                if not mmsi and not name:
                    continue
                try:
                    cur.execute("""
                        INSERT INTO mt_bulk_staging
                            (ship_id, name, flag, dwt, gt_shiptype, type_category,
                             lat, lon, speed, destination, mmsi, imo, owner, operator, scraped_at)
                        VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s, NOW())
                        ON CONFLICT (ship_id) DO UPDATE SET
                            mmsi  = COALESCE(EXCLUDED.mmsi, mt_bulk_staging.mmsi),
                            imo   = COALESCE(EXCLUDED.imo,  mt_bulk_staging.imo),
                            owner = COALESCE(EXCLUDED.owner, mt_bulk_staging.owner),
                            operator = COALESCE(EXCLUDED.operator, mt_bulk_staging.operator),
                            lat   = COALESCE(EXCLUDED.lat, mt_bulk_staging.lat),
                            lon   = COALESCE(EXCLUDED.lon, mt_bulk_staging.lon),
                            scraped_at = NOW()
                    """, (
                        ship_id or mmsi or name,
                        name,
                        v.get('flag'),
                        v.get('dwt'),
                        v.get('shiptype'),
                        'bulk' if str(v.get('shiptype', '')) == '6' else 'general',
                        v.get('lat'),
                        v.get('lon'),
                        v.get('speed'),
                        v.get('destination'),
                        mmsi,
                        v.get('imo'),
                        v.get('owner'),
                        v.get('operator'),
                    ))
                    inserted += 1
                except Exception as e:
                    print(f"  DB error: {e}")
            conn.commit()
            print(f"  Upserted {inserted} vessels into mt_bulk_staging")

        # Summary
        cur.execute('SELECT count(*) FROM mt_bulk_staging')
        total = cur.fetchone()[0]
        cur.execute("SELECT count(*) FROM mt_bulk_staging WHERE mmsi IS NOT NULL")
        with_mmsi = cur.fetchone()[0]
        print(f"\n  DB: {total} total, {with_mmsi} with MMSI")

        conn.close()
        await browser.close()
        print("\nDone!")


asyncio.run(main())
Mirror of /Users/kh./Python/Ничто/Монтана 2026-05-04 00:48:53 +03:00			`#!/usr/bin/env python3`
			`"""`
			`MT Data Page Scraper — GET MMSI + Ownership from MT Data Export`
			`URL: https://www.marinetraffic.com/en/data/?asset_type=vessels`

			`This page has paginated vessel data with MMSI, IMO, Flag, Type, DWT, Owner, Operator.`
			`Uses page.on('response') to capture the data API calls.`

			`Modes:`
			`--probe Show what API calls are made (no DB writes)`
			`--type N Filter by vessel type (6=bulk, default: bulk carrier page)`
			`--limit N Stop after N vessels`
			`--start PAGE Start from page N (resume)`

			`Usage: python mt_data_scraper.py [--probe] [--type 6] [--limit 1000]`
			`"""`
			`import asyncio, json, sys, os, time, re, struct, hmac, hashlib, base64, argparse`
			`import psycopg2`

			`os.chdir(os.path.dirname(os.path.abspath(__file__)))`
			`if hasattr(sys.stdout, 'reconfigure'):`
			`sys.stdout.reconfigure(encoding='utf-8', errors='replace')`
			`if hasattr(sys.stderr, 'reconfigure'):`
			`sys.stderr.reconfigure(encoding='utf-8', errors='replace')`

			`EMAIL = "operation@mrlogisticcorp.com"`
			`PASSWORD = "NKh9i8Z!7fU9jfi"`
			`TOTP_SECRET = "MNWTEPTFJZBUC32GJFEWY6LVKQ2GGYKH"`
			`DB_URL = 'postgresql://seafare:SF_m0ntana_2026@127.0.0.1:15432/seafare_db'`

			`# Pagination`
			`PAGE_DELAY = 3.0 # seconds between pages`
			`BATCH_SIZE = 200 # commit every N vessels`


			`def totp(secret):`
			`s = secret.upper().replace(' ', '')`
			`pad = (-len(s)) % 8`
			`key = base64.b32decode(s + '=' * pad)`
			`counter = int(time.time()) // 30`
			`msg = struct.pack('>Q', counter)`
			`h = hmac.new(key, msg, hashlib.sha1).digest()`
			`offset = h[-1] & 0x0f`
			`code = struct.unpack('>I', h[offset:offset + 4])[0] & 0x7fffffff`
			`return str(code % 1000000).zfill(6)`


			`async def do_login(page):`
			`print("Login to MT Pro...")`
			`await page.goto('https://www.marinetraffic.com/en/users/login',`
			`wait_until='domcontentloaded', timeout=30000)`
			`await asyncio.sleep(3)`
			`await page.fill('input[name="username"]', EMAIL)`
			`await page.click('button[type="submit"]')`
			`await asyncio.sleep(3)`
			`await page.fill('input[type="password"]', PASSWORD)`
			`await page.click('button[type="submit"]')`
			`await asyncio.sleep(4)`
			`if 'mfa-login-options' in page.url or 'mfa' in page.url.lower():`
			`print(" 2FA: Google Authenticator...")`
			`try:`
			`await page.click('button:has-text("Google Authenticator")', timeout=5000)`
			`except Exception:`
			`pass`
			`await asyncio.sleep(2)`
			`otp = totp(TOTP_SECRET)`
			`print(f" TOTP: {otp}")`
			`await page.fill('input[name="code"]', otp)`
			`await page.click('button[type="submit"]')`
			`await asyncio.sleep(5)`
			`logged_in = 'marinetraffic.com' in page.url and 'auth.kpler' not in page.url`
			`print(f" Logged in: {logged_in} URL: {page.url}")`
			`return logged_in`


			`def parse_vessel_row(row):`
			`"""`
			`Extract vessel data from a JSON row (structure depends on MT API response format).`
			`Returns dict with standardized keys.`
			`"""`
			`if not row or not isinstance(row, dict):`
			`return {}`

			`result = {}`

			`# MMSI`
			`for k in ['MMSI', 'mmsi', 'VESSEL_MMSI']:`
			`if k in row and row[k]:`
			`result['mmsi'] = str(row[k])`
			`break`

			`# IMO`
			`for k in ['IMO', 'imo', 'VESSEL_IMO']:`
			`if k in row and row[k]:`
			`result['imo'] = str(row[k])`
			`break`

			`# Name`
			`for k in ['SHIPNAME', 'NAME', 'name', 'VESSEL_NAME']:`
			`if k in row and row[k]:`
			`result['name'] = str(row[k])`
			`break`

			`# Flag`
			`for k in ['FLAG', 'flag', 'VESSEL_FLAG']:`
			`if k in row and row[k]:`
			`result['flag'] = str(row[k])`
			`break`

			`# Ship type`
			`for k in ['SHIPTYPE', 'TYPE_SUMMARY', 'ship_type', 'GT_SHIPTYPE', 'VESSEL_TYPE']:`
			`if k in row and row[k]:`
			`result['shiptype'] = str(row[k])`
			`break`

			`# DWT`
			`for k in ['DWT', 'dwt', 'DEADWEIGHT']:`
			`if k in row and row[k]:`
			`try: result['dwt'] = int(row[k])`
			`except Exception: pass`
			`break`

			`# Year built`
			`for k in ['YEAR_BUILT', 'year_built', 'BUILT']:`
			`if k in row and row[k]:`
			`try: result['year_built'] = int(row[k])`
			`except Exception: pass`
			`break`

			`# Position`
			`for k in ['LAT', 'lat', 'LATITUDE']:`
			`if k in row and row[k]:`
			`try: result['lat'] = float(row[k])`
			`except Exception: pass`
			`break`
			`for k in ['LON', 'lon', 'LONGITUDE', 'LNG']:`
			`if k in row and row[k]:`
			`try: result['lon'] = float(row[k])`
			`except Exception: pass`
			`break`

			`# Destination`
			`for k in ['DESTINATION', 'destination']:`
			`if k in row and row[k]:`
			`result['destination'] = str(row[k])`
			`break`

			`# Speed`
			`for k in ['SPEED', 'speed']:`
			`if k in row and row[k]:`
			`try: result['speed'] = float(row[k])`
			`except Exception: pass`
			`break`

			`# Owner fields`
			`for k in ['MANAGER_OWNER', 'manager', 'BENEFICIAL_OWNER', 'REGISTERED_OWNER',`
			`'OPERATOR', 'COMMERCIAL_MANAGER']:`
			`if k in row and row[k]:`
			`key_map = {`
			`'MANAGER_OWNER': 'owner',`
			`'BENEFICIAL_OWNER': 'owner',`
			`'REGISTERED_OWNER': 'owner',`
			`'OPERATOR': 'operator',`
			`'COMMERCIAL_MANAGER': 'operator',`
			`'manager': 'owner',`
			`}`
			`field = key_map.get(k, 'owner')`
			`if field not in result:`
			`result[field] = str(row[k])`

			`# SHIP_ID (MT internal)`
			`for k in ['SHIP_ID', 'ship_id', 'id']:`
			`if k in row and row[k]:`
			`result['ship_id'] = str(row[k])`
			`break`

			`return result`


			`async def scrape_data_page(page, url, captured_data):`
			`"""Navigate to a MT data page, wait for API response, return captured rows."""`
			`captured_data.clear()`
			`await page.goto(url, wait_until='load', timeout=40000)`
			`await asyncio.sleep(5)`

			`# Scroll down to trigger lazy loading`
			`await page.evaluate('window.scrollTo(0, document.body.scrollHeight)')`
			`await asyncio.sleep(2)`
			`return list(captured_data)`


			`async def try_direct_api_pages(page, vessel_type, start_page, limit_pages):`
			`"""`
			`Try to call MT data API directly via page.evaluate(fetch()).`
			`The data page calls something like:`
			`GET /getData/get_vessels_in_area/type:TYPE/page:N`
			`or:`
			`GET /en/data/?asset_type=vessels&vessel_type=TYPE&page=N (JSON via XHR)`
			`"""`
			`results = []`

			`# Common MT data API patterns`
			`api_candidates = [`
			`f'/getData/get_vessels_in_area/type:{vessel_type}/page:{{page}}',`
			`f'/getData/get_data_json_4/type:{vessel_type}/page:{{page}}',`
			`f'/en/data/?asset_type=vessels&vessel_type={vessel_type}&page={{page}}&format=json',`
			`]`

			`for page_num in range(start_page, start_page + limit_pages):`
			`print(f"\n Page {page_num}...")`
			`for template in api_candidates:`
			`url = template.format(page=page_num)`
			`js_code = f"""`
			`async () => {{`
			`try {{`
			`const resp = await fetch('{url}', {{`
			`credentials: 'include',`
			`headers: {{`
			`'X-Requested-With': 'XMLHttpRequest',`
			`'Accept': 'application/json, text/javascript, /',`
			`'Referer': window.location.href,`
			`}}`
			`}});`
			`const text = await resp.text();`
			`return {{url: '{url}', status: resp.status, body: text.substring(0, 5000)}};`
			`}} catch(e) {{`
			`return {{url: '{url}', status: 0, error: e.message}};`
			`}}`
			`}}`
			`"""`
			`try:`
			`result = await page.evaluate(js_code)`
			`status = result.get('status', 0)`
			`body = result.get('body', '')`
			`if status == 200 and (body.startswith('{') or body.startswith('[')):`
			`print(f" HIT: {url} ({status}, {len(body)}b)")`
			`print(f" Body: {body[:200]}")`
			`results.append({'url': url, 'page': page_num, 'body': body})`
			`break`
			`else:`
			`print(f" Miss: {url} -> {status}")`
			`except Exception as e:`
			`print(f" Error {url}: {e}")`

			`await asyncio.sleep(0.5)`

			`return results`


			`async def main():`
			`parser = argparse.ArgumentParser()`
			`parser.add_argument('--probe', action='store_true', help='Probe mode: just show API calls')`
			`parser.add_argument('--type', type=int, default=0, help='Vessel type (0=all bulk types)')`
			`parser.add_argument('--limit', type=int, default=0, help='Max vessels to collect')`
			`parser.add_argument('--pages', type=int, default=5, help='Pages to try in probe')`
			`parser.add_argument('--start', type=int, default=1, help='Start from page N')`
			`args = parser.parse_args()`

			`conn = psycopg2.connect(DB_URL)`
			`cur = conn.cursor()`

			`from playwright.async_api import async_playwright`

			`async with async_playwright() as p:`
			`browser = await p.chromium.launch(`
			`headless=False,`
			`args=['--no-sandbox', '--disable-blink-features=AutomationControlled']`
			`)`
			`context = await browser.new_context(`
			`viewport={'width': 1440, 'height': 900},`
			`user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '`
			`'(KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',`
			`)`
			`page = await context.new_page()`

			`# ---- Capture ALL JSON responses ----`
			`all_captured = []`
			`interesting_captured = []`

			`async def capture_response(response):`
			`url = response.url`
			`# Skip static assets`
			`if any(url.endswith(x) for x in ['.js', '.css', '.png', '.jpg', '.gif', '.woff']):`
			`return`
			`ct = response.headers.get('content-type', '')`
			`try:`
			`body = await response.body()`
			`text = body.decode('utf-8', errors='replace')`
			`# Capture anything that looks like vessel data`
			`if text.startswith('{') or text.startswith('['):`
			`entry = {'url': url, 'status': response.status,`
			`'size': len(body), 'body': text[:3000]}`
			`all_captured.append(entry)`
			`# Is this interesting? (has vessel/mmsi/ship data)`
			`low = text[:500].lower()`
			`if any(kw in low for kw in ['mmsi', 'shipname', 'vessel', 'rows', '"data"']):`
			`interesting_captured.append(entry)`
			`print(f" VESSEL API {url[:100]} ({len(body)}b)")`
			`print(f" {text[:200]}")`
			`except Exception:`
			`pass`

			`page.on('response', capture_response)`

			`# ---- Login ----`
			`logged_in = await do_login(page)`
			`if not logged_in:`
			`print("ERROR: Login failed!")`
			`await browser.close()`
			`conn.close()`
			`return`

			`await asyncio.sleep(5)`

			`# ---- Navigate to Data page ----`
			`data_url = 'https://www.marinetraffic.com/en/data/?asset_type=vessels'`
			`if args.type:`
			`data_url += f'&vessel_type={args.type}'`

			`print(f"\nNavigating to MT Data page: {data_url}")`
			`all_captured.clear()`
			`interesting_captured.clear()`
			`await page.goto(data_url, wait_until='load', timeout=40000)`
			`await asyncio.sleep(8)`

			`# Scroll to trigger lazy loading`
			`for _ in range(3):`
			`await page.evaluate('window.scrollTo(0, document.body.scrollHeight / 2)')`
			`await asyncio.sleep(1)`
			`await page.evaluate('window.scrollTo(0, document.body.scrollHeight)')`
			`await asyncio.sleep(1)`

			`await asyncio.sleep(3)`

			`print(f"\n Page loaded: {page.url}")`
			`print(f" All JSON responses: {len(all_captured)}")`
			`print(f" Vessel API responses: {len(interesting_captured)}")`

			`if all_captured:`
			`with open('mt_data_page_responses.json', 'w', encoding='utf-8') as f:`
			`json.dump(all_captured, f, indent=2, ensure_ascii=False)`
			`print(f" Saved -> mt_data_page_responses.json")`

			`if args.probe:`
			`print("\n=== PROBE COMPLETE ===")`
			`print("All captured API calls:")`
			`for e in all_captured:`
			`print(f" {e['status']} {e['url'][:120]}")`
			`print("\nVessel-like API calls:")`
			`for e in interesting_captured:`
			`print(f" {e['status']} {e['url'][:120]}")`
			`print(f" Body: {e['body'][:300]}")`
			`print()`
			`await browser.close()`
			`conn.close()`
			`return`

			`# ---- Probe API endpoint via page.evaluate ----`
			`print(f"\nProbing direct API via page.evaluate...")`
			`vtype = args.type if args.type else 6`
			`api_results = await try_direct_api_pages(page, vtype, args.start, args.pages)`

			`if not api_results and not interesting_captured:`
			`print("\nNo vessel data found. Let's try pagination...")`

			`# Try clicking pagination / "next page" on the data table`
			`all_captured.clear()`
			`interesting_captured.clear()`

			`# Look for "next" button or pagination`
			`for sel in [`
			`'button:has-text("Next")', 'a:has-text("Next")',`
			`'[aria-label="Next page"]', '.pagination .next',`
			`'button[class*="next"]',`
			`]:`
			`try:`
			`btn = await page.query_selector(sel)`
			`if btn:`
			`print(f" Found pagination: {sel}")`
			`await btn.click()`
			`await asyncio.sleep(5)`
			`print(f" After page click: {len(interesting_captured)} vessel responses")`
			`break`
			`except Exception:`
			`pass`

			`# ---- Extract vessel rows ----`
			`all_vessels = {}`

			`def process_response_body(body_text):`
			`"""Parse JSON body and extract vessel rows."""`
			`try:`
			`data = json.loads(body_text)`
			`except Exception:`
			`return []`

			`rows = []`
			`# Various response formats`
			`if isinstance(data, list):`
			`rows = data`
			`elif isinstance(data, dict):`
			`rows = (data.get('data', {}).get('rows', []) or`
			`data.get('rows', []) or`
			`data.get('data', []) or`
			`data.get('vessels', []) or`
			`data.get('results', []))`

			`vessels = []`
			`for row in rows:`
			`if isinstance(row, dict):`
			`v = parse_vessel_row(row)`
			`if v.get('mmsi') or v.get('name'):`
			`vessels.append(v)`
			`return vessels`

			`# Process captured responses`
			`for entry in interesting_captured + api_results:`
			`body = entry.get('body', '')`
			`vessels = process_response_body(body)`
			`for v in vessels:`
			`key = v.get('mmsi') or v.get('name', '')`
			`if key and key not in all_vessels:`
			`all_vessels[key] = v`

			`print(f"\n Extracted {len(all_vessels)} unique vessels from data page")`

			`if all_vessels:`
			`# Show sample`
			`for k, v in list(all_vessels.items())[:5]:`
			`print(f" Sample: {v}")`

			`# Save to mt_data_page_vessels.json`
			`with open('mt_data_page_vessels.json', 'w', encoding='utf-8') as f:`
			`json.dump(list(all_vessels.values()), f, indent=2, ensure_ascii=False)`
			`print(f" Saved -> mt_data_page_vessels.json")`

			`# Upsert to mt_bulk_staging`
			`inserted = 0`
			`for v in all_vessels.values():`
			`mmsi = v.get('mmsi')`
			`name = v.get('name', '')`
			`ship_id = v.get('ship_id')`
			`if not mmsi and not name:`
			`continue`
			`try:`
			`cur.execute("""`
			`INSERT INTO mt_bulk_staging`
			`(ship_id, name, flag, dwt, gt_shiptype, type_category,`
			`lat, lon, speed, destination, mmsi, imo, owner, operator, scraped_at)`
			`VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s, NOW())`
			`ON CONFLICT (ship_id) DO UPDATE SET`
			`mmsi = COALESCE(EXCLUDED.mmsi, mt_bulk_staging.mmsi),`
			`imo = COALESCE(EXCLUDED.imo, mt_bulk_staging.imo),`
			`owner = COALESCE(EXCLUDED.owner, mt_bulk_staging.owner),`
			`operator = COALESCE(EXCLUDED.operator, mt_bulk_staging.operator),`
			`lat = COALESCE(EXCLUDED.lat, mt_bulk_staging.lat),`
			`lon = COALESCE(EXCLUDED.lon, mt_bulk_staging.lon),`
			`scraped_at = NOW()`
			`""", (`
			`ship_id or mmsi or name,`
			`name,`
			`v.get('flag'),`
			`v.get('dwt'),`
			`v.get('shiptype'),`
			`'bulk' if str(v.get('shiptype', '')) == '6' else 'general',`
			`v.get('lat'),`
			`v.get('lon'),`
			`v.get('speed'),`
			`v.get('destination'),`
			`mmsi,`
			`v.get('imo'),`
			`v.get('owner'),`
			`v.get('operator'),`
			`))`
			`inserted += 1`
			`except Exception as e:`
			`print(f" DB error: {e}")`
			`conn.commit()`
			`print(f" Upserted {inserted} vessels into mt_bulk_staging")`

			`# Summary`
			`cur.execute('SELECT count(*) FROM mt_bulk_staging')`
			`total = cur.fetchone()[0]`
			`cur.execute("SELECT count(*) FROM mt_bulk_staging WHERE mmsi IS NOT NULL")`
			`with_mmsi = cur.fetchone()[0]`
			`print(f"\n DB: {total} total, {with_mmsi} with MMSI")`

			`conn.close()`
			`await browser.close()`
			`print("\nDone!")`


			`asyncio.run(main())`