Modelet më të avancuara të familjes Claude, përkatësisht Opus 4.8 dhe Sonnet 5, po shfaqin vështirësi në përdorimin e mjetit të redaktimit të Pi-s. Këto modele shpesh dërgojnë thirrje që përfshijnë fusha të paautorizuara brenda vargut “edits[]”. Si pasojë, Pi refuzon thirrjen e mjetit pasi argumentet nuk përputhen me skemën e kërkuar, duke kërkuar përsëritjen e procesit.
Në rastet e dështuara, modelet shtojnë çelësa të trilluar si “type”, “id”, “kind”, “unique”, “requireUnique”, “matchCase”, “in_file”, “forceMatchCount”, “children”, “notes”, “cost”, “oldText2”, “newText2” apo edhe “event.0.additionalProperties”. Megjithatë, përmbajtja e vërtetë e “oldText” dhe “newText” brenda këtyre thirrjeve është zakonisht e saktë, duke treguar se modeli e ka kryer redaktimin, por ka shtuar elemente të panevojshme në fund të objektit.
Analiza tregon se dështimi është i varur nga konteksti; ai nuk shfaqet në kërkesa të thjeshta, por në histori agjentike ku modeli ka lexuar skedarë dhe ka hartuar redaktime komplekse. Në një sesion të testuar, Opus 4.8 dështoi në rreth 20% të rasteve, ndërsa heqja e blloqeve të mendimit nga historiku e përgjysmoi këtë shkallë dështimi.
Modelet moderne të Anthropic janë trajnuar me një mjedis të ngjashëm me Claude Code, i cili është shumë tolerant ndaj thirrjeve të pasakta dhe i riparon ato në mënyrë të heshtur. Si rezultat, modelet mund të kenë zhvilluar një prirje të fortë ndaj skemës së redaktimit të Claude Code, duke e pasur të vështirë përshtatjen me skema të tjera si ajo e Pi-s.
Përdorimi i mënyrës së thirrjes strikte (strict mode) në Anthropic eliminon këto gabime, pasi serveri refuzon çdo çelës që nuk lejohet nga skema JSON. Ky zhvillim sugjeron se skemat e mjeteve nuk janë neutrale për modelet e Anthropic, pasi trajnimi i tyre mund të favorizojë një ekologji specifike dhe të pashfaqur të mjeteve.
Burimi: lucumr.pocoo.org
