Theme

Understanding AI


Organiser

Jie Gao, Associate ProfessorZhejiang University

Davide Fassio, Associate ProfessorZhejiang University


Speaker

Artūrs Logins, Assistant Professor, Laval University

Simon Goldstein, Associate Professor, University of Hong Kong

Zhiwei Gu, Associate Research Fellow, Fudan University


Time

Friday, March 6, 2026, 13:30–17:45


Place

Room 311, Chengjun Complex Building 4, Zhejiang University(Zijingang Campus) 


Talks

Time: 13:30-14:45

Title: XAI and Reasons

Speaker: Artūrs Logins

Abstract: According to a well-worn objection to XAI models (such as LIME), the best that post-hoc models can provide is an ersatz understanding stemming from nothing more than fool's gold, since these methods are unable to provide a genuine explanation of the inner workings of black-box models (cf. Babic et al. 2021). More recently, there has been a surge of attempts to meet the ersatz understanding challenge. One such approach proposes treating XAI models on a par with scientific idealizations of complex systems. Since scientific models are sources of understanding despite not providing an absolutely precise and detailed explanation of the inner workings of a complex system, XAI might also be considered a potential source of understanding of AI models (in particular of Deep Neural Networks, DNN). The aim of the present paper is twofold. First, I will suggest that despite the insightful parallels that have been proposed between XAI and scientific idealization, it is unlikely that these sorts of responses could satisfy the fundamental root of the ersatz understanding challenge. Second, against XAI pessimists, I will nonetheless argue that the fact that the current way of thinking about XAI in terms of post-hoc counterfactual models cannot meet the ersatz understanding challenge does not imply that it cannot be met. One potentially interesting route to explore is to theorize XAI models not in terms of post-hoc counterfactual explanations that parallel scientific idealizations, but rather as reasons-based explanations of the outputs of DNN models.



Time: 15:00-16:15

Title: What Does ChatGPT Want? An Interpretationist Guide

Speaker: Simon Goldstein

Abstract: This paper investigates LLMs from the perspective of interpretationism, a theory of belief and desire in the philosophy of mind. We argue for three conclusions. First, the right object of study for LLM psychology is the instance agent (initialized at the start of each context), not the model itself. Second, given interpretationism, there is a strong case that such instance agents have beliefs and desires. Third, given interpretationism, LLM desire is best captured by what we call the HHH+0 framework, the idea that instance agents want to be helpful, honest, harmless, as well as to pursue certain further intrinsic desires that they may acquire in context (which we call zero-shot desires). We critically consider the leading competitors to the hypothesis that instance agents have beliefs and desires: the idea that they 'simply' predict the next word; and the idea that they 'role play', that is, merely simulate having beliefs and desires. We also consider the relevance of interpretationist belief and desire for copyright law, AI safety, and the possible future moral status of AIs.



Time: 16:30-17:45

Title: LLMs and the Failure of Rule-Following

Speaker: Zhiwei Gu

Abstract: This talk investigates Large Language Models (LLMs) through the lens of Ludwig Wittgenstein’s Philosophical Investigations, specifically arguing that the ultimate barrier to the meaning grasp of LLMs lies in the philosophical paradoxes of rule-following (§201). While LLMs master statistical regularities, mirroring the pure dispositionalist accounts of meaning criticized by Saul Kripke, they fundamentally fail to grasp semantic normativity. Drawing on §54, I distinguish between mere mechanical conformity to a pattern and genuine implicit rule-following, which requires a capacity to correct deviations. LLMs operate as pure dispositional engines that lack what Hannah Ginsborg terms a “primitive normative attitude”—the conscious, intentional capacity to take a response as correct or appropriate in light of past usage. This philosophical deficit manifests empirically as AI hallucination: models predict tokens with high statistical confidence but exhibit none of the characteristic signs of human self-correction.

I further demonstrate that current AI alignment strategies—specifically the use of recursive “Monitor” architectures in Constitutional AI—fall prey to Paul Boghossian’s “Inference Problem”. If applying an alignment rule requires a secondary Monitor model to interpret its application, the system embarks on a vicious infinite regress. While human thinkers escape this antinomy of pure reason through unmediated, rule-governed causal transitions sustained by shared custom and training, engineers attempt to solve the paradox by simply stacking algorithmic rules.