]> git.lizzy.rs Git - rust.git/blob - docs/dev/architecture.md
Merge #7538
[rust.git] / docs / dev / architecture.md
1 # Architecture
2
3 This document describes the high-level architecture of rust-analyzer.
4 If you want to familiarize yourself with the code base, you are just in the right place!
5
6 See also the [guide](./guide.md), which walks through a particular snapshot of rust-analyzer code base.
7
8 Yet another resource is this playlist with videos about various parts of the analyzer:
9
10 https://www.youtube.com/playlist?list=PL85XCvVPmGQho7MZkdW-wtPtuJcFpzycE
11
12 Note that the guide and videos are pretty dated, this document should be in generally fresher.
13
14 See also this implementation-oriented blog posts:
15
16 * https://rust-analyzer.github.io/blog/2019/11/13/find-usages.html
17 * https://rust-analyzer.github.io/blog/2020/07/20/three-architectures-for-responsive-ide.html
18 * https://rust-analyzer.github.io/blog/2020/09/16/challeging-LR-parsing.html
19 * https://rust-analyzer.github.io/blog/2020/09/28/how-to-make-a-light-bulb.html
20 * https://rust-analyzer.github.io/blog/2020/10/24/introducing-ungrammar.html
21
22 ## Bird's Eye View
23
24 ![](https://user-images.githubusercontent.com/1711539/50114578-e8a34280-0255-11e9-902c-7cfc70747966.png)
25
26 On the highest level, rust-analyzer is a thing which accepts input source code from the client and produces a structured semantic model of the code.
27
28 More specifically, input data consists of a set of test files (`(PathBuf, String)` pairs) and information about project structure, captured in the so called `CrateGraph`.
29 The crate graph specifies which files are crate roots, which cfg flags are specified for each crate and what dependencies exist between the crates.
30 This the input (ground) state.
31 The analyzer keeps all this input data in memory and never does any IO.
32 Because the input data are source code, which typically measures in tens of megabytes at most, keeping everything in memory is OK.
33
34 A "structured semantic model" is basically an object-oriented representation of modules, functions and types which appear in the source code.
35 This representation is fully "resolved": all expressions have types, all references are bound to declarations, etc.
36 This is derived state.
37
38 The client can submit a small delta of input data (typically, a change to a single file) and get a fresh code model which accounts for changes.
39
40 The underlying engine makes sure that model is computed lazily (on-demand) and can be quickly updated for small modifications.
41
42
43 ## Code Map
44
45 This section talks briefly about various important directories an data structures.
46 Pay attention to the **Architecture Invariant** sections.
47 They often talk about things which are deliberately absent in the source code.
48
49 Note also which crates are **API Boundaries**.
50 Remember, [rules at the boundary are different](https://www.tedinski.com/2018/02/06/system-boundaries.html).
51
52 ### `xtask`
53
54 This is rust-analyzer's "build system".
55 We use cargo to compile rust code, but there are also various other tasks, like release management or local installation.
56 They are handled by Rust code in the xtask directory.
57
58 ### `editors/code`
59
60 VS Code plugin.
61
62 ### `libs/`
63
64 rust-analyzer independent libraries which we publish to crates.io.
65 It not heavily utilized at the moment.
66
67 ### `crates/parser`
68
69 It is a hand-written recursive descent parser, which produces a sequence of events like "start node X", "finish node Y".
70 It works similarly to
71 [kotlin's parser](https://github.com/JetBrains/kotlin/blob/4d951de616b20feca92f3e9cc9679b2de9e65195/compiler/frontend/src/org/jetbrains/kotlin/parsing/KotlinParsing.java),
72 which is a good source of inspiration for dealing with syntax errors and incomplete input.
73 Original [libsyntax parser](https://github.com/rust-lang/rust/blob/6b99adeb11313197f409b4f7c4083c2ceca8a4fe/src/libsyntax/parse/parser.rs) is what we use for the definition of the Rust language.
74 `TreeSink` and `TokenSource` traits bridge the tree-agnostic parser from `grammar` with `rowan` trees.
75
76 **Architecture Invariant:** the parser is independent of the particular tree structure and particular representation of the tokens.
77 It transforms one flat stream of events into another flat stream of events.
78 Token independence allows us to pares out both text-based source code and `tt`-based macro input.
79 Tree independence allows us to more easily vary the syntax tree implementation.
80 It should also unlock efficient light-parsing approaches.
81 For example, you can extract the set of names defined in a file (for typo correction) without building a syntax tree.
82
83 **Architecture Invariant:** parsing never fails, the parser produces `(T, Vec<Error>)` rather than `Result<T, Error>`.
84
85 ### `crates/syntax`
86
87 Rust syntax tree structure and parser.
88 See [RFC](https://github.com/rust-lang/rfcs/pull/2256) and [./syntax.md](./syntax.md) for some design notes.
89
90 - [rowan](https://github.com/rust-analyzer/rowan) library is used for constructing syntax trees.
91 - `ast` provides a type safe API on top of the raw `rowan` tree.
92 - `ungrammar` description of the grammar, which is used to generate `syntax_kinds` and `ast` modules, using `cargo xtask codegen` command.
93
94 Tests for ra_syntax are mostly data-driven.
95 `test_data/parser` contains subdirectories with a bunch of `.rs` (test vectors) and `.txt` files with corresponding syntax trees.
96 During testing, we check `.rs` against `.txt`.
97 If the `.txt` file is missing, it is created (this is how you update tests).
98 Additionally, running `cargo xtask codegen` will walk the grammar module and collect all `// test test_name` comments into files inside `test_data/parser/inline` directory.
99
100 To update test data, run with `UPDATE_EXPECT` variable:
101
102 ```bash
103 env UPDATE_EXPECT=1 cargo qt
104 ```
105
106 After adding a new inline test you need to run `cargo xtest codegen` and also update the test data as described above.
107
108 Note  [`api_walkthrough`](https://github.com/rust-analyzer/rust-analyzer/blob/2fb6af89eb794f775de60b82afe56b6f986c2a40/crates/ra_syntax/src/lib.rs#L190-L348)
109 in particular: it shows off various methods of working with syntax tree.
110
111 See [#93](https://github.com/rust-analyzer/rust-analyzer/pull/93) for an example PR which fixes a bug in the grammar.
112
113 **Architecture Invariant:** `syntax` crate is completely independent from the rest of rust-analyzer, it knows nothing about salsa or LSP.
114 This is important because it is possible to useful tooling using only syntax tree.
115 Without semantic information, you don't need to be able to _build_ code, which makes the tooling more robust.
116 See also https://web.stanford.edu/~mlfbrown/paper.pdf.
117 You can view the `syntax` crate as an entry point to rust-analyzer.
118 `syntax` crate is an **API Boundary**.
119
120 **Architecture Invariant:** syntax tree is a value type.
121 The tree is fully determined by the contents of its syntax nodes, it doesn't need global context (like an interner) and doesn't store semantic info.
122 Using the tree as a store for semantic info is convenient in traditional compilers, but doesn't work nicely in the IDE.
123 Specifically, assists and refactors require transforming syntax trees, and that becomes awkward if you need to do something with the semantic info.
124
125 **Architecture Invariant:** syntax tree is build for a single file.
126 This is to enable parallel parsing of all files.
127
128 **Architecture Invariant:**  Syntax trees are by design incomplete and do not enforce well-formedness.
129 If an AST method returns an `Option`, it *can* be `None` at runtime, even if this is forbidden by the grammar.
130
131 ### `crates/base_db`
132
133 We use the [salsa](https://github.com/salsa-rs/salsa) crate for incremental and on-demand computation.
134 Roughly, you can think of salsa as a key-value store, but it also can compute derived values using specified functions. The `base_db` crate provides basic infrastructure for interacting with salsa.
135 Crucially, it defines most of the "input" queries: facts supplied by the client of the analyzer.
136 Reading the docs of the `base_db::input` module should be useful: everything else is strictly derived from those inputs.
137
138 **Architecture Invariant:** particularities of the build system are *not* the part of the ground state.
139 In particular, `base_db` knows nothing about cargo.
140 The `CrateGraph` structure is used to represent the dependencies between the crates abstractly.
141
142 **Architecture Invariant:** `base_db` doesn't know about file system and file paths.
143 Files are represented with opaque `FileId`, there's no operation to get an `std::path::Path` out of the `FileId`.
144
145 ### `crates/hir_expand`, `crates/hir_def`, `crates/hir_ty`
146
147 These crates are the *brain* of rust-analyzer.
148 This is the compiler part of the IDE.
149
150 `hir_xxx` crates have a strong ECS flavor, in that they work with raw ids and directly query the database.
151 There's little abstraction here.
152 These crates integrate deeply with salsa and chalk.
153
154 Name resolution, macro expansion and type inference all happen here.
155 These crates also define various intermediate representations of the core.
156
157 `ItemTree` condenses a single `SyntaxTree` into a "summary" data structure, which is stable over modifications to function bodies.
158
159 `DefMap` contains the module tree of a crate and stores module scopes.
160
161 `Body` stores information about expressions.
162
163 **Architecture Invariant:** this crates are not, and will never be, an api boundary.
164
165 **Architecture Invariant:** these creates explicitly care about being incremental.
166 The core invariant we maintain is "typing inside a function's body never invalidates global derived data".
167 Ie, if you change body of `foo`, all facts about `bar` should remain intact.
168
169 **Architecture Invariant:** hir exists only in context of particular crate instance with specific CFG flags.
170 The same syntax may produce several instances of HIR if the crate participates in the crate graph more than once.
171
172 ### `crates/hir`
173
174 The top-level `hir` crate is an **API Boundary**.
175 If you think about "using rust-analyzer as a library", `hir` crate is most likely the façade you'll be talking to.
176
177 It wraps ECS-style internal API into a more OO-flavored API (with an extra `db` argument for each call).
178
179 **Architecture Invariant:** `hir` provides a static, fully resolved view of the code.
180 While internal `hir_*` crates _compute_ things, `hir`, from the outside, looks like an inert data structure.
181
182 `hir` also handles the delicate task of going from syntax to the corresponding `hir`.
183 Remember that the mapping here is one-to-many.
184 See `Semantics` type and `source_to_def` module.
185
186 Note in particular a curious recursive structure in `source_to_def`.
187 We first resolve the parent _syntax_ node to the parent _hir_ element.
188 Then we ask the _hir_ parent what _syntax_ children does it have.
189 Then we look for our node in the set of children.
190
191 This is the heart of many IDE features, like goto definition, which start with figuring out a hir node at the cursor.
192 This is some kind of (yet unnamed) uber-IDE pattern, as it is present in Roslyn and Kotlin as well.
193
194 ### `crates/ide`
195
196 The `ide` crate build's on top of `hir` semantic model to provide high-level IDE features like completion or goto definition.
197 It is an **API Boundary**.
198 If you want to use IDE parts of rust-analyzer via LSP, custom flatbuffers-based protocol or just as a library in your text editor, this is the right API.
199
200 **Architecture Invariant:** `ide` crate's API is build out of POD types with public fields.
201 The API uses editor's terminology, it talks about offsets and string labels rather than in terms of definitions or types.
202 It is effectively the view in MVC and viewmodel in [MVVM](https://en.wikipedia.org/wiki/Model%E2%80%93view%E2%80%93viewmodel).
203 All arguments and return types are conceptually serializable.
204 In particular, syntax tress and and hir types are generally absent from the API (but are used heavily in the implementation).
205 Shout outs to LSP developers for popularizing the idea that "UI" is a good place to draw a boundary at.
206
207 `ide` is also the first crate which has the notion of change over time.
208 `AnalysisHost` is a state to which you can transactionally `apply_change`.
209 `Analysis` is an immutable snapshot of the state.
210
211 Internally, `ide` is split across several crates. `ide_assists`, `ide_completion` and `ide_ssr` implement large isolated features.
212 `ide_db` implements common IDE functionality (notably, reference search is implemented here).
213 The `ide` contains a public API/façade, as well as implementation for a plethora of smaller features.
214
215 **Architecture Invariant:** `ide` crate strives to provide a _perfect_ API.
216 Although at the moment it has only one consumer, the LSP server, LSP *does not* influence it's API design.
217 Instead, we keep in mind a hypothetical _ideal_ client -- an IDE tailored specifically for rust, every nook and cranny of which is packed with Rust-specific goodies.
218
219 ### `crates/rust-analyzer`
220
221 This crate defines the `rust-analyzer` binary, so it is the **entry point**.
222 It implements the language server.
223
224 **Architecture Invariant:** `rust-analyzer` is the only crate that knows about LSP and JSON serialization.
225 If you want to expose a datastructure `X` from ide to LSP, don't make it serializable.
226 Instead, create a serializable counterpart in `rust-analyzer` crate and manually convert between the two.
227
228 `GlobalState` is the state of the server.
229 The `main_loop` defines the server event loop which accepts requests and sends responses.
230 Requests that modify the state or might block user's typing are handled on the main thread.
231 All other requests are processed in background.
232
233 **Architecture Invariant:** the server is stateless, a-la HTTP.
234 Sometimes state needs to be preserved between requests.
235 For example, "what is the `edit` for the fifth's completion item of the last completion edit?".
236 For this, the second request should include enough info to re-create the context from scratch.
237 This generally means including all the parameters of the original request.
238
239 `reload` module contains the code that handles configuration and Cargo.toml changes.
240 This is a tricky business.
241
242 **Architecture Invariant:** `rust-analyzer` should be partially available even when the build is broken.
243 Reloading process should not prevent IDE features from working.
244
245 ### `crates/toolchain`, `crates/project_model`, `crates/flycheck`
246
247 These crates deal with invoking `cargo` to learn about project structure and get compiler errors for the "check on save" feature.
248
249 They use `crates/path` heavily instead of `std::path`.
250 A single `rust-analyzer` process can serve many projects, so it is important that server's current directory does not leak.
251
252 ### `crates/mbe`, `crated/tt`, `crates/proc_macro_api`, `crates/proc_macro_srv`
253
254 These crates implement macros as token tree -> token tree transforms.
255 They are independent from the rest of the code.
256
257 ### `crates/cfg`
258
259 This crate is responsible for parsing, evaluation and general definition of `cfg` attributes.
260
261 ### `crates/vfs`, `crates/vfs-notify`
262
263 These crates implement a virtual fils system.
264 They provide consistent snapshots of the underlying file system and insulate messy OS paths.
265
266 **Architecture Invariant:** vfs doesn't assume a single unified file system.
267 IE, a single rust-analyzer process can act as a remote server for two different machines, where the same `/tmp/foo.rs` path points to different files.
268 For this reason, all path APIs generally take some existing path as a "file system witness".
269
270 ### `crates/stdx`
271
272 This crate contains various non-rust-analyzer specific utils, which could have been in std, as well
273 as copies of unstable std items we would like to make use of already, like `std::str::split_once`.
274
275 ### `crates/profile`
276
277 This crate contains utilities for CPU and memory profiling.
278
279
280 ## Cross-Cutting Concerns
281
282 This sections talks about the things which are everywhere and nowhere in particular.
283
284 ### Code generation
285
286 Some of the components of this repository are generated through automatic processes.
287 `cargo xtask codegen` runs all generation tasks.
288 Generated code is generally committed to the git repository.
289 There are tests to check that the generated code is fresh.
290
291 In particular, we generate:
292
293 * API for working with syntax trees (`syntax::ast`, the [`ungrammar`](https://github.com/rust-analyzer/ungrammar) crate).
294 * Various sections of the manual:
295
296     * features
297     * assists
298     * config
299
300 * Documentation tests for assists
301
302 **Architecture Invariant:** we avoid bootstrapping.
303 For codegen we need to parse Rust code.
304 Using rust-analyzer for that would work and would be fun, but it would also complicate the build process a lot.
305 For that reason, we use syn and manual string parsing.
306
307 ### Cancellation
308
309 Let's say that the IDE is in the process of computing syntax highlighting, when the user types `foo`.
310 What should happen?
311 `rust-analyzer`s answer is that the highlighting process should be cancelled -- its results are now stale, and it also blocks modification of the inputs.
312
313 The salsa database maintains a global revision counter.
314 When applying a change, salsa bumps this counter and waits until all other threads using salsa finish.
315 If a thread does salsa-based computation and notices that the counter is incremented, it panics with a special value (see `Canceled::throw`).
316 That is, rust-analyzer requires unwinding.
317
318 `ide` is the boundary where the panic is caught and transformed into a `Result<T, Cancelled>`.
319
320 ### Testing
321
322 Rust Analyzer has three interesting [systems boundaries](https://www.tedinski.com/2018/04/10/making-tests-a-positive-influence-on-design.html) to concentrate tests on.
323
324 The outermost boundary is the `rust-analyzer` crate, which defines an LSP interface in terms of stdio.
325 We do integration testing of this component, by feeding it with a stream of LSP requests and checking responses.
326 These tests are known as "heavy", because they interact with Cargo and read real files from disk.
327 For this reason, we try to avoid writing too many tests on this boundary: in a statically typed language, it's hard to make an error in the protocol itself if messages are themselves typed.
328 Heavy tests are only run when `RUN_SLOW_TESTS` env var is set.
329
330 The middle, and most important, boundary is `ide`.
331 Unlike `rust-analyzer`, which exposes API, `ide` uses Rust API and is intended to use by various tools.
332 Typical test creates an `AnalysisHost`, calls some `Analysis` functions and compares the results against expectation.
333
334 The innermost and most elaborate boundary is `hir`.
335 It has a much richer vocabulary of types than `ide`, but the basic testing setup is the same: we create a database, run some queries, assert result.
336
337 For comparisons, we use the `expect` crate for snapshot testing.
338
339 To test various analysis corner cases and avoid forgetting about old tests, we use so-called marks.
340 See the `marks` module in the `test_utils` crate for more.
341
342 **Architecture Invariant:** rust-analyzer tests do not use libcore or libstd.
343 All required library code must be a part of the tests.
344 This ensures fast test execution.
345
346 **Architecture Invariant:** tests are data driven and do not test API.
347 Tests which directly call various API functions are a liability, because they make refactoring the API significantly more complicated.
348 So most of the tests look like this:
349
350 ```rust
351 fn check(input: &str, expect: expect_test::Expect) {
352     // The single place that actually exercises a particular API
353 }
354
355
356 #[test]
357 fn foo() {
358     check("foo", expect![["bar"]]);
359 }
360
361 #[test]
362 fn spam() {
363     check("spam", expect![["eggs"]]);
364 }
365 // ...and a hundred more tests that don't care about the specific API at all.
366 ```
367
368 To specify input data, we use a single string literal in a special format, which can describe a set of rust files.
369 See the `Fixture` type.
370
371 **Architecture Invariant:** all code invariants are tested by `#[test]` tests.
372 There's no additional checks in CI, formatting and tidy tests are run with `cargo test`.
373
374 **Architecture Invariant:** tests do not depend on any kind of external resources, they are perfectly reproducible.
375
376 ### Observability
377
378 I've run out of steam here :)
379 rust-analyzer is a long-running process, so its important to understand what's going on inside.
380 We have hierarchical profiler (`RA_PROFILER=1`) and object counting (`RA_COUNT=1`).