Support \r and \r\n line breaks in tokenizer

2025-11-20 06:45:31 +00:00 · 2019-02-12 01:15:47 +03:00 · 2019-02-12 01:15:47 +03:00 · 6f44494910
commit 6f44494910
parent ef76baa7fd
1 changed files with 28 additions and 0 deletions
--- a/src/sqltokenizer.rs
+++ b/src/sqltokenizer.rs
@ -272,6 +272,14 @@ impl<'a> Tokenizer<'a> {
                    chars.next();
                    Ok(Some(Token::Whitespace(Whitespace::Newline)))
                }
+                '\r' => {
+                    // Emit a single Whitespace::Newline token for \r and \r\n
+                    chars.next();
+                    if let Some('\n') = chars.peek() {
+                        chars.next();
+                    }
+                    Ok(Some(Token::Whitespace(Whitespace::Newline)))
+                }
                'N' => {
                    chars.next(); // consume, to check the next char
                    match chars.peek() {
@ -743,6 +751,26 @@ mod tests {
        compare(expected, tokens);
    }

+    #[test]
+    fn tokenize_newlines() {
+        let sql = String::from("line1\nline2\rline3\r\nline4\r");
+
+        let dialect = GenericSqlDialect {};
+        let mut tokenizer = Tokenizer::new(&dialect, &sql);
+        let tokens = tokenizer.tokenize().unwrap();
+        let expected = vec![
+            Token::make_word("line1", None),
+            Token::Whitespace(Whitespace::Newline),
+            Token::make_word("line2", None),
+            Token::Whitespace(Whitespace::Newline),
+            Token::make_word("line3", None),
+            Token::Whitespace(Whitespace::Newline),
+            Token::make_word("line4", None),
+            Token::Whitespace(Whitespace::Newline),
+        ];
+        compare(expected, tokens);
+    }
+
    fn compare(expected: Vec<Token>, actual: Vec<Token>) {
        //println!("------------------------------");
        //println!("tokens   = {:?}", actual);