From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

The Capacity for Moral Self-Correction in Large Language Models.

D. Ganguli, A. Askell, N. Schiefer, T. Liao, K. Lukosiute, A. Chen, A. Goldie, A. Mirhoseini, C. Olsson, D. Hernandez, D. Drain, D. Li, E. Tran-Johnson, E. Perez, J. Kernion, J. Kerr, J. Mueller, J. Landau, K. Ndousse, K. Nguyen, L. Lovitt, M. Sellitto, N. Elhage, N. Mercado, N. DasSarma, O. Rausch, R. Lasenby, R. Larson, S. Ringer, S. Kundu, S. Kadavath, S. Johnston, S. Kravec, S. Showk, T. Lanham, T. Telleen-Lawton, T. Henighan, T. Hume, Y. Bai, Z. Hatfield-Dodds, B. Mann, D. Amodei, N. Joseph, S. McCandlish, T. Brown, C. Olah, J. Clark, S. Bowman, и J. Kaplan. CoRR, (2023)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Fritz Nelson

Nelson Siao

Nelson Kilpp

Nelson Valdivia

Nelson Noroozi

Другие публикации лиц с тем же именем

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned.D. Ganguli, L. Lovitt, J. Kernion, A. Askell, Y. Bai, S. Kadavath, B. Mann, E. Perez, N. Schiefer, K. Ndousse и 26 other автор(ы). CoRR, (2022)The Capacity for Moral Self-Correction in Large Language Models.D. Ganguli, A. Askell, N. Schiefer, T. Liao, K. Lukosiute, A. Chen, A. Goldie, A. Mirhoseini, C. Olsson, D. Hernandez и 39 other автор(ы). CoRR, (2023)Language Models (Mostly) Know What They KnowS. Kadavath, T. Conerly, A. Askell, T. Henighan, D. Drain, E. Perez, N. Schiefer, Z. Hatfield-Dodds, N. DasSarma, E. Tran-Johnson и 26 other автор(ы). (2022)cite arxiv:2207.05221Comment: 23+17 pages; refs added, typos fixed.Language Models (Mostly) Know What They Know.S. Kadavath, T. Conerly, A. Askell, T. Henighan, D. Drain, E. Perez, N. Schiefer, Z. Hatfield-Dodds, N. DasSarma, E. Tran-Johnson и 26 other автор(ы). CoRR, (2022)Discovering Language Model Behaviors with Model-Written Evaluations.E. Perez, S. Ringer, K. Lukosiute, K. Nguyen, E. Chen, S. Heiner, C. Pettit, C. Olsson, S. Kundu, S. Kadavath и 53 other автор(ы). ACL (Findings), стр. 13387-13434. Association for Computational Linguistics, (2023)In-context Learning and Induction Heads.C. Olsson, N. Elhage, N. Nanda, N. Joseph, N. DasSarma, T. Henighan, B. Mann, A. Askell, Y. Bai, A. Chen и 16 other автор(ы). CoRR, (2022)Specific versus General Principles for Constitutional AI.S. Kundu, Y. Bai, S. Kadavath, A. Askell, A. Callahan, A. Chen, A. Goldie, A. Balwit, A. Mirhoseini, B. McLean и 26 other автор(ы). CoRR, (2023)Security Impact Ratings Considered Harmful.J. Arnold, T. Abbott, W. Daher, G. Price, N. Elhage, G. Thomas, и A. Kaseorg. HotOS, USENIX Association, (2009)Toy Models of Superposition.N. Elhage, T. Hume, C. Olsson, N. Schiefer, T. Henighan, S. Kravec, Z. Hatfield-Dodds, R. Lasenby, D. Drain, C. Chen и 6 other автор(ы). CoRR, (2022)Predictability and Surprise in Large Generative Models.D. Ganguli, D. Hernandez, L. Lovitt, A. Askell, Y. Bai, A. Chen, T. Conerly, N. DasSarma, D. Drain, N. Elhage и 20 other автор(ы). FAccT, стр. 1747-1764. ACM, (2022)

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter